熱線電話:13121318867

登錄
首頁精彩閱讀聚類分析的方法及應用
聚類分析的方法及應用
2016-08-06
收藏

聚類分析的方法及應用

通常,我們在研究與處理事物時,經常需要將事物進行分類,例如地質勘探中根據物探、化探的指標將樣本進行分類;古生物研究中根據挖掘出的骨骼形狀和尺寸將它們分類;大壩監控中由于所得的觀測數據量十分龐大,有時亦需將它們分類歸并,獲得其典型代表再進行深入分析等,對事物進行分類,進而歸納并發現其規律已成為人們認識世界、改造世界的一種重要方法。

由于對象的復雜性,僅憑經驗和專業知識有時不能確切地分類,隨著多元統計技術的發展和計算機技術的普及,利用數學方法進行更科學的分類不僅非常必要而且完全可能。


近些年來,數值分類學逐漸形成了一個新的分支,稱為聚類分析,聚類分析適用于很多不同類型的數據集合,很多研究領域,如工程、生物、醫藥、語言、人類學、心理學和市場學等,都對聚類技術的發展和應用起到了推動作用。

1、什么是聚類分析?

聚類分析也稱群分析或點群分析,它是研究多要素事物分類問題的數量方法,是一種新興的多元統計方法,是當代分類學與多元分析的結合。其基本原理是,根據樣本自身的屬性,用數學方法按照某種相似性或差異性指標,定量地確定樣本之間的親疏關系,并按這種親疏關系程度對樣本進行聚類。

聚類分析是將分類對象置于一個多維空問中,按照它們空問關系的親疏程度進行分類。

通俗的講,聚類分析就是根據事物彼此不同的屬性進行辨認,將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性。

聚類分析方法,是定量地研究地理事物分類問題和地理分區問題的重要方法,常見的聚類分析方法有系統聚類法、動態聚類法和模糊聚類法等。

2、聚類分析方法的特征

(1)、聚類分析簡單、直觀。

(2)、聚類分析主要應用于探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和后續的分析。

(3)、不管實際數據中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解。

(4)、聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產生實質性的影響。

(5)、研究者在使用聚類分析時應特別注意可能影響結果的各個因素。

(6)、異常值和特殊的變量對聚類有較大影響,當分類變量的測量尺度不一致時,需要事先做標準化處理。

3、聚類分析的發展歷程

在過去的幾年中聚類分析發展方向有兩個:加強現有的聚類算法和發明新的聚類算法?,F在已經有一些加強的算法用來處理大型數據庫和高維度數據,例如小波變換使用多分辨率算法,網格從粗糙到密集從而提高聚類簇的質量。

然而,對于數據量大、維度高并且包含許多噪聲的集合,要找到一個“全能”的聚類算法是非常困難的。某些算法只能解決其中的兩個問題,同時能很好解決三個問題的算法還沒有,現在最大的困難是高維度(同時包含大量噪聲)數據的處理。

算法的可伸縮性是一個重要的指標,通過采用各種技術,一些算法具有很好的伸縮性。這些技術包括:數據采樣、信息濃縮、網格和索引。

CLARANS是最早使用數據采樣的算法,CURE使用優選的采樣點,信息濃縮技術在BIRCH方法和DECLIJE方法中得到應用。

許多算法都使用了索引技術,典型的有:BIRCH方法、DBSCAN方法、小波變換方法、DENCLUE方法、DENCLUE方法、小波變換方法、STING方法和CLIQUE方法使用了網格技術。

但是以上方法仍然不能很好地處理高維度并且大數據量的集合。

最近馬海祥還發現了一些新的技術如:STING+方法引入動態數據挖掘觸發器:mAFIA方法引入間距尺寸自適應網格分割算法;OptiGrid算法使用迭代和網格等技術處理高維度數據。

新技術的引進大大加強了聚類算法的效能,尤其提升了處理高維度數據的能力,但是由于這些算法剛剛形成,所以在某些地方還有待完善,對于剛接觸數據分析的博友,可以先看下馬海祥博客的《解讀常用的10種可用性研究數據類型方法》相關介紹。

4、系統聚類分析法

系統聚類法(Hierarchical Clustering Method)是目前國內外使用晟多的一種方法,有關它的研究極為豐富。其基本思想是:先將11個樣本各自看成一類,然后規定樣本之間的距離和類與類之間的距離;然后選擇距離最小的一對并成一個新類,計算新類和其他類的距離;再將距離最小的兩類合并,這樣每次減少一類,直至所有的樣本都成為一類為止。

在馬海祥看來系統聚類法的優點在于:利用樣本之問的距離最近原則進行聚類。這種系統歸類過程與所規定的歸類指數有關,同時也與具體的歸類方法有關系,整個聚類過程可用一張聚類圖(樹)形象表示。

在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的準確性和可靠性,在地理分類和研究分區中,被聚類的對象常常是多個要素構成的。

不同要素的數據往往具有不同的單位和量綱,其數值的變異可能是很大的,這就會對分類結果產生影響,因此當分類要素的對象確定之后,在進行聚類分析之前,首先要對數據要素進行處理。

在聚類分析中,常用的聚類要素的數據處理方法有如下幾種:

①、總和標準化

②、標準差標準化

③、極大值標準化

④、極差的標準化

經過這種標準化所得的新數據,各要素的極大值為1,極小值為0,其余的數值均在0與1之間。

距離是事物之間差異性的測度,差異性越大,則相似性越小,所以距離是系統聚類分析的依據和基礎。

5、聚類分析的3種方法

聚類分析是數據挖掘中的一個很活躍的研究領域,并提出了許多聚類算法。

(1)、直接聚類法

直接聚類法是根據距離矩陣的結構一次并類得到結果,其基本步驟如下:

①、把各個分類對象單獨視為一類;

②、根據距離最小的原則,依次選出一對分類對象,并成新類;

③、如果其中一個分類對象已歸于一類,則把另一個也歸入該類;如果一對分類對象正好屬于已歸的兩類,則把這兩類并為一類;每一次歸并,都劃去該對象所在的列與列序相同的行;

④、那么,經過m-1次就可以把全部分類對象歸為一類,這樣就可以根據歸并的先后順序作出聚類譜系圖,直接聚類法雖然簡便,但在歸并過程中是劃去行和列的,因而難免有信息損失,因此,直接聚類法并不是最好的系統聚類方法。

(2)、最短距離聚類法

最短距離聚類法是在原來的m×m距離矩陣的非對角元素中找出 ,把分類對象Gp和Gq歸并為一新類Gr,然后按計算公式計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣。

再從新的距離矩陣中選出最小者,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。

(3)、最遠距離聚類法

最遠距離聚類法與最短距離聚類法的區別在于計算原來的類與新類距離采用的公式不同。

6、系統聚類方法的步驟

(1)、對數據進行變換處理;(不是必須的,當數量級相差很大或指標變量具有不同單位時是必要的)

(2)、構造n個類,每個類只包含一個樣本;

(3)、計算n個樣本兩兩間的距離;

(4)、合并距離最近的兩類為一新類;

(5)、計算新類與當前各類的距離,若類的個數等于1,轉到6;否則回4;

(6)、畫聚類圖;

(7)、決定類的個數,從而得出分類結果。

7、聚類分析的主要應用

對于聚類分析的應用,馬海祥簡單的從以下6個領域為大家總結了一下:

(1)、商業

聚類分析被用來發現不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。

聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。

(2)、生物

聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識。

(3)、地理

聚類能夠幫助在地球中被觀察的數據庫商趨于的相似性。

(4)、保險行業

聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據住宅類型,價值,地理位置來鑒定一個城市的房產分組。

(5)、因特網

聚類分析被用來在網上進行文檔歸類來修復信息。

(6)、電子商務

聚類分析在電子商務中網站建設數據挖掘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。

聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類,聚類分析所使用方法的不同,常常會得到不同的結論,不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢