熱線電話:13121318867

登錄
首頁精彩閱讀聚類分析中分類數的確定問題
聚類分析中分類數的確定問題
2018-06-05
收藏

聚類分析中分類數的確定問題

聚類的目的是為了分類,但到底分多少類合適呢?迄今為止它上沒有得到完全解決。

Demirmen曾提出根據樹狀結構圖來分類的準則:

1.任何類都必須在臨近類中是突出的

2.各類所包含的元素不應過多

3.分類數應該符合使用目的

4.采用集中聚類法,聚類圖上應發現相同的類

這些準則是對分類數的探索之一。SAS軟件中作聚類分析,可以控制CCC,PSEUDO選項,這兩組選項對分類數的確定有一定的參考意義。CCC在高惠璇編著的STAT使用手冊中譯作立方聚類標準,它與R和半偏R統計量相關。值得注意的是,它的計算需要方差矩陣存在特征值,它不用在SINGLE聚類方法中。PSEUDO選項可以得到偽的F統計量和t統計量,分別反映當前水平下所有類分離程度和最近合并的兩個類間的分離程度。該選項用在數據是坐標型的(等同的),或者是用在聚類方法為AVERAGE,CENTROID,WARD時。

通常會認為CCC的值大于2或3反映聚類的好,偽F統計量較大顯示聚類,偽t統計量提示分類結點的選擇。

看看STAT文檔中的例子“Cluster Analysis of Fisher’s Iris Data”:

.........................

proc cluster data=iris method=ward print=15ccc pseudo;
var petal: sepal:;
copy species;
run;
proc tree noprintncl=3out=out;
copy petal: sepal: species;
run;

...................................

 

結果如下圖:

 


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢