熱線電話:13121318867

登錄
首頁精彩閱讀SPSS聚類分析:二階聚類分析
SPSS聚類分析:二階聚類分析
2017-12-18
收藏

SPSS聚類分析:二階聚類分析

一、概念(分析-分類-兩步聚類)。

是一個探索工具,用來揭示數據集中的自然分組(或聚類),如果不揭示,這些分組是不明顯的。此過程使用的算法有多個不錯的特征使其區分于傳統聚類技術:◎分類變量和連續變量的處理。通過假設變量是獨立的,可以假設分類變量和連續變量服從聯合多項正態分布?!?a href='/map/julei/' style='color:#000;font-size:inherit;'>聚類數的自動選擇。通過跨不同的聚類解比較模型選擇準則的值,該過程可以自動確定最優的聚類數?!蚩煽s放性。通過構造摘要記錄的聚類特征(CF)樹,二階算法允許您分析大型數據文件。

二、說明(分析-分類-兩步聚類

   1、距離測量。此選項確定如何計算兩個聚類之間的相似性?!驅迪嗨菩?。該似然度量假設變量服從某種概率分布。假設連續變量是正態分布,而假設分類變量是多項分布。假設所有變量均是獨立的?!驓W幾里德距離。歐幾里德距離測量是兩個聚類之間的“直線”距離。它只能用于所有變量連續的情況。

2、聚類數。此選項允許您指定如何確定聚類數?!蜃詣哟_定。該過程將使用在“聚類準則”組中指定的準則,自動確定“最好”的聚類數?;蛘?,還可以輸入一個正整數指定過程應考慮的最大聚類數?!蛑付ü潭ㄖ?。允許您固定解中的聚類數。最小值不能大于最大值。

3、連續變量計數。此組提供了在“選項”對話框中指定的連續變量標準化的摘要。

4、聚類準則。此選項確定自動聚類算法如何確定聚類數??梢灾付˙ayesian信息準則(BIC)或Akaike信息準則(AIC)。

5、假設。似然距離測量假設聚類模型中的變量是獨立的。而且,假設每個連續變量具有正態(高斯)分布,假設每個分類變量具有多項分布。經驗內部檢驗表明,該過程對于違反獨立性假設和分布假設均相當穩健,但您應嘗試了解這些假設符合的程度。使用雙變量相關過程可檢驗兩個連續變量的獨立性。使用交叉表過程可檢驗兩個分類變量的獨立性。使用均值過程可檢驗連續變量和分類變量之間的獨立性。使用探索過程可檢驗連續變量的正態性。使用卡方檢驗過程可檢驗分類變量是否具有指定的多項分布。

三、選項(分析-分類-兩步聚類-選項)

1、離群值處理。該組允許您在聚類特征(CF)樹填滿的情況下,在聚類過程中特別地處理離群值。如果CF樹的葉節點中不能接受更多的個案,且所有葉節點均不能分割,則

說明CF樹已滿。

2、內存分配。此組允許您以兆字節(MB)為單位,指定聚類算法應使用的最大的內存量。如果該過程超過了此最大值,則將使用磁盤存儲內存中放不下的信息。請指定大于等于4的數。

3、變量標準化。聚類算法處理標準化連續變量。任何未標準化的連續變量都應保留為“要標準化的變量”列表中的變量。為了節省部分時間和計算工作,您可以選擇任何已標準化的連續變量作為“假定已標準化的變量”列表中的變量。

4、CF樹調節準則。以下聚類算法設置特別地應用到聚類特征(CF)樹,且應謹慎地更改:◎初始距離更改閾值。這是用來使CF樹生長的初始閾值。如果將給定的個案插入到CF樹的葉子中將生成小于閾值的緊度,則不會分割葉子。如果緊度超過閾值,則會分割葉子?!蜃畲蠓种В總€葉節點)。葉節點可以具有的最大子節點數?!蜃畲髽渖疃?。CF樹可以具有的最大級別數?!蚩赡艿淖畲蠊濣c數。這指示過程可能生成的最大CF樹節點數,基于函數(bd+1–1)/ (b–1),其中b是最大分支,d是最大樹深度。請注意,非常大的CF樹可能會耗盡系統資源,從而對過程的性能產生不利影響。每個節點最少需要16個字節。

5、聚類模型更新。此組允許您導入和更新在先前分析中生成的聚類模型。輸入文件以XML格式包含CF樹。然后將使用活動文件中的數據更新模型。必須在主對話框中以與先前分析中指定的順序相同的順序選擇變量名。除非您專門將新的模型信息寫到相同的文件名中,否則該XML文件保持不變。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢