
是一個探索工具,用來揭示數據集中的自然分組(或聚類),如果不揭示,這些分組是不明顯的。此過程使用的算法有多個不錯的特征使其區分于傳統聚類技術:◎分類變量和連續變量的處理。通過假設變量是獨立的,可以假設分類變量和連續變量服從聯合多項正態分布?!?a href='/map/julei/' style='color:#000;font-size:inherit;'>聚類數的自動選擇。通過跨不同的聚類解比較模型選擇準則的值,該過程可以自動確定最優的聚類數?!蚩煽s放性。通過構造摘要記錄的聚類特征(CF)樹,二階算法允許您分析大型數據文件。
二、說明(分析-分類-兩步聚類)
1、距離測量。此選項確定如何計算兩個聚類之間的相似性?!驅迪嗨菩?。該似然度量假設變量服從某種概率分布。假設連續變量是正態分布,而假設分類變量是多項分布。假設所有變量均是獨立的?!驓W幾里德距離。歐幾里德距離測量是兩個聚類之間的“直線”距離。它只能用于所有變量連續的情況。
2、聚類數。此選項允許您指定如何確定聚類數?!蜃詣哟_定。該過程將使用在“聚類準則”組中指定的準則,自動確定“最好”的聚類數?;蛘?,還可以輸入一個正整數指定過程應考慮的最大聚類數?!蛑付ü潭ㄖ?。允許您固定解中的聚類數。最小值不能大于最大值。
3、連續變量計數。此組提供了在“選項”對話框中指定的連續變量標準化的摘要。
4、聚類準則。此選項確定自動聚類算法如何確定聚類數??梢灾付˙ayesian信息準則(BIC)或Akaike信息準則(AIC)。
5、假設。似然距離測量假設聚類模型中的變量是獨立的。而且,假設每個連續變量具有正態(高斯)分布,假設每個分類變量具有多項分布。經驗內部檢驗表明,該過程對于違反獨立性假設和分布假設均相當穩健,但您應嘗試了解這些假設符合的程度。使用雙變量相關過程可檢驗兩個連續變量的獨立性。使用交叉表過程可檢驗兩個分類變量的獨立性。使用均值過程可檢驗連續變量和分類變量之間的獨立性。使用探索過程可檢驗連續變量的正態性。使用卡方檢驗過程可檢驗分類變量是否具有指定的多項分布。
三、選項(分析-分類-兩步聚類-選項)
1、離群值處理。該組允許您在聚類特征(CF)樹填滿的情況下,在聚類過程中特別地處理離群值。如果CF樹的葉節點中不能接受更多的個案,且所有葉節點均不能分割,則
說明CF樹已滿。
2、內存分配。此組允許您以兆字節(MB)為單位,指定聚類算法應使用的最大的內存量。如果該過程超過了此最大值,則將使用磁盤存儲內存中放不下的信息。請指定大于等于4的數。
3、變量標準化。聚類算法處理標準化連續變量。任何未標準化的連續變量都應保留為“要標準化的變量”列表中的變量。為了節省部分時間和計算工作,您可以選擇任何已標準化的連續變量作為“假定已標準化的變量”列表中的變量。
4、CF樹調節準則。以下聚類算法設置特別地應用到聚類特征(CF)樹,且應謹慎地更改:◎初始距離更改閾值。這是用來使CF樹生長的初始閾值。如果將給定的個案插入到CF樹的葉子中將生成小于閾值的緊度,則不會分割葉子。如果緊度超過閾值,則會分割葉子?!蜃畲蠓种В總€葉節點)。葉節點可以具有的最大子節點數?!蜃畲髽渖疃?。CF樹可以具有的最大級別數?!蚩赡艿淖畲蠊濣c數。這指示過程可能生成的最大CF樹節點數,基于函數(bd+1–1)/ (b–1),其中b是最大分支,d是最大樹深度。請注意,非常大的CF樹可能會耗盡系統資源,從而對過程的性能產生不利影響。每個節點最少需要16個字節。
5、聚類模型更新。此組允許您導入和更新在先前分析中生成的聚類模型。輸入文件以XML格式包含CF樹。然后將使用活動文件中的數據更新模型。必須在主對話框中以與先前分析中指定的順序相同的順序選擇變量名。除非您專門將新的模型信息寫到相同的文件名中,否則該XML文件保持不變。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25