
聚類分析:大數據時代數據挖掘的關鍵突破口
什么是聚類分析?聚類分析有什么用?聚類算法有哪些?聚類分析的應用……這些問題的探究可為大數據時代數據分析或數據挖掘找到關鍵突破口!
人類文明已邁入大數據時代,得“數據”者得天下,但你"數據分析師"不能把海量數據一下推給用戶,那是毫無價值的。"數據分析師"需要把通過對海量數據的挖掘、處理、分析,得出結果,然后給用戶,這才是有價值的“數據”。
由此,數據處理技術必不可少,那么說到大數據分析中的應用,還得先說說聚類算法。數據挖掘常用的經典算法之一就是聚類法,是數據挖掘采用的起步技術,也是數據挖掘入門的一項關鍵技術。
一、什么是聚類分析?
聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程,其目的是在相似的基礎上收集數據來分類。
聚類類似于分類,但與分類的目的不同,是針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。聚類與分類的不同還在于,聚類所要求劃分的類是未知的。
二、聚類分析的重要性
“物以類聚,人以群分”,這是人類幾千年來認識世界和社會的基本能力,是從大數據中發現價值必須面對的一個普遍性、基礎性問題,是認知科學作為“學科的學科”要解決的首要問題。無論是政治、經濟、文學、歷史、社會、文化、還是數理、化工、醫農、交通、地理、各行各業的大數據或宏觀或微觀的任何價值發現,無不借助于大數據聚類分析的結果,因此,數據分析和挖掘的首要問題是聚類,這種聚類是跨學科、跨領域、跨媒體的。大數據聚類是數據密集型科學的基礎性、普遍性問題。
可以毫不夸張的講,如果聚類算法都搞不明白,或者說沒有“落地”的“實例”,那說在搞數據挖掘就純粹是忽悠了。
人類的認知科學要想有所突破,首先就要在大數據聚類上去的突破,聚類是挖掘大數據資產價值的第一步。
三、聚類算法的種類
作為數據挖掘中很活躍的一個研究領域,聚類分析有多種算法。
基于劃分聚類算法:
k-means: |
是一種典型的劃分聚類算法,它用一個聚類的中心來代表一個簇,即在迭代過程中選擇的聚點不一定是聚類中的一個點,該算法只能處理數值型數據 |
k-modes: |
K-Means算法的擴展,采用簡單匹配方法來度量分類型數據的相似度 |
k-prototypes: |
結合了K-Means和K-Modes兩種算法,能夠處理混合型數據 |
k-medoids: |
在迭代過程中選擇簇中的某點作為聚點,PAM是典型的k-medoids算法 |
CLARA: |
CLARA算法在PAM的基礎上采用了抽樣技術,能夠處理大規模數據 |
CLARANS: |
CLARANS算法融合了PAM和CLARA兩者的優點,是第一個用于空間數據庫的聚類算法 |
Focused CLARAN: |
采用了空間索引技術提高了CLARANS算法的效率 |
PCM: |
模糊集合理論引入聚類分析中并提出了PCM模糊聚類算法 |
基于層次聚類算法:
CURE: |
采用抽樣技術先對數據集D隨機抽取樣本,再采用分區技術對樣本進行分區,然后對每個分區局部聚類,最后對局部聚類進行全局聚類 |
ROCK: |
也采用了隨機抽樣技術,該算法在計算兩個對象的相似度時,同時考慮了周圍對象的影響 |
CHEMALOEN(變色龍算法): |
首先由數據集構造成一個K-最近鄰圖Gk ,再通過一個圖的劃分算法將圖Gk 劃分成大量的子圖,每個子圖代表一個初始子簇,最后用一個凝聚的層次聚類算法反復合并子簇,找到真正的結果簇 |
SBAC: |
SBAC算法則在計算對象間相似度時,考慮了屬性特征對于體現對象本質的重要程度,對于更能體現對象本質的屬性賦予較高的權值 |
BIRCH: |
BIRCH算法利用樹結構對數據集進行處理,葉結點存儲一個聚類,用中心和半徑表示,順序處理每一個對象,并把它劃分到距離最近的結點,該算法也可以作為其他聚類算法的預處理過程 |
BUBBLE: |
BUBBLE算法則把BIRCH算法的中心和半徑概念推廣到普通的距離空間 |
BUBBLE-FM: |
BUBBLE-FM算法通過減少距離的計算次數,提高了BUBBLE算法的效率 |
基于密度聚類算法:
DBSCAN: |
DBSCAN算法是一種典型的基于密度的聚類算法,該算法采用空間索引技術來搜索對象的鄰域,引入了“核心對象”和“密度可達”等概念,從核心對象出發,把所有密度可達的對象組成一個簇 |
GDBSCAN: |
算法通過泛化DBSCAN算法中鄰域的概念,以適應空間對象的特點 |
OPTICS: |
OPTICS算法結合了聚類的自動性和交互性,先生成聚類的次序,可以對不同的聚類設置不同的參數,來得到用戶滿意的結果 |
FDC: |
FDC算法通過構造k-d tree把整個數據空間劃分成若干個矩形空間,當空間維數較少時可以大大提高DBSCAN的效率 |
基于網格的聚類算法:
STING: |
利用網格單元保存數據統計信息,從而實現多分辨率的聚類 |
WaveCluster: |
在聚類分析中引入了小波變換的原理,主要應用于信號處理領域。(備注:小波算法在信號處理,圖形圖像,加密解密等領域有重要應用,是一種比較高深和牛逼的東西) |
CLIQUE: |
是一種結合了網格和密度的聚類算法 |
基于神經網絡的聚類算法:
自組織神經網絡SOM: |
該方法的基本思想是--由外界輸入不同的樣本到人工的自組織映射網絡中,一開始時,輸入樣本引起輸出興奮細胞的位置各不相同,但自組織后會形成一些細胞群,它們分別代表了輸入樣本,反映了輸入樣本的特征 |
基于統計學的聚類算法:
COBWeb: |
COBWeb是一個通用的概念聚類方法,它用分類樹的形式表現層次聚類 |
AutoClass: |
是以概率混合模型為基礎,利用屬性的概率分布來描述聚類,該方法能夠處理混合型的數據,但要求各屬性相互獨立 |
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。
四、聚類分析的應用
商業
聚類分析被用來發現不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。
電子商務
聚類分析在電子商務中網站建設數據挖掘中也是很重要的一個方面,數據分析師通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。
大數據作為網絡時代的一種客觀存在,是網絡時代人類社會的重要資產,數據數量巨大等給人們的認知造成了很大的困擾,盡管目前對于大數據的認知存在挑戰,但數據分析師將會成為大數據認知的突破口,這是一個發展趨向。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24