熱線電話:13121318867

登錄
首頁精彩閱讀聚類分析:大數據時代數據挖掘的關鍵突破口
聚類分析:大數據時代數據挖掘的關鍵突破口
2015-12-01
收藏

聚類分析:大數據時代數據挖掘的關鍵突破口


什么是聚類分析?聚類分析有什么用?聚類算法有哪些?聚類分析的應用……這些問題的探究可為大數據時代數據分析數據挖掘找到關鍵突破口!

人類文明已邁入大數據時代,得“數據”者得天下,但你"數據分析師"不能把海量數據一下推給用戶,那是毫無價值的。"數據分析師"需要把通過對海量數據的挖掘、處理、分析,得出結果,然后給用戶,這才是有價值的“數據”。

由此,數據處理技術必不可少,那么說到大數據分析中的應用,還得先說說聚類算法。數據挖掘常用的經典算法之一就是聚類法,是數據挖掘采用的起步技術,也是數據挖掘入門的一項關鍵技術。

一、什么是聚類分析?

聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程,其目的是在相似的基礎上收集數據來分類。

聚類類似于分類,但與分類的目的不同,是針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。聚類與分類的不同還在于,聚類所要求劃分的類是未知的。

二、聚類分析的重要性

“物以類聚,人以群分”,這是人類幾千年來認識世界和社會的基本能力,是從大數據中發現價值必須面對的一個普遍性、基礎性問題,是認知科學作為“學科的學科”要解決的首要問題。無論是政治、經濟、文學、歷史、社會、文化、還是數理、化工、醫農、交通、地理、各行各業的大數據或宏觀或微觀的任何價值發現,無不借助于大數據聚類分析的結果,因此,數據分析和挖掘的首要問題是聚類,這種聚類是跨學科、跨領域、跨媒體的。大數據聚類是數據密集型科學的基礎性、普遍性問題。

可以毫不夸張的講,如果聚類算法都搞不明白,或者說沒有“落地”的“實例”,那說在搞數據挖掘就純粹是忽悠了。

人類的認知科學要想有所突破,首先就要在大數據聚類上去的突破,聚類是挖掘大數據資產價值的第一步。

三、聚類算法的種類

作為數據挖掘中很活躍的一個研究領域,聚類分析有多種算法。

基于劃分聚類算法:

k-means:

是一種典型的劃分聚類算法,它用一個聚類的中心來代表一個簇,即在迭代過程中選擇的聚點不一定是聚類中的一個點,該算法只能處理數值型數據

k-modes:

K-Means算法的擴展,采用簡單匹配方法來度量分類型數據的相似度

k-prototypes:

結合了K-Means和K-Modes兩種算法,能夠處理混合型數據

k-medoids:

在迭代過程中選擇簇中的某點作為聚點,PAM是典型的k-medoids算法

CLARA:

CLARA算法在PAM的基礎上采用了抽樣技術,能夠處理大規模數據

CLARANS:

CLARANS算法融合了PAM和CLARA兩者的優點,是第一個用于空間數據庫的聚類算法

Focused CLARAN:

采用了空間索引技術提高了CLARANS算法的效率

PCM:

模糊集合理論引入聚類分析中并提出了PCM模糊聚類算法


    基于層次聚類算法:

CURE:

采用抽樣技術先對數據集D隨機抽取樣本,再采用分區技術對樣本進行分區,然后對每個分區局部聚類,最后對局部聚類進行全局聚類

ROCK:

也采用了隨機抽樣技術,該算法在計算兩個對象的相似度時,同時考慮了周圍對象的影響

CHEMALOEN(變色龍算法):

首先由數據集構造成一個K-最近鄰圖Gk ,再通過一個圖的劃分算法將圖Gk 劃分成大量的子圖,每個子圖代表一個初始子簇,最后用一個凝聚的層次聚類算法反復合并子簇,找到真正的結果簇

SBAC:

SBAC算法則在計算對象間相似度時,考慮了屬性特征對于體現對象本質的重要程度,對于更能體現對象本質的屬性賦予較高的權值

BIRCH:

BIRCH算法利用樹結構對數據集進行處理,葉結點存儲一個聚類,用中心和半徑表示,順序處理每一個對象,并把它劃分到距離最近的結點,該算法也可以作為其他聚類算法的預處理過程

BUBBLE:

BUBBLE算法則把BIRCH算法的中心和半徑概念推廣到普通的距離空間

BUBBLE-FM:

BUBBLE-FM算法通過減少距離的計算次數,提高了BUBBLE算法的效率


    基于密度聚類算法:

DBSCAN:

DBSCAN算法是一種典型的基于密度的聚類算法,該算法采用空間索引技術來搜索對象的鄰域,引入了“核心對象”和“密度可達”等概念,從核心對象出發,把所有密度可達的對象組成一個簇

GDBSCAN:

算法通過泛化DBSCAN算法中鄰域的概念,以適應空間對象的特點

OPTICS:

OPTICS算法結合了聚類的自動性和交互性,先生成聚類的次序,可以對不同的聚類設置不同的參數,來得到用戶滿意的結果

FDC:

FDC算法通過構造k-d tree把整個數據空間劃分成若干個矩形空間,當空間維數較少時可以大大提高DBSCAN的效率


基于網格的聚類算法:

STING:

利用網格單元保存數據統計信息,從而實現多分辨率的聚類

WaveCluster:

在聚類分析中引入了小波變換的原理,主要應用于信號處理領域。(備注:小波算法在信號處理,圖形圖像,加密解密等領域有重要應用,是一種比較高深和牛逼的東西)

CLIQUE:

是一種結合了網格和密度的聚類算法

基于神經網絡的聚類算法:

自組織神經網絡SOM:

該方法的基本思想是--由外界輸入不同的樣本到人工的自組織映射網絡中,一開始時,輸入樣本引起輸出興奮細胞的位置各不相同,但自組織后會形成一些細胞群,它們分別代表了輸入樣本,反映了輸入樣本的特征


    基于統計學的聚類算法:

COBWeb:

COBWeb是一個通用的概念聚類方法,它用分類樹的形式表現層次聚類

AutoClass:

是以概率混合模型為基礎,利用屬性的概率分布來描述聚類,該方法能夠處理混合型的數據,但要求各屬性相互獨立

聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。

四、聚類分析的應用

商業

聚類分析被用來發現不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。

電子商務

聚類分析在電子商務中網站建設數據挖掘中也是很重要的一個方面,數據分析師通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。

大數據作為網絡時代的一種客觀存在,是網絡時代人類社會的重要資產,數據數量巨大等給人們的認知造成了很大的困擾,盡管目前對于大數據的認知存在挑戰,但數據分析師將會成為大數據認知的突破口,這是一個發展趨向。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢