熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘之聚類分析詳解(一)
數據挖掘之聚類分析詳解(一)
2019-01-16
收藏


不管是大數據還是數據挖掘,都離不開聚類分析,而聚類分析是數據挖掘中最經典的一種算法之一,也是數據挖掘工作的基礎,同樣也是數據挖掘的關鍵技術。那么什么是聚類分析呢?聚類分析能夠為我們帶來什么?聚類算法都有哪些?下面我們就給大家介紹一下這些內容。


首先給大家說一說什么是聚類分析,所謂聚類分析就是將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程,其目的是在相似的基礎上收集數據來分類。聚類類似于分類,但與分類的目的不同,是針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。聚類與分類的不同還在于,聚類所要求劃分的類是未知的。我們可以通過聚類分析去解決更多的數據挖掘中的問題。


由此,我們不難發現聚類分析的重要性了吧,就目前而言,現在各行各業的大數據或宏觀或微觀的任何價值發現,無不借助于大數據聚類分析的結果,因此,數據分析和挖掘的首要問題是聚類,這種聚類是跨學科、跨領域、跨媒體的。大數據聚類是數據密集型科學的基礎性、普遍性問題。而如果要想突破認知的話,那么就需要掌握聚類,可以這么說,聚類是挖掘大數據資產價值的第一步。


那聚類的算法都有哪些呢?聚類的算法有很多,我們首先說一說基于劃分聚類算法的內容,基于劃分聚類的算法有很多。聚類算法中的CLARA算法在PAM的基礎上采用了抽樣技術,能夠處理大規模數據;k-means是一種典型的劃分聚類算法,它用一個聚類的中心來代表一個簇,即在迭代過程中選擇的聚點不一定是聚類中的一個點,該算法只能處理數值型數據;K-Means算法的擴展,采用簡單匹配方法來度量分類型數據的相似度;k-prototypes算法就是結合了K-Means和K-Modes兩種算法,能夠處理混合型數據;k-medoids就是在迭代過程中選擇簇中的某點作為聚點;Focused CLARAN就是采用了空間索引技術提高了CLARANS算法的效率;PCM就是模糊集合理論引入聚類分析中并提出了PCM模糊聚類算法。


我們在這篇文章中給大家介紹了很多的聚類分析知識以及聚類分析的算法內容。文中我們提到,聚類類似于分類,但兩者的不同之處在于分類的目的不同,聚類是針對數據的相似性和差異性而言的。聚類基于其跨學科、跨領域的特性,因此它的的價值是極高的。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢