熱線電話:13121318867

登錄
首頁精彩閱讀論文中的機器學習算法——基于密度峰值的聚類算法
論文中的機器學習算法——基于密度峰值的聚類算法
2017-03-21
收藏

論文中的機器學習算法——基于密度峰值的聚類算法

下面還是主要來談談論文的主要思想。

算法的主要思想思想

    在聚類算法中主要有這樣幾種:

劃分的方法,如K-Means

層次的方法,如CURE

基于密度的方法,如DBSCAN

基于網格的方法,如CLIQUE

基于模型的方法,主要是一些概率分布

在以往的學習過程中,我只關注過劃分的方法,如K-Means(見博文“簡單易學的機器學習算法——kMeans”)。

    Science上的這篇文章《Clustering by fast search and find of density peaks》主要講的是一種基于密度的聚類方法,基于密度的聚類方法的主要思想是尋找被低密度區域分離的高密度區域。而在文章中提出的聚類方法(以下稱為“Desity Peaks Clusering Algorithm, DPCA”)也同樣基于這樣的一種假設:對于一個數據集,聚類中心被一些低局部密度的數據點包圍,而且這些低局部密度的點距離其他有高局部密度的點的距離都比較大。在這樣的模型中,DPCA主要有兩個需要計算的量:第一,局部密度;第二,與高密度點之間的距離。

1、局部密度的定義為:


其中,

稱為截斷距離(Cut-off distance)。這個公式的含義是說找到與第個數據點之間的距離小于截斷距離的數據點的個數。

2、與高密度點之間的距離

這個公式的含義是說找到所有比第個數據點的局部密度都大的數據點中,與第個數據點之間的距離的最小值。而對于具有最大密度的數據點,通常取。

3、如何聚類

對于聚類問題,我們需要回答的是聚類中心是什么,對于每個數據點,如何定義所屬的類別。DPCA中將那些具有較大距離且同時具有較大局部密度的點定義為聚類中心。

(圖片來源于文章)
如上圖B,數據點1和數據點10同時具有相對較高的距離和局部密度,所以是聚類中心。而在圖中具有相對較高的距離,但是局部密度卻較小的數據點26,27和28稱為異常點。對于那些非異常點,如何對他們聚類呢?DPCA采用的是將他們歸類到比他們的密度更大的最相近的類中心所屬的類別中。到此,整個算法的基本思想解釋結束。數據分析師培訓

    對于這樣的算法,如何去定義相對較高,作者并沒有給出解釋,在作者提供的程序和數據中,我做了實驗,實驗結果如下:

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢