熱線電話:13121318867

登錄
首頁大數據時代Kmeans均值聚類算法的基本原理是什么?
Kmeans均值聚類算法的基本原理是什么?
2020-07-08
收藏

Kmeans算法屬于無監督學習的一種聚類算法,這種算法的目的為:在數據所屬類別及類別數量不明確的前提下,依據數據自身的特點對數據進行聚類。聚類過程中,對于類別數量k的選取,需要一定的先驗知識,也可根據“類內間距小,類間間距大“(一種聚類算法的理想情況)為目標進行實現。

一、Kmeans均值聚類算法優缺點

優點:容易實現。

缺點:收斂到局部最小值,在大規模數據集上收斂較慢

適用數據類型:數據型數據

二、Kmeans均值聚類算法

Kmeans均值聚類算法主要思想是:在給定K值和K個初始類簇中心點的情況下,把每個點(亦即數據記錄)分到離其最近的類簇中心點所代表的類簇中,所有點分配完畢之后,根據一個類簇內的所有點重新計算該類簇的中心點(取平均值),然后再迭代的進行分配點和更新類簇中心點的步驟,直至類簇中心點的變化很小,或者達到指定的迭代次數。

具體算法描述如下:

(1)適當選擇k個類的初始中心,最初一般為隨機選取;

(2)在每次迭代中,對任意一個樣本,分別求其到k個中心的歐式距離,將該樣本歸到距離最短的中心所在的類;

(3)利用均值方法更新該k個類的中心的值;

(4)對于所有的k個聚類中心,重復(2)(3),類的中心值的移動距離滿足一定條件時,則迭代結束,完成分類。

Kmeans聚類算法原理簡單,效果也依賴于k值和類中初始點的選擇。

三、Kmeans均值聚類的一般流程

1.收集數據:使用任意方法

2.準備數據:需要數據型數據來計算距離,也可以將標稱型數據映射為二值型數據再用于距離計算。

3.分析數據:使用任意方法。

4.訓練算法:不適用于無監督學習,即無監督學習沒有訓練過程。

5.測試算法:應用聚類算法,觀察結果??梢允褂昧炕恼`差指標如誤差平方和來評價算法的結果。

6.使用算法:可以用于所希望的任何應用,通常情況下,簇質心可以代表整個簇的數據來做出決策

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢