
簡單易學的機器學習算法——K-Means++算法
一、K-Means算法存在的問題
由于K-Means算法的簡單且易于實現,因此K-Means算法得到了很多的應用,但是從K-Means算法的過程中發現,K-Means算法中的聚類中心的個數k需要事先指定,這一點對于一些未知數據存在很大的局限性。其次,在利用K-Means算法進行聚類之前,需要初始化k個聚類中心,在上述的K-Means算法的過程中,使用的是在數據集中隨機選擇最大值和最小值之間的數作為其初始的聚類中心,但是聚類中心選擇不好,對于K-Means算法有很大的影響。對于如下的數據集:
如選取的個聚類中心為:
最終的聚類結果為:
為了解決因為初始化的問題帶來K-Means算法的問題,改進的K-Means算法,即K-Means++算法被提出,K-Means++算法主要是為了能夠在聚類中心的選擇過程中選擇較優的聚類中心。
二、K-Means++算法的思路
K-Means++算法在聚類中心的初始化過程中的基本原則是使得初始的聚類中心之間的相互距離盡可能遠,這樣可以避免出現上述的問題。K-Means++算法的初始化過程如下所示:
在數據集中隨機選擇一個樣本點作為第一個初始化的聚類中心
選擇出其余的聚類中心:
計算樣本中的每一個樣本點與已經初始化的聚類中心之間的距離,并選擇其中最短的距離,記為d_i
以概率選擇距離最大的樣本作為新的聚類中心,重復上述過程,直到k個聚類中心都被確定
對k個初始化的聚類中心,利用K-Means算法計算最終的聚類中心。
在上述的K-Means++算法中可知K-Means++算法與K-Means算法最本質的區別是在k個聚類中心的初始化過程。
Python實現:
一、K-Means算法存在的問題
由于K-Means算法的簡單且易于實現,因此K-Means算法得到了很多的應用,但是從K-Means算法的過程中發現,K-Means算法中的聚類中心的個數k需要事先指定,這一點對于一些未知數據存在很大的局限性。其次,在利用K-Means算法進行聚類之前,需要初始化k個聚類中心,在上述的K-Means算法的過程中,使用的是在數據集中隨機選擇最大值和最小值之間的數作為其初始的聚類中心,但是聚類中心選擇不好,對于K-Means算法有很大的影響。對于如下的數據集:
如選取的個聚類中心為:
最終的聚類結果為:
為了解決因為初始化的問題帶來K-Means算法的問題,改進的K-Means算法,即K-Means++算法被提出,K-Means++算法主要是為了能夠在聚類中心的選擇過程中選擇較優的聚類中心。
二、K-Means++算法的思路
K-Means++算法在聚類中心的初始化過程中的基本原則是使得初始的聚類中心之間的相互距離盡可能遠,這樣可以避免出現上述的問題。K-Means++算法的初始化過程如下所示:
在數據集中隨機選擇一個樣本點作為第一個初始化的聚類中心
選擇出其余的聚類中心:
計算樣本中的每一個樣本點與已經初始化的聚類中心之間的距離,并選擇其中最短的距離,記為d_i
以概率選擇距離最大的樣本作為新的聚類中心,重復上述過程,直到k個聚類中心都被確定
對k個初始化的聚類中心,利用K-Means算法計算最終的聚類中心。
在上述的K-Means++算法中可知K-Means++算法與K-Means算法最本質的區別是在k個聚類中心的初始化過程。
Python實現:
# coding:UTF-8
'''
Date:20160923
@author: zhaozhiyong
'''
import numpy as np
from random import random
from KMeans import load_data, kmeans, distance, save_result
FLOAT_MAX = 1e100 # 設置一個較大的值作為初始化的最小的距離
def nearest(point, cluster_centers):
min_dist = FLOAT_MAX
m = np.shape(cluster_centers)[0] # 當前已經初始化的聚類中心的個數
for i in xrange(m):
# 計算point與每個聚類中心之間的距離
d = distance(point, cluster_centers[i, ])
# 選擇最短距離
if min_dist > d:
min_dist = d
return min_dist
def get_centroids(points, k):
m, n = np.shape(points)
cluster_centers = np.mat(np.zeros((k , n)))
# 1、隨機選擇一個樣本點為第一個聚類中心
index = np.random.randint(0, m)
cluster_centers[0, ] = np.copy(points[index, ])
# 2、初始化一個距離的序列
d = [0.0 for _ in xrange(m)]
for i in xrange(1, k):
sum_all = 0
for j in xrange(m):
# 3、對每一個樣本找到最近的聚類中心點
d[j] = nearest(points[j, ], cluster_centers[0:i, ])
# 4、將所有的最短距離相加
sum_all += d[j]
# 5、取得sum_all之間的隨機值
sum_all *= random()
# 6、獲得距離最遠的樣本點作為聚類中心點
for j, di in enumerate(d):
sum_all -= di
if sum_all > 0:
continue
cluster_centers[i] = np.copy(points[j, ])
break
return cluster_centers
if __name__ == "__main__":
k = 4#聚類中心的個數
file_path = "data.txt"
# 1、導入數據
print "---------- 1.load data ------------"
data = load_data(file_path)
# 2、KMeans++的聚類中心初始化方法
print "---------- 2.K-Means++ generate centers ------------"
centroids = get_centroids(data, k)
# 3、聚類計算
print "---------- 3.kmeans ------------"
subCenter = kmeans(data, k, centroids)
# 4、保存所屬的類別文件
print "---------- 4.save subCenter ------------"
save_result("sub_pp", subCenter)
# 5、保存聚類中心
print "---------- 5.save centroids ------------"
save_result("center_pp", centroids)
其中,KMeans所在的文件為:
# coding:UTF-8
'''
Date:20160923
@author: zhaozhiyong
'''
import numpy as np
def load_data(file_path):
f = open(file_path)
data = []
for line in f.readlines():
row = [] # 記錄每一行
lines = line.strip().split("\t")
for x in lines:
row.append(float(x)) # 將文本中的特征轉換成浮點數
data.append(row)
f.close()
return np.mat(data)
def distance(vecA, vecB):
dist = (vecA - vecB) * (vecA - vecB).T
return dist[0, 0]
def randCent(data, k):
n = np.shape(data)[1] # 屬性的個數
centroids = np.mat(np.zeros((k, n))) # 初始化k個聚類中心
for j in xrange(n): # 初始化聚類中心每一維的坐標
minJ = np.min(data[:, j])
rangeJ = np.max(data[:, j]) - minJ
# 在最大值和最小值之間隨機初始化
centroids[:, j] = minJ * np.mat(np.ones((k , 1))) + np.random.rand(k, 1) * rangeJ
return centroids
def kmeans(data, k, centroids):
m, n = np.shape(data) # m:樣本的個數,n:特征的維度
subCenter = np.mat(np.zeros((m, 2))) # 初始化每一個樣本所屬的類別
change = True # 判斷是否需要重新計算聚類中心
while change == True:
change = False # 重置
for i in xrange(m):
minDist = np.inf # 設置樣本與聚類中心之間的最小的距離,初始值為爭取窮
minIndex = 0 # 所屬的類別
for j in xrange(k):
# 計算i和每個聚類中心之間的距離
dist = distance(data[i, ], centroids[j, ])
if dist < minDist:
minDist = dist
minIndex = j
# 判斷是否需要改變
if subCenter[i, 0] <> minIndex: # 需要改變
change = True
subCenter[i, ] = np.mat([minIndex, minDist])
# 重新計算聚類中心
for j in xrange(k):
sum_all = np.mat(np.zeros((1, n)))
r = 0 # 每個類別中的樣本的個數
for i in xrange(m):
if subCenter[i, 0] == j: # 計算第j個類別
sum_all += data[i, ]
r += 1
for z in xrange(n):
try:
centroids[j, z] = sum_all[0, z] / r
except:
print " r is zero"
return subCenter
def save_result(file_name, source):
m, n = np.shape(source)
f = open(file_name, "w")
for i in xrange(m):
tmp = []
for j in xrange(n):
tmp.append(str(source[i, j]))
f.write("\t".join(tmp) + "\n")
f.close()
最終的結果為:
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25