python實現的 K-近鄰算法代碼詳細解釋-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀python實現的 K-近鄰算法代碼詳細解釋

python實現的 K-近鄰算法代碼詳細解釋

2018-01-16

收藏

python實現的 K-近鄰算法代碼詳細解釋

一、k近鄰算法概述

k近鄰算法采用測量不同特征值之間的距離方法進行分類。

優點：精度高、對異常值不敏感、無數據輸入假定。

缺點：計算復雜度高、空間復雜度高。

適用數據范圍：數值型和標稱型。

二、算法一般流程

1、收集數據：可以使用任何方法。

2、準備數據：距離計算所需要的數值，最好是結構化的數據格式。

3、分析數據：可以使用任何方法。

4、訓練算法：k近鄰無此步驟。

5、測試算法：計算錯誤率。

6、使用算法：首先輸入樣本數據和結構化的輸出結果，然后運行k近鄰算法判定輸入數據分別屬于哪一類分類，然后應用對計算出的分類進行處理。

三、knn偽代碼

1.計算已知類別數據集中的點與需要預測點之間的距離；

2.按照距離進行遞增排序；

3.選擇最近的k個點；

4.統計k個點中class最多的class

5.返回預測結果

四、具體代碼及解釋

def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]#shape函數它的功能是讀取矩陣的長度，比如shape[0]就是讀取矩陣第一維度的長度。它的輸入參數可以使一個整數表示維度，也可以是一個矩陣
diffMat = tile(inX, (dataSetSize,1)) - dataSet#tile函數他的功能是重復某個數組。比如tile(A,n)，功能是將數組A重復n次，構成一個新的數組
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis=1)#sum是求和函數axis=1是矩陣的向量相加
distances = sqDistances**0.5
sortedDistIndicies = distances.argsort()#argsort排序
classCount={}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1#get() 函數返回指定鍵的值，如果值不在字典中返回默認值
sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)#sorted函數sorted(iterable，cmp，key，reverse）參數：iterable可以是list或者iterator；cmp是帶兩個參數的比較函數；key 是帶一個參數的函數；reverse為False或者True
return sortedClassCount[0][0]

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

python 特征

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇決策樹之ID3算法及其Python實現

下一篇『如何成為十字型數據精英』線下活動回顧

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊