熱線電話:13121318867

登錄
首頁精彩閱讀python實現的 K-近鄰算法代碼詳細解釋
python實現的 K-近鄰算法代碼詳細解釋
2018-01-16
收藏

python實現的 K-近鄰算法代碼詳細解釋

一、k近鄰算法概述

k近鄰算法采用測量不同特征值之間的距離方法進行分類。

優點:精度高、對異常值不敏感、無數據輸入假定。

缺點:計算復雜度高、空間復雜度高。

適用數據范圍:數值型和標稱型。

二、算法一般流程

1、收集數據:可以使用任何方法。

2、準備數據:距離計算所需要的數值,最好是結構化的數據格式。

3、分析數據:可以使用任何方法。

4、訓練算法:k近鄰無此步驟。

5、測試算法:計算錯誤率。

6、使用算法:首先輸入樣本數據和結構化的輸出結果,然后運行k近鄰算法判定輸入數據分別屬于哪一類分類,然后應用對計算出的分類進行處理。

三、knn偽代碼

1.計算已知類別數據集中的點與需要預測點之間的距離;

2.按照距離進行遞增排序;

3.選擇最近的k個點;

4.統計k個點中class最多的class

5.返回預測結果

四、具體代碼及解釋

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]#shape函數它的功能是讀取矩陣的長度,比如shape[0]就是讀取矩陣第一維度的長度。它的輸入參數可以使一個整數表示維度,也可以是一個矩陣
    diffMat = tile(inX, (dataSetSize,1)) - dataSet#tile函數他的功能是重復某個數組。比如tile(A,n),功能是將數組A重復n次,構成一個新的數組
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)#sum是求和函數axis=1是矩陣的向量相加
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()#argsort排序  
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1#get() 函數返回指定鍵的值,如果值不在字典中返回默認值
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)#sorted函數sorted(iterable,cmp,key,reverse)參數:iterable可以是list或者iterator;cmp是帶兩個參數的比較函數;key 是帶一個參數的函數;reverse為False或者True
    return sortedClassCount[0][0]

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢