熱線電話:13121318867

登錄
首頁大數據時代對于KNN算法概念以及原理的簡單理解
對于KNN算法概念以及原理的簡單理解
2020-07-09
收藏

KNN的全稱是K-Nearest Neighbors,具體意思為K個最近的鄰居。KNN算法可以說是機器學習算法中最簡單、最基礎的算法了。既能用于分類,也能用于回歸。是通過測量不同特征值之間的距離來進行分類。

KNN的基本思路是:如果一個樣本在特征空間中的k(K通常是不大于20的整數)個最相似(即特征空間中最鄰近)的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別。KNN算法中,所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。

根據上圖,綠色圓要被認為是紅色三角形還是藍色四方形?如果K=3.由于紅色三角形所占比例為2/3.綠色圓就歸屬于紅色三角形,如果K=5.則藍色四方形比例為3/5.綠色圓歸屬于藍色四方形類。

一。KNN算法的核心要素:

(1)K值的選擇:K是超參(KNN算法的結果很大程度取決于K的選擇),K值過小容易導致過擬合(比如噪音點的數據會對結果造成影響),K值過大(訓練誤差增大,隨之模型變得簡單)容易導致欠擬合。

(2)距離的度量:采用歐式距離或曼哈頓距離

(3)決策規則:在分類模型中,主要使用多數表決法或者加權多數表決法;

在回歸模型中,主要使用平均值法或者加權平均值法。(基于距離遠近進行加權,,距離越近的樣本權重越大.)

二。KNN算法的優缺點:

KNN算法優點

1.簡單易用,相比起其他算法,KNN算法對于數學基礎要求不高,算是比較簡潔明了的算法。

2.KNN是一種非參的(建立的模型結構是根據數據來決定的),惰性(沒有明確的訓練數據的過程的算法模型),模型訓練時間非???

3.預測效果好。

4.對異常值不敏感

KNN算法缺點

1.會存儲所有訓練數據,對內存要求較高;

2.預測階段速度可能很慢

3.對不相關的功能和數據規模敏感

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢