熱線電話:13121318867

登錄
首頁精彩閱讀機器學習中算法的優缺點之最近鄰算法
機器學習中算法的優缺點之最近鄰算法
2019-04-03
收藏


機器學習中有個算法是十分重要的,那就是最近鄰算法,這種算法被大家稱為KNN。我們在學習機器學習知識的時候一定要學習這種算法,其實不管是什么算法都是有自己的優缺點的,KNN算法也不例外,在這篇文章中我們就詳細的給大家介紹一下KNN算法的優缺點,大家一定要好好學起來喲。


說到KNN算法我們有必要說一下KNN算法的主要過程,KNN算法的主要過程有四種,第一就是計算訓練樣本和測試樣本中每個樣本點的距離,第二個步驟就是對上面所有的距離值進行排序(升序)。第三個步驟就是選前k個最小距離的樣本。第四個步驟就是根據這k個樣本的標簽進行投票,得到最后的分類類別。


那么大家是否知道如何選擇一個最佳的K值,這取決于數據。一般情況下,在分類時較大的K值能夠減小噪聲的影響,但會使類別之間的界限變得模糊。一般來說,一個較好的K值可通過各種啟發式技術來獲取,比如說交叉驗證。另外噪聲和非相關性特征向量的存在會使K近鄰算法的準確性減小。近鄰算法具有較強的一致性結果,隨著數據趨于無限,算法保證錯誤率不會超過貝葉斯算法錯誤率的兩倍。對于一些好的K值,K近鄰保證錯誤率不會超過貝葉斯理論誤差率。


那么KNN算法的優點是什么呢?KNN算法的優點具體體現在六點,第一就是對數據沒有假設,準確度高,對outlier不敏感。第二就是KNN是一種在線技術,新數據可以直接加入數據集而不必進行重新訓練。第三就是KNN理論簡單,容易實現。第四就是理論成熟,思想簡單,既可以用來做分類也可以用來做回歸。第五就是可用于非線性分類。第六就是訓練時間復雜度為O(n)。由此可見,KNN算法的優點是有很多的。


那么KNN算法的缺點是什么呢?這種算法的缺點具體體現在六點,第一就是樣本不平衡時,預測偏差比較大。第二就是KNN每一次分類都會重新進行一次全局運算。第三就是k值大小的選擇沒有理論選擇最優,往往是結合K-折交叉驗證得到最優k值選擇。第四就是樣本不平衡問題(即有些類別的樣本數量很多,而其它樣本的數量很少)效果差。第五就是需要大量內存。第六就是對于樣本容量大的數據集計算量比較大。


正是由于這些優點和缺點,KNN算法應用領域比較廣泛,在文本分類、模式識別、聚類分析,多分類領域中處處有KNN算法的身影。


在這篇文章中我們給大家介紹了很多關于KNN算法的相關知識,通過對這些知識的理解相信大家已經知道該算法的特點了吧,希望這篇文章能夠幫助大家更好的理解KNN算法。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢