如何為分類問題選擇合適的機器學習算法-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀如何為分類問題選擇合適的機器學習算法

如何為分類問題選擇合適的機器學習算法

2018-01-12

收藏

如何為分類問題選擇合適的機器學習算法

若要達到一定的準確率，需要嘗試各種各樣的分類器，并通過交叉驗證選擇最好的一個。但是，如果你只是為你的問題尋找一個“足夠好”的算法或者一個起點，以下準則有利于選擇合適的分類器：

你的訓練集有多大？

如果訓練集很小，那么高偏差/低方差分類器（如樸素貝葉斯分類器）要優于低偏差/高方差分類器（如k近鄰分類器），因為后者容易過擬合。

然而，隨著訓練集的增大，低偏差/高方差分類器將開始勝出（它們具有較低的漸近誤差），因為高偏差分類器不足以提供準確的模型。這可以認為這是生成模型與判別模型的區別。

一些特定算法比較

樸素貝葉斯

優點：簡單；如果樸素貝葉斯（NB）條件獨立性假設成立，相比于邏輯回歸這類的判別模型，樸素貝葉斯分類器將收斂得更快，所以你只需要較小的訓練集。而且，即使NB假設不成立，樸素貝葉斯分類器在實踐方面仍然表現很好。如果想得到簡單快捷的執行效果，這將是個好的選擇。

缺點：不能學習特征之間的相互作用（比如，它不能學習出：雖然你喜歡布拉德·皮特和湯姆·克魯斯的電影，但卻不喜歡他們一起合作的電影）。

優點：有許多正則化模型的方法，不需要像在樸素貝葉斯分類器中那樣擔心特征間的相互關聯性。與決策樹和支持向量機不同，有一個很好的概率解釋，并能容易地更新模型來吸收新數據（使用一個在線梯度下降方法）。如果你想要一個概率框架（比如，簡單地調整分類閾值，說出什么時候是不太確定的，或者獲得置信區間），或你期望未來接收更多想要快速并入模型中的訓練數據，就選擇邏輯回歸。

優點：易于說明和解釋，很容易地處理特征間的相互作用，并且是非參數化的，不用擔心異常值或者數據是否線性可分（比如，決策樹可以很容易地某特征x的低端是類A，中間是類B，然后高端又是類A的情況）。

缺點：1）不支持在線學習，當有新樣本時需要重建決策樹。2）容易過擬合，但這也正是諸如隨機森林（或提高樹）之類的集成方法的切入點。另外，隨機森林適用于很多分類問題（通常略優于支持向量機）---快速并且可擴展，不像支持向量機那樣調一堆參數。隨機森林正漸漸開始偷走它的“王冠”。

優點：高準確率，為過擬合提供了好的理論保證；即使數據在基礎特征空間線性不可分，只要選定一個恰當的核函數，仍然能夠取得很好的分類效果。它們在超高維空間是常態的文本分類問題中尤其受歡迎。然而，它們內存消耗大，難于解釋，運行和調參復雜，

盡管如此，更好的數據往往勝過更好的算法，設計好的特征非常重要。如果有一個龐大數據集，這時使用哪種分類算法在分類性能方面可能并不要緊；因此，要基于速度和易用性選擇算法。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

樸素貝葉斯特征決策樹偏差過擬合支持向量機邏輯回歸隨機森林

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇主成分分析、因子分析、聚類的概覽與比較

下一篇大數據定義、思維方式及架構模式

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊