熱線電話:13121318867

登錄
首頁精彩閱讀為什么說樸素貝葉斯是高偏差低方差?
為什么說樸素貝葉斯是高偏差低方差?
2019-04-04
收藏


大家在學習機器學習的時候可能聽說過一種算法,這種算法就是樸素貝葉斯算法,而很多人說樸素貝葉斯算法是高偏差低方差,在這篇文章中我們就詳細的為大家介紹一下樸素貝葉斯為什么被說高偏差低方差的原因。


首先,我們假設知道訓練集和測試集的關系。簡單來講是我們要在訓練集上學習一個模型,然后拿到測試集去用,效果好不好要根據測試集的錯誤率來衡量。但很多時候,我們只能假設測試集和訓練集的是符合同一個數據分布的,但是我們卻拿不到真正的測試數據。那么問題來了,怎么在只看到訓練錯誤率的情況下,去衡量測試錯誤率呢?


而由于訓練樣本很少,因此通過訓練集得到的模型,不是真正正確的。而且,在實際中,訓練樣本往往還有一定的噪音誤差,所以如果太追求在訓練集上的完美而采用一個很復雜的模型,會使得模型把訓練集里面的誤差都當成了真實的數據分布特征,從而得到錯誤的數據分布估計。如果按照這樣的結果,到了真正的測試集上就錯的很明顯了。但是也不能用太簡單的模型,否則在數據分布比較復雜的時候,模型就不足以刻畫數據分布,而體現為連在訓練集上的錯誤率都很高,這種現象較欠擬合。過擬合表明采用的模型比真實的數據分布更復雜,而欠擬合表示采用的模型比真實的數據分布要簡單。


當然,在統計學習框架下,大家刻畫模型復雜度的時候,很多人認為模型的預測錯誤率是有兩部分組成的,一部分是由于模型太簡單而帶來的估計不準確的部分,另一部分是由于模型太復雜而帶來的更大的變化空間和不確定性。其實這樣的想法是正確的,所以說,這樣就容易分析樸素貝葉斯了。它簡單的假設了各個數據之間是無關的,是一個被嚴重簡化了的模型。所以,對于這樣一個簡單模型,大部分場合都會不準確部分大于不確定部分,也就是說高偏差而低方差。所以說在實際中,為了讓錯誤率盡量小,我們在選擇模型的時候需要平衡不準確和不確定性所占的比例,這樣當模型復雜度上升的時候,偏差會逐漸變小,而方差會逐漸變大。


相信大家看了這篇文章以后已經知道了為什么說樸素貝葉斯是高偏差低方差的原因了吧?大家在進行機器學習的時候一定要做到對每個算法有比較深入的了解。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢