熱線電話:13121318867

登錄
首頁大數據時代機器學習中的泛化能力指的是什么?
機器學習中的泛化能力指的是什么?
2020-07-03
收藏

概括地說,泛化能力(generalization ability)是指機器學習算法對新鮮樣本的適應能力。學習的目的是學到隱含在數據對背后的規律,對具有同一規律的學習集以外的數據,經過訓練的網絡也能給出合適的輸出,該能力稱為泛化能力。

機器學習方法中,泛化能力通俗來講就是指學習到的模型對未知數據的預測能力。在實際情況中,我們通常通過測試誤差來評價學習方法的泛化能力。如果在不考慮數據量不足的情況下出現模型的泛化能力差,那么其原因基本為對損失函數的優化沒有達到全局最優。

1.泛化能力

機器學習方法中,泛化能力通俗來講就是指學習到的模型對未知數據的預測能力。在實際情況中,我們通常通過測試誤差來評價學習方法的泛化能力。如果在不考慮數據量不足的情況下出現模型的泛化能力差,那么其原因基本為對損失函數的優化沒有達到全局最優。

2.泛化誤差

首先給出泛化誤差的定義, 如果學到的模型是 f^ , 那么用這個模型對未知數據預測的誤差即為泛化誤差

泛化誤差反映了學習方法的泛化能力,如果一種方法學習的模型比另一種方法學習的模型具有更小的泛化誤差,那么這種方法就更有效, 事實上,泛化誤差就是所學到的模型的期望誤差。

3.提高泛化能力

提高泛化能力的方式大致有三種:1.增加數據量。2.正則化。3.凸優化。

4.L1正則化,L2正則化

L1正則化的幾何解釋如圖:

clipboard.png

L1正則化給出的最優解w?是使解更加靠近某些軸,而其它的軸則為0.所以L1正則化能使得到的參數稀疏化。

L1正則化的參數先驗是服從拉布拉斯分布的,拉布拉斯的概率密度分布函數為:

clipboard.png

L2正則化的解釋如圖:

clipboard.png

L2 正則化給出的最優解w?是使解更加靠近原點,也就是說L2正則化能降低參數范數的總和。

L2正則化的參數先驗服從高斯分布,高斯分布的概率密度分布函數為:

clipboard.png

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢