機器學習中防止過擬合方法-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀機器學習中防止過擬合方法

機器學習中防止過擬合方法

2018-02-25

收藏

機器學習中防止過擬合方法

在進行數據挖掘或者機器學習模型建立的時候，因為在統計學習中，假設數據滿足獨立同分布，即當前已產生的數據可以對未來的數據進行推測與模擬，因此都是使用歷史數據建立模型，即使用已經產生的數據去訓練，然后使用該模型去擬合未來的數據。但是一般獨立同分布的假設往往不成立，即數據的分布可能會發生變化（distribution drift），并且可能當前的數據量過少，不足以對整個數據集進行分布估計，因此往往需要防止模型過擬合，提高模型泛化能力。而為了達到該目的的最常見方法便是：正則化，即在對模型的目標函數（objective function）或代價函數（cost function）加上正則項。
在對模型進行訓練時，有可能遇到訓練數據不夠，即訓練數據無法對整個數據的分布進行估計的時候，或者在對模型進行過度訓練（overtraining）時，常常會導致模型的過擬合（overfitting）。如下圖所示：

通過上圖可以看出，隨著模型訓練的進行，模型的復雜度會增加，此時模型在訓練數據集上的訓練誤差會逐漸減小，但是在模型的復雜度達到一定程度時，模型在驗證集上的誤差反而隨著模型的復雜度增加而增大。此時便發生了過擬合，即模型的復雜度升高，但是該模型在除訓練集之外的數據集上卻不work。

方法

提前終止（當驗證集上的效果變差的時候）

正則化（Regularization）

L1正則化

L2正則化

數據集擴增（Data augmentation）

Dropout

1、提前終止

對模型進行訓練的過程即是對模型的參數進行學習更新的過程，這個參數學習的過程往往會用到一些迭代方法，如梯度下降（Gradient descent）學習算法。Early stopping便是一種迭代次數截斷的方法來防止過擬合的方法，即在模型對訓練數據集迭代收斂之前停止迭代來防止過擬合。
Early stopping方法的具體做法是，在每一個Epoch結束時（一個Epoch集為對所有的訓練數據的一輪遍歷）計算validation data的accuracy，當accuracy不再提高時，就停止訓練。這種做法很符合直觀感受，因為accurary都不再提高了，在繼續訓練也是無益的，只會提高訓練的時間。那么該做法的一個重點便是怎樣才認為validation accurary不再提高了呢？并不是說validation accuracy一降下來便認為不再提高了，因為可能經過這個Epoch后，accuracy降低了，但是隨后的Epoch又讓accuracy又上去了，所以不能根據一兩次的連續降低就判斷不再提高。一般的做法是，在訓練的過程中，記錄到目前為止最好的validation accuracy，當連續10次Epoch（或者更多次）沒達到最佳accuracy時，則可以認為accuracy不再提高了。此時便可以停止迭代了（Early Stopping）。這種策略也稱為“No-improvement-in-n”，n即Epoch的次數，可以根據實際情況取，如10、20、30……

2、數據集擴增

在數據挖掘領域流行著這樣的一句話，“有時候往往擁有更多的數據勝過一個好的模型”。因為我們在使用訓練數據訓練模型，通過這個模型對將來的數據進行擬合，而在這之間又一個假設便是，訓練數據與將來的數據是獨立同分布的。即使用當前的訓練數據來對將來的數據進行估計與模擬，而更多的數據往往估計與模擬地更準確。因此，更多的數據有時候更優秀。但是往往條件有限，如人力物力財力的不足，而不能收集到更多的數據，如在進行分類的任務中，需要對數據進行打標，并且很多情況下都是人工得進行打標，因此一旦需要打標的數據量過多，就會導致效率低下以及可能出錯的情況。所以，往往在這時候，需要采取一些計算的方式與策略在已有的數據集上進行手腳，以得到更多的數據。
通俗得講，數據機擴增即需要得到更多的符合要求的數據，即和已有的數據是獨立同分布的，或者近似獨立同分布的。一般有以下方法：

從數據源頭采集更多數據

復制原有數據并加上隨機噪聲

重采樣

根據當前數據集估計數據分布參數，使用該分布產生更多數據等

如圖像處理：

圖像平移。這種方法可以使得網絡學習到平移不變的特征。

圖像旋轉。學習旋轉不變的特征。有些任務里，目標可能有多種不同的姿態，旋轉正好可以彌補樣本中姿態較少的問題。

圖像鏡像。和旋轉的功能類似。

圖像亮度變化。甚至可以用直方圖均衡化。

裁剪。

縮放。

圖像模糊。用不同的模板卷積產生模糊圖像。

3、正則化

正則化方法是指在進行目標函數或代價函數優化時，在目標函數或代價函數后面加上一個正則項，一般有L1正則與L2正則等。

3.1、L1正則

在原始的代價函數后面加上一個L1正則化項，即所有權重w的絕對值的和，乘以λ/n（這里不像L2正則化項那樣，需要再乘以1/2。）

同樣先計算導數：

上式中sgn(w)表示w的符號。那么權重w的更新規則為：

比原始的更新規則多出了η * λ * sgn(w)/n這一項。當w為正時，更新后的w變小。當w為負時，更新后的w變大——因此它的效果就是讓w往0靠，使網絡中的權重盡可能為0，也就相當于減小了網絡復雜度，防止過擬合。

另外，上面沒有提到一個問題，當w為0時怎么辦？當w等于0時，|W|是不可導的，所以我們只能按照原始的未經正則化的方法去更新w，這就相當于去掉η*λ*sgn(w)/n這一項，所以我們可以規定sgn(0)=0，這樣就把w=0的情況也統一進來了。（在編程的時候，令sgn(0)=0,sgn(w>0)=1,sgn(w<0)=-1）

3.2、L2正則化

L2正則化就是在代價函數后面再加上一個正則化項：

C0代表原始的代價函數，后面那一項就是L2正則化項，它是這樣來的：所有參數w的平方的和，除以訓練集的樣本大小n。λ就是正則項系數，權衡正則項與C0項的比重。另外還有一個系數1/2，1/2經常會看到，主要是為了后面求導的結果方便，后面那一項求導會產生一個2，與1/2相乘剛好湊整。

L2正則化項是怎么避免overfitting的呢？我們推導一下看看，先求導：

可以發現L2正則化項對b的更新沒有影響，但是對于w的更新有影響:

在不使用L2正則化時，求導結果中w前系數為1，現在w前面系數為 1?ηλ/n ，因為η、λ、n都是正的，所以 1?ηλ/n小于1，它的效果是減小w，這也就是權重衰減（weight decay）的由來。當然考慮到后面的導數項，w最終的值可能增大也可能減小。

另外，需要提一下，對于基于mini-batch的隨機梯度下降，w和b更新的公式跟上面給出的有點不同：

對比上面w的更新公式，可以發現后面那一項變了，變成所有導數加和，乘以η再除以m，m是一個mini-batch中樣本的個數。

到目前為止，我們只是解釋了L2正則化項有讓w“變小”的效果，但是還沒解釋為什么w“變小”可以防止overfitting？一個所謂“顯而易見”的解釋就是：更小的權值w，從某種意義上說，表示網絡的復雜度更低，對數據的擬合剛剛好（這個法則也叫做奧卡姆剃刀），而在實際應用中，也驗證了這一點，L2正則化的效果往往好于未經正則化的效果。當然，對于很多人（包括我）來說，這個解釋似乎不那么顯而易見，所以這里添加一個稍微數學一點的解釋（引自知乎）：

過擬合的時候，擬合函數的系數往往非常大，為什么？如下圖所示，過擬合，就是擬合函數需要顧忌每一個點，最終形成的擬合函數波動很大。在某些很小的區間里，函數值的變化很劇烈。這就意味著函數在某些小區間里的導數值（絕對值）非常大，由于自變量值可大可小，所以只有系數足夠大，才能保證導數值很大。

而正則化是通過約束參數的范數使其不要太大，所以可以在一定程度上減少過擬合情況。

4、Dropout

L1、L2正則化是通過修改代價函數來實現的，而Dropout則是通過修改神經網絡本身來實現的，它是在訓練網絡時用的一種技巧（trike）。它的流程如下：

假設我們要訓練上圖這個網絡，在訓練開始時，我們隨機地“刪除”一半的隱層單元，視它們為不存在，得到如下的網絡：

保持輸入輸出層不變，按照BP算法更新上圖神經網絡中的權值（虛線連接的單元不更新，因為它們被“臨時刪除”了）。

以上就是一次迭代的過程，在第二次迭代中，也用同樣的方法，只不過這次刪除的那一半隱層單元，跟上一次刪除掉的肯定是不一樣的，因為我們每一次迭代都是“隨機”地去刪掉一半。第三次、第四次……都是這樣，直至訓練結束。

以上就是Dropout，它為什么有助于防止過擬合呢？可以簡單地這樣解釋，運用了dropout的訓練過程，相當于訓練了很多個只有半數隱層單元的神經網絡（后面簡稱為“半數網絡”），每一個這樣的半數網絡，都可以給出一個分類結果，這些結果有的是正確的，有的是錯誤的。隨著訓練的進行，大部分半數網絡都可以給出正確的分類結果，那么少數的錯誤分類結果就不會對最終結果造成大的影響。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

過擬合神經網絡特征機器學習數據挖掘泛化能力直方圖

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇一些常見的特征選擇方法

下一篇大數據環境下的創業需要政府的支持

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊