熱線電話:13121318867

登錄
首頁精彩閱讀詳解反向傳播算法
詳解反向傳播算法
2017-05-25
收藏

詳解反向傳播算法

反向傳播算法(Backpropagation)已經是神經網絡模型進行學習的標配。但是有很多問題值得思考一下:


反向傳播算法的作用是什么? 神經網絡模型的學習算法一般是SGD。SGD需要用到損失函數C關于各個權重參數的偏導數。一個模型的參數w,b是非常多的,故而需要反向傳播算法快速計算。也就是說反向傳播算法是一種計算偏導數的方法。

為什么要提出反向傳播算法? 在反向傳播算法提出之前人們應該想到了使用SGD學習模型,也想到了一些辦法求解網絡模型的偏導數,但這些算法求解效率比較低,所以提出反向傳播算法來更高效的計算偏導數。(那時的網絡模型還比較淺只有2-3層,參數少。估計即便不適用反向傳播這種高效的算法也能很好的學習。一旦有人想使用更深的網絡自然會遇到這個偏導數無法高效計算的問題,提出反向傳播也就勢在必行了)

反向傳播怎么樣實現高效計算偏導數的? 請先回顧一下當初我們學習微積分時是如何計算偏導數的? (鏈式法則,具體看下面)

1 用計算圖來解釋幾種求導方法:

1.1 計算圖

式子 

可以用如下計算圖表達:

令a=2,b=1則有:

如何在計算圖上表達“求導”呢? 導數的含義是 因變量隨自變量的變化率,例如  表示當x變化1個單位,y會變化3個單位。 微積分中已經學過:加法求導法則是   

乘法求導法則是。

我們在計算圖的邊上表示導數或偏導數:

如下圖

那么 如何求呢?

告訴我們1個單位的b變化會引起1個單位的c變換,告訴我們 1 個單位的c變化會引起2個單位的e變化。所以 

 嗎? 

答案必然是錯誤。因為這樣做只考慮到了下圖橙色的路徑,所有的路徑都要考慮:

所以上面的求導方法總結為一句話就是: 路徑上所有邊相乘,所有路徑相加。不過這里需要補充一條很有用的合并策略:

例如:下面的計算圖若要計算就會有9條路徑:

如果計算圖再復雜一些,層數再多一些,路徑數量就會呈指數爆炸性增長。但是如果采用合并策略:

 就不會出現這種問題。這種策略不是 對每一條路徑都求和,而是 “合并同類路徑”,“分階段求解”。先求X對Y的總影響 

 再求Y對Z的總影響 

 最后綜合在一起。

1.2 兩種求導模式:前向模式求導( forward-mode differentiation) 反向模式求導(reverse-mode differentiation)

上面提到的求導方法都是前向模式求導( forward-mode differentiation) :從前向后。先求X對Y的總影響 再乘以Y對Z的總影響  。


另一種,反向模式求導(reverse-mode differentiation) 則是從后向前。先求Y對Z的影響再乘以X對Y的影響。

前向求導模式追蹤一個輸入如何影響每一個節點(對每一個節點進行操作)反向求導模式追蹤每一個節點如何影響一個輸出(對每一個節點進行 

操作)。

1.3 反向求導模式(反向傳播算法)的重要性:

讓我們再次考慮前面的例子:

如果用前向求導模式:關于b向前求導一次

如果用反向求導模式:向后求導

前向求導模式只得到了關于輸入b的偏導 ,還需要再次求解關于輸入a的偏導

(運算2遍)。而反向求導一次運算就得到了e對兩個輸入a,b的偏導

(運算1遍)。上面的比較只看到了2倍的加速。但如果有1億個輸入1個輸出,意味著前向求導需要操作1億遍才得到所有關于輸入的偏導,而反向求導則只需一次運算,1億倍的加速。數據分析師培訓

當我們訓練神經網絡時,把“損失“ 看作 ”權重參數“ 的函數,需要計算”損失“關于每一個”權重參數“的偏導數(然后用梯度下降法學習)。 神經網絡的權重參數可以是百萬甚至過億級別。因此 反向求導模式(反向傳播算法)可以極大的加速學習。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢