反向傳播與梯度下降的基本概念

阿新 • • 發佈：2018-11-12

反向傳播和梯度下降這兩個詞，第一眼看上去似懂非懂，不明覺厲。這兩個概念是整個神經網路中的重要組成部分，是和誤差函式/損失函式的概念分不開的。

神經網路訓練的最基本的思想就是：先“蒙”一個結果，我們叫預測結果h，看看這個預測結果和事先標記好的訓練集中的真實結果y之間的差距，然後調整策略，再試一次，這一次就不是“蒙”了，而是有依據地向正確的方向靠近。如此反覆多次，一直到預測結果和真實結果之間相差無幾，亦即|h-y|->0，就結束訓練。

在神經網路訓練中，我們把“蒙”叫做初始化，可以隨機，也可以根據以前的經驗給定初始值。即使是“蒙”，也是有技術含量的。

通俗地理解反向傳播

舉個通俗的例子，Bob拿了一支沒有準星的步槍，或者是準星有bug，或者是Bob眼神兒不好看不清靶子，或者是霧很大......反正就是Bob很倒黴。第一次試槍後，拉回靶子一看，彈著點偏左了，於是在第二次試槍時，Bob就會有意識地向右側偏幾毫米，再看靶子上的彈著點，如此反覆幾次，Bob就會掌握這支步槍的脾氣了。下圖顯示了Bob的5次試槍過程：

在這個例子中：

每次試槍彈著點和靶心之間的差距就叫做誤差，可以用一個誤差函式來表示，比如差距的絕對值，如圖中的紅色線。
一共試槍5次，就是迭代/訓練了5次的過程。
每次試槍後，把靶子拉回來看彈著點，然後調整下一次的射擊角度的過程，叫做反向傳播。注意，把靶子拉回來看和跑到靶子前面去看有本質的區別，後者容易有生命危險，因為還有別的射擊者。一個不恰當的比喻是，在數學概念中，人跑到靶子前面去看，叫做正向微分；把靶子拉回來看，叫做反向微分。
每次調整角度的數值和方向，叫做梯度。比如向右側調整1毫米，或者向左下方調整2毫米。如圖中的綠色向量線。

上圖是每次單發點射，所以每次訓練樣本的個數是1。在實際的神經網路訓練中，通常需要多個樣本，做批量訓練，以避免單個樣本本身取樣時帶來的誤差。在本例中，多個樣本可以描述為連發射擊，假設一次可以連打3發子彈，每次的離散程度都類似，如下圖所示：

如果每次3發子彈連發，這3發子彈的彈著點和靶心之間的差距之和再除以3，叫做損失，可以用損失函式來表示。

其實損失就是所有樣本的誤差的總和，所以有時候損失函式可以和誤差函式混用概念。

其實射擊還不這麼簡單，如果是遠距離狙擊，還要考慮空氣阻力和風速，在神經網路裡，空氣阻力和風速可以對應到隱藏層的概念上。

用數學概念理解反向傳播

我們再用一個純數學的例子來說明反向傳播的概念。

假設我們有一個函式 \(z = x * y，其中: x = w * 2 + b, y = b + 1，即: z = (w * 2 + b) * (b + 1)\)

關係如下圖：

注意這裡x, y, z不是變數，w, b是才變數，因為在神經網路中，我們要最終求解的是w和b的值，x,y,z只是樣本值。

當w = 3, b = 4時，會得到如下結果

最終的z值，受到了前面很多因素的影響：變數w，變數b，計算式x，計算式y。常數是個定值，不考慮。目前的z=50，如果我們想讓z變大一些，w和b應該如何變化呢？

我們從z開始一層一層向回看，圖中各節點關於變數b的偏導計算結果如下圖：

因為z = x * y，其中x = w * 2 + b，y = b + 1
所以：

\[\frac{\partial{z}}{\partial{b}}=\frac{\partial{z}}{\partial{x}}*\frac{\partial{x}}{\partial{b}}+\frac{\partial{z}}{\partial{y}}*\frac{\partial{y}}{\partial{b}}=5*1+10*1=15\]

其中：

\[\frac{\partial{z}}{\partial{x}}=\frac{\partial{}}{\partial{x}}(x*y)=y=5\]
\[\frac{\partial{z}}{\partial{y}}=\frac{\partial{}}{\partial{y}}(x*y)=x=10\]
\[\frac{\partial{x}}{\partial{b}}=\frac{\partial{}}{\partial{b}}(w*2+b)=1\]
\[\frac{\partial{y}}{\partial{b}}=\frac{\partial{}}{\partial{b}}(b+1)=1\]

有一個很有趣的問題是：z = x * y = 10 * 5 = 50，表面看起來x=10，y=5，似乎x對z的貢獻較大。那麼x的微小變化和y的微小變化對z來說，哪一個貢獻大呢？

我們假設只有x變化時，△x = 0.1, 則z = (x + △x) * y = 10.1 * 5 = 50.5

我們再假設只有y變化時，△y = 0.1, 則z = x * (y +△y) = 10 * 5.1 = 51

50.5 < 51，說明y的微小變化對z的貢獻比較大，這個從

\[\frac{\partial{z}}{\partial{x}}=\frac{\partial{}}{\partial{x}}(x*y)=5 < \frac{\partial{z}}{\partial{y}}=\frac{\partial{}}{\partial{y}}(x*y)=10\]

和這兩個值的比較來看也可以證明。而△x和△y就可以理解為梯度值。

同理，我們也可以得到圖中各變數對w的偏導值：

從以上兩圖可以看出，反向微分保留了所有變數（包括中間變數）對結果z的影響。若z為誤差函式，則對圖進行一次計算，可以得到所有節點對z的影響，即梯度值，下一步就可以利用這些梯度值來更新w和b的權重。

w的變化和b的變化，哪一個對z的變化貢獻大？從圖中還可以注意到：

\[\frac{\partial{z}}{\partial{b}}=15\]
\[\frac{\partial{z}}{\partial{w}}=10\]

所以每次w和b的變化值是不相同的，b的變化會比w大一些，也就是每一步的跨度大一些，這個是與z = xy = (w2+b)*(b+1)這個算式相關的，並不代表神經網路中實際情況。

反向傳播的實際計算過程（單變數）

還是用上面的例子，目前：

\(w = 3\)
\(b=4\)
\(x = w*2+b = 10\)
\(y = b+1 = 5\)
\(z = x*y=50\)

假設我們最終的目的想讓z = 60，只改變b的值，如何實現？
答案就是偏導數：

\[\frac{\partial{z}}{\partial{b}}=\frac{\Delta{z}}{\Delta{b}}=15\]

目前z=50, 距離60相差10，所以我們令\(\Delta{z}=60-50=10\)，則：

\[ \frac{\Delta{z}}{\Delta{b}}=15=\frac{10}{\Delta{b}} \\ \]

所以:

\[\Delta{b} = 0.66667\]

再帶入式子中（順便說一句，下面這個計算過程就叫做前向計算）

\(w = 3\)
\(b=4+0.66667=4.66667\)
\(x = w*2+b = 10.66667\)
\(y = b+1 = 5.66667\)
\(z = x*y=10.66667*5.66667=60.4445\)

一下子超過60了，咋辦？再來一次（下面的過程就叫做反向傳播）：

我們令\(\Delta{z}=60-60.4445=-0.4445\)，則：

\[ \frac{\Delta{z}}{\Delta{b}}=15=\frac{-0.4445}{\Delta{b}} \\ \]

所以:

\[\Delta{b} = -0.02963\]

再帶入式子中：

\(w = 3\)
\(b=4.666667-0.02963=4.63704\)
\(x = w*2+b = 10.63704\)
\(y = b+1 = 5.63704\)
\(z = x*y =10.63704*5.63704=59.96\)

咦哈！十分接近59.96了！再迭代幾次，應該可以近似等於60了，直到誤差不大於0.00001時，我們就可以結束迭代了，對於計算機來說，這些運算的執行速度很快。

有的同學會說了：這個問題不是用數學公式倒推求解一個二次方程，就能直接得到準確的b值嗎？是的！但是我們是要說明機器學習的方法，機器並不會解二次方程，而且很多時候不是用二次方程就能解決實際問題的。而上例所示，是用機器所擅長的迭代計算的方法來不斷逼近真實解，這就是機器學習的真諦！而且這種方法是普遍適用的。

用二維平面函式說明梯度下降原理

很多資料中會用下面這個圖來說明梯度下降，但是都沒有說清楚以下幾個問題：

1）為啥用這個看上去像\(y = x^2\)族的函式來說明梯度下降？
2）在最低點的左側，梯度值是負數；在最低點的右側，梯度值是正數。為什麼說是“下降”？
3）為什麼1—>2，2—>3等等的連線不是這條曲線的切線呢，而好像是絃線？

為何用\(y = x^2\)函式？

這是因為有一種損失函式的形式就是均方差，亦即：

\[loss = \sum_{i}(a_i - y_i) ^ 2\]

其中a是本次迭代的預測結果，y是樣本中的真實結果。我們的目的就是在這個函式上求最小值，使loss最小，這樣樣本值和預測值就會非常非常接近，以便於我們以後預測不在樣本中的真實資料。

為什麼說是“梯度下降”？

“梯度下降”，剛接觸這個詞時，我總是往“降低難度”或“降低維度”方面去理解，因為有個“下降”的動詞在裡面。而實際上，“下降”在這裡面的含義是“與導數相反的方向”的意思。

我們假設上面這個圖形的函式是\(y = (x-1)^2+0.001\)，則\(y’_x = 2(x-1)\)。

在點B上，這個函式的切線（綠色）是指向下方的（Y軸方向），所以是個負數：假設\(X_B\) = 0.1, 則\(y’ = 2*(0.1-1) = -1.8\)。
在F點上，切線（綠色）向上：假設\(X_F\) = 1.5, 則\(y’ = 2*(1.5-1) = 1\)，是個正數。

而在標準的權重更新公式裡：

\[w = w – η*\Delta{w}\]
\[b = b – η*\Delta{b}\]

可以看到無論是w還是b，都是用上一次的權重值減去步長\(\times\)梯度。

當梯度(y')是正數時，即點F的位置，\(x = x - η*1\)，切線向上，x值會變小，權重值會從右側向x=1靠近；
當梯度(y')是負數時，亦即點B的位置，切線向下，x值會變大：\(x = x - η*(-1.8) = x + η*1.8\)，最終運算結果變成了加法，與切線方向相反，權重值會從左側向x=1靠近。

所以總體上看，無論x在極值的左側還是右側，都會向中間（坡底）靠攏，確實是“下降”了。

不知不覺中，我們已經接觸到了第一個神經網路中的超參η，即步長值，這個值對於神經網路訓練非常重要，決定了訓練時間的長短。

曲線和絃線的關係？

我們先知道了A點的切線的方向，亦即黃色的線，但是不知道長度
我們有步長值η，以及梯度下降公式\(X_1 = X_0 – η * dx\)
因為\(y'_x的導數dx = 2(X-1), η = 0.1, X_0 = 0.2, 於是有X_1 = X_0–0.1*2(X_0-1) = 0.36\)，這就等同於我們知道了切線的長度，亦即綠色的線的長度和方向都確定了
然後我們可以畫出紅色的線（亦即絃線）

所以，絃線在這裡面沒啥用途，只是表示一個迭代跳躍的動作而已。實際的變化值已經由綠色的線定義好了。

參考資料

http://colah.github.io/posts/2015-08-Backprop/

反向傳播與梯度下降的基本概念

通俗地理解反向傳播

用數學概念理解反向傳播

反向傳播的實際計算過程（單變數）

用二維平面函式說明梯度下降原理

為何用\(y = x^2\)函式？

為什麼說是“梯度下降”？

曲線和絃線的關係？

參考資料

反向傳播與梯度下降的基本概念

AI應用開發基礎傻瓜書系列2-神經網路中反向傳播與梯度下降的基本概念

[ch02-00] 反向傳播與梯度下降的通俗解釋

神經網路系列之二 -- 反向傳播與梯度下降

深度學習反向傳播---隨機梯度下降法

BP神經網路，BP推導過程，反向傳播演算法，誤差反向傳播，梯度下降，權值閾值更新推導，隱含層權重更新公式

深度學習筆記——理論與推導之概念，成本函式與梯度下降演算法初識（一）

深度學習：反向傳播與基本原理

【機器學習】1 監督學習應用與梯度下降

通過實例詳解隨機梯度與梯度下降

CS224n筆記5 反向傳播與項目指導

Git與Github的基本概念

機器學習：線性回歸——理論與代碼實現（基於正規方程與梯度下降）

【Mark Schmidt課件】機器學習與資料探勘——數值優化與梯度下降

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

儲存過程的基本語法與事務的基本概念

tensorflow的歸一化與梯度下降

【CS229】代價函式與梯度下降

吳恩達深度學習deeplearning.ai-Week2課後作業-Logistic迴歸與梯度下降向量化

大學生學程式設計（十）：資料結構與演算法的基本概念

反向傳播與梯度下降的基本概念

通俗地理解反向傳播

用數學概念理解反向傳播

反向傳播的實際計算過程（單變數）

用二維平面函式說明梯度下降原理

為何用\(y = x^2\)函式？

為什麼說是“梯度下降”？

曲線和絃線的關係？

參考資料

相關推薦