1. 程式人生 > >反向傳播與梯度下降的基本概念

反向傳播與梯度下降的基本概念

反向傳播和梯度下降這兩個詞,第一眼看上去似懂非懂,不明覺厲。這兩個概念是整個神經網路中的重要組成部分,是和誤差函式/損失函式的概念分不開的。

神經網路訓練的最基本的思想就是:先“蒙”一個結果,我們叫預測結果h,看看這個預測結果和事先標記好的訓練集中的真實結果y之間的差距,然後調整策略,再試一次,這一次就不是“蒙”了,而是有依據地向正確的方向靠近。如此反覆多次,一直到預測結果和真實結果之間相差無幾,亦即|h-y|->0,就結束訓練。

在神經網路訓練中,我們把“蒙”叫做初始化,可以隨機,也可以根據以前的經驗給定初始值。即使是“蒙”,也是有技術含量的。

通俗地理解反向傳播

舉個通俗的例子,Bob拿了一支沒有準星的步槍,或者是準星有bug,或者是Bob眼神兒不好看不清靶子,或者是霧很大......反正就是Bob很倒黴。第一次試槍後,拉回靶子一看,彈著點偏左了,於是在第二次試槍時,Bob就會有意識地向右側偏幾毫米,再看靶子上的彈著點,如此反覆幾次,Bob就會掌握這支步槍的脾氣了。下圖顯示了Bob的5次試槍過程:

在這個例子中:

  • 每次試槍彈著點和靶心之間的差距就叫做誤差,可以用一個誤差函式來表示,比如差距的絕對值,如圖中的紅色線。
  • 一共試槍5次,就是迭代/訓練了5次的過程 。
  • 每次試槍後,把靶子拉回來看彈著點,然後調整下一次的射擊角度的過程,叫做反向傳播。注意,把靶子拉回來看和跑到靶子前面去看有本質的區別,後者容易有生命危險,因為還有別的射擊者。一個不恰當的比喻是,在數學概念中,人跑到靶子前面去看,叫做正向微分;把靶子拉回來看,叫做反向微分。
  • 每次調整角度的數值和方向,叫做梯度。比如向右側調整1毫米,或者向左下方調整2毫米。如圖中的綠色向量線。

上圖是每次單發點射,所以每次訓練樣本的個數是1。在實際的神經網路訓練中,通常需要多個樣本,做批量訓練,以避免單個樣本本身取樣時帶來的誤差。在本例中,多個樣本可以描述為連發射擊,假設一次可以連打3發子彈,每次的離散程度都類似,如下圖所示:

  • 如果每次3發子彈連發,這3發子彈的彈著點和靶心之間的差距之和再除以3,叫做損失,可以用損失函式來表示。

其實損失就是所有樣本的誤差的總和,所以有時候損失函式可以和誤差函式混用概念。

其實射擊還不這麼簡單,如果是遠距離狙擊,還要考慮空氣阻力和風速,在神經網路裡,空氣阻力和風速可以對應到隱藏層的概念上。

用數學概念理解反向傳播

我們再用一個純數學的例子來說明反向傳播的概念。

假設我們有一個函式 \(z = x * y,其中: x = w * 2 + b, y = b + 1,即: z = (w * 2 + b) * (b + 1)\)

關係如下圖:

注意這裡x, y, z不是變數,w, b是才變數,因為在神經網路中,我們要最終求解的是w和b的值,x,y,z只是樣本值。

當w = 3, b = 4時,會得到如下結果

最終的z值,受到了前面很多因素的影響:變數w,變數b,計算式x,計算式y。常數是個定值,不考慮。目前的z=50,如果我們想讓z變大一些,w和b應該如何變化呢?

我們從z開始一層一層向回看,圖中各節點關於變數b的偏導計算結果如下圖:

因為z = x * y,其中x = w * 2 + b,y = b + 1
所以:

\[\frac{\partial{z}}{\partial{b}}=\frac{\partial{z}}{\partial{x}}*\frac{\partial{x}}{\partial{b}}+\frac{\partial{z}}{\partial{y}}*\frac{\partial{y}}{\partial{b}}=5*1+10*1=15\]

其中:

\[\frac{\partial{z}}{\partial{x}}=\frac{\partial{}}{\partial{x}}(x*y)=y=5\]
\[\frac{\partial{z}}{\partial{y}}=\frac{\partial{}}{\partial{y}}(x*y)=x=10\]
\[\frac{\partial{x}}{\partial{b}}=\frac{\partial{}}{\partial{b}}(w*2+b)=1\]
\[\frac{\partial{y}}{\partial{b}}=\frac{\partial{}}{\partial{b}}(b+1)=1\]

有一個很有趣的問題是:z = x * y = 10 * 5 = 50,表面看起來x=10,y=5,似乎x對z的貢獻較大。那麼x的微小變化和y的微小變化對z來說,哪一個貢獻大呢?

我們假設只有x變化時,△x = 0.1, 則z = (x + △x) * y = 10.1 * 5 = 50.5

我們再假設只有y變化時,△y = 0.1, 則z = x * (y +△y) = 10 * 5.1 = 51

50.5 < 51,說明y的微小變化對z的貢獻比較大,這個從

\[\frac{\partial{z}}{\partial{x}}=\frac{\partial{}}{\partial{x}}(x*y)=5 < \frac{\partial{z}}{\partial{y}}=\frac{\partial{}}{\partial{y}}(x*y)=10\]

和這兩個值的比較來看也可以證明。而△x和△y就可以理解為梯度值。

同理,我們也可以得到圖中各變數對w的偏導值:

從以上兩圖可以看出,反向微分保留了所有變數(包括中間變數)對結果z的影響。若z為誤差函式,則對圖進行一次計算,可以得到所有節點對z的影響,即梯度值,下一步就可以利用這些梯度值來更新w和b的權重。

w的變化和b的變化,哪一個對z的變化貢獻大?從圖中還可以注意到:

\[\frac{\partial{z}}{\partial{b}}=15\]
\[\frac{\partial{z}}{\partial{w}}=10\]

所以每次w和b的變化值是不相同的,b的變化會比w大一些,也就是每一步的跨度大一些,這個是與z = xy = (w2+b)*(b+1)這個算式相關的,並不代表神經網路中實際情況。

反向傳播的實際計算過程(單變數)

還是用上面的例子,目前:

  • \(w = 3\)
  • \(b=4\)
  • \(x = w*2+b = 10\)
  • \(y = b+1 = 5\)
  • \(z = x*y=50\)

假設我們最終的目的想讓z = 60,只改變b的值,如何實現?
答案就是偏導數:

\[\frac{\partial{z}}{\partial{b}}=\frac{\Delta{z}}{\Delta{b}}=15\]

目前z=50, 距離60相差10,所以我們令\(\Delta{z}=60-50=10\),則:

\[ \frac{\Delta{z}}{\Delta{b}}=15=\frac{10}{\Delta{b}} \\ \]

所以:

\[\Delta{b} = 0.66667\]

再帶入式子中(順便說一句,下面這個計算過程就叫做前向計算

  • \(w = 3\)
  • \(b=4+0.66667=4.66667\)
  • \(x = w*2+b = 10.66667\)
  • \(y = b+1 = 5.66667\)
  • \(z = x*y=10.66667*5.66667=60.4445\)

一下子超過60了,咋辦?再來一次(下面的過程就叫做反向傳播):

我們令\(\Delta{z}=60-60.4445=-0.4445\),則:

\[ \frac{\Delta{z}}{\Delta{b}}=15=\frac{-0.4445}{\Delta{b}} \\ \]

所以:

\[\Delta{b} = -0.02963\]

再帶入式子中:

  • \(w = 3\)
  • \(b=4.666667-0.02963=4.63704\)
  • \(x = w*2+b = 10.63704\)
  • \(y = b+1 = 5.63704\)
  • \(z = x*y =10.63704*5.63704=59.96\)

咦哈!十分接近59.96了!再迭代幾次,應該可以近似等於60了,直到誤差不大於0.00001時,我們就可以結束迭代了,對於計算機來說,這些運算的執行速度很快。

有的同學會說了:這個問題不是用數學公式倒推求解一個二次方程,就能直接得到準確的b值嗎?是的!但是我們是要說明機器學習的方法,機器並不會解二次方程,而且很多時候不是用二次方程就能解決實際問題的。而上例所示,是用機器所擅長的迭代計算的方法來不斷逼近真實解,這就是機器學習的真諦!而且這種方法是普遍適用的。

用二維平面函式說明梯度下降原理

很多資料中會用下面這個圖來說明梯度下降,但是都沒有說清楚以下幾個問題:

1) 為啥用這個看上去像\(y = x^2\)族的函式來說明梯度下降?
2) 在最低點的左側,梯度值是負數;在最低點的右側,梯度值是正數。為什麼說是“下降”?
3) 為什麼1—>2,2—>3等等的連線不是這條曲線的切線呢,而好像是絃線?

為何用\(y = x^2\)函式?

這是因為有一種損失函式的形式就是均方差,亦即:

\[loss = \sum_{i}(a_i - y_i) ^ 2\]

其中a是本次迭代的預測結果,y是樣本中的真實結果。我們的目的就是在這個函式上求最小值,使loss最小,這樣樣本值和預測值就會非常非常接近,以便於我們以後預測不在樣本中的真實資料。

為什麼說是“梯度下降”?

“梯度下降”,剛接觸這個詞時,我總是往“降低難度”或“降低維度”方面去理解,因為有個“下降”的動詞在裡面。而實際上,“下降”在這裡面的含義是“與導數相反的方向”的意思。

我們假設上面這個圖形的函式是\(y = (x-1)^2+0.001\),則\(y’_x = 2(x-1)\)

  • 在點B上,這個函式的切線(綠色)是指向下方的(Y軸方向),所以是個負數:假設\(X_B\) = 0.1, 則\(y’ = 2*(0.1-1) = -1.8\)
  • 在F點上,切線(綠色)向上:假設\(X_F\) = 1.5, 則\(y’ = 2*(1.5-1) = 1\),是個正數。

而在標準的權重更新公式裡:

\[w = w – η*\Delta{w}\]
\[b = b – η*\Delta{b}\]

可以看到無論是w還是b,都是用上一次的權重值減去步長\(\times\)梯度。

  • 當梯度(y')是正數時,即點F的位置,\(x = x - η*1\),切線向上,x值會變小,權重值會從右側向x=1靠近;
  • 當梯度(y')是負數時,亦即點B的位置,切線向下,x值會變大\(x = x - η*(-1.8) = x + η*1.8\),最終運算結果變成了加法,與切線方向相反,權重值會從左側向x=1靠近。

所以總體上看,無論x在極值的左側還是右側,都會向中間(坡底)靠攏,確實是“下降”了。

不知不覺中,我們已經接觸到了第一個神經網路中的超參η,即步長值,這個值對於神經網路訓練非常重要,決定了訓練時間的長短。

曲線和絃線的關係?

  1. 我們先知道了A點的切線的方向,亦即黃色的線,但是不知道長度
  2. 我們有步長值η,以及梯度下降公式\(X_1 = X_0 – η * dx\)
  3. 因為\(y'_x的導數dx = 2(X-1), η = 0.1, X_0 = 0.2, 於是有X_1 = X_0–0.1*2(X_0-1) = 0.36\),這就等同於我們知道了切線的長度,亦即綠色的線的長度和方向都確定了
  4. 然後我們可以畫出紅色的線(亦即絃線)

所以,絃線在這裡面沒啥用途,只是表示一個迭代跳躍的動作而已。實際的變化值已經由綠色的線定義好了。

參考資料