1. 程式人生 > >吳恩達深度學習筆記(8)-重點-梯度下降法(Gradient Descent)

吳恩達深度學習筆記(8)-重點-梯度下降法(Gradient Descent)

梯度下降法(Gradient Descent)(重點)

梯度下降法可以做什麼?

在你測試集上,通過最小化代價函式(成本函式) J(w,b) 來訓練的引數w和b ,

在這裡插入圖片描述

如圖,在第二行給出和之前一樣的邏輯迴歸演算法的代價函式(成本函式)(上一篇文章已講過)

梯度下降法的形象化說明

圖片描述(最多50字)

在這個圖中,橫軸表示你的空間引數w 和 b ,在實踐中,w可以是更高的維度,但是為了更好地繪圖,我們定義 w 和b,都是單一實數,代價函式(成本函式)J(w,b)是在水平軸w和b上的曲面,因此曲面的高度就是 J(w,b)在某一點的函式值。我們所做的就是找到使得代價函式(成本函式)J(w,b)函式值是最小值,對應的引數w 和b 。

圖片描述(最多50字)

如圖,代價函式(成本函式) J(w,b) 是一個凸函式(convex function),像一個大碗一樣。

圖片描述(最多50字)

如圖,這就與剛才的圖有些相反,因為它是非凸的並且有很多不同的區域性最小值。由於邏輯迴歸的代價函式(成本函式) J(w,b) 特性,我們必須定義代價函式(成本函式) J(w,b) 為凸函式。 初始化w和b ,

圖片描述(最多50字)

可以用如圖那個小紅點來初始化引數w和b ,也可以採用隨機初始化的方法,對於邏輯迴歸幾乎所有的初始化方法都有效,因為函式是凸函式,無論在哪裡初始化,應該達到同一點或大致相同的點。

在這裡插入圖片描述
我們以如圖的小紅點的座標來初始化引數w和 b。

朝最陡的下坡方向走一步,不斷地迭代

圖片描述(最多50字)

我們朝最陡的下坡方向走一步,如圖,走到了如圖中第二個小紅點處。

在這裡插入圖片描述
我們可能停在這裡也有可能繼續朝最陡的下坡方向再走一步,如圖,經過兩次迭代走到第三個小紅點處。

直到走到全域性最優解或者接近全域性最優解的地方

通過以上的三個步驟我們可以找到全域性最優解,也就是代價函式(成本函式) 這個凸函式的最小值點。

梯度下降法的細節化說明(僅有一個引數)

(這是一個二維的,較好理解些)

圖片描述(最多50字)

假定代價函式(成本函式)J(w)只有一個引數w,即用一維曲線代替多維曲線,這樣可以更好畫出影象。
圖片描述(最多50字)

圖片描述(最多50字)

迭代就是不斷重複做如圖的公式:

: 表示更新引數, a 表示學習率(learning rate),用來控制步長(step),即向下走一步的長度

圖片描述(最多50字)
就是函式J(w)對 w求導(derivative),在程式碼中我們會使用dw表示這個結果

圖片描述(最多50字)

對於導數更加形象化的理解就是斜率(slope),如圖該點的導數就是這個點相切於J(w)的小三角形的高除寬。假設我們以如圖點為初始化點,該點處的斜率的符號是正的,即

在這裡插入圖片描述

所以接下來會向左走一步。

圖片描述(最多50字)

整個梯度下降法的迭代過程就是不斷地向左走,直至逼近最小值點。
圖片描述(最多50字)

假設我們以如圖點為初始化點,該點處的斜率的符號是負的,即

圖片描述(最多50字)
所以接下來會向右走一步。

在這裡插入圖片描述
整個梯度下降法的迭代過程就是不斷地向右走,即朝著最小值點方向走。

梯度下降法的細節化說明(兩個引數)

邏輯迴歸的代價函式(成本函式)J(w,b) 是含有兩個引數的。

圖片描述(最多50字)

δ表示求偏導符號,可以讀作round,

在這裡插入圖片描述

就是函式J(w,b)對w求偏導,在程式碼中我們會使用dw表示這個結果。
圖片描述(最多50字)
就是函式J(w,b)對b求偏導,在程式碼中我們會使用 db表示這個結果,

小寫字母d 用在求導數(derivative),即函式只有一個引數, 偏導數符號 δ 用在求偏導(partial derivative),即函式含有兩個以上的引數。

這篇文章中會用到求導和偏導的相關知識,如果不懂的話,可能要去補習下知識咯!

不過不用擔心,下一篇文章就是會講到這些知識點,可以看下一篇的講解了解!