1. 程式人生 > >吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記(1-2)-- 神經網路基礎

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記(1-2)-- 神經網路基礎

以下為在Coursera上吳恩達老師的DeepLearning.ai課程專案中,第一部分《神經網路和深度學習》第二週課程部分關鍵點的筆記。筆記並不包含全部小視訊課程的記錄,如需學習筆記中捨棄的內容請至Coursera 或者 網易雲課堂。同時在閱讀以下筆記之前,強烈建議先學習吳恩達老師的視訊課程。

同時我在知乎上開設了關於機器學習深度學習的專欄收錄下面的筆記,方便在移動端的學習。歡迎關注我的知乎:大樹先生。一起學習一起進步呀!^_^

神經網路和深度學習—神經網路基礎

1. 二分類問題

對於二分類問題,大牛給出了一個小的Notation。

  • 樣本:(x,y),訓練樣本包含m個;
  • 其中xRnx,表示樣本x 包含nx個特徵;
  • y0,1,目標值屬於0、1分類;
  • 訓練資料:{(x(1),y(1)),(x(2),y(2)),,(x(m),y(m))}

輸入神經網路時樣本資料的形狀:

這裡寫圖片描述

X.shape=(nx,m)

目標資料的形狀:

Y=[y(1),y(2),,y(m)]

Y.shape=(1,m)

2. logistic Regression

邏輯迴歸中,預測值:

h^=P(y=1|x)
其表示為1的概率,取值範圍在[0,1]之間。

引入Sigmoid函式,預測值:

y^=Sigmoid(wTx+b)=σ(wTx+b)其中
Sigmoid(z
)=11+ez

注意點:函式的一階導數可以用其自身表示,

σ(z)=σ(z)(1σ(z))

這裡可以解釋梯度消失的問題,當z=0時,導數最大,但是導數最大為σ(0)=σ(0)(1σ(0))=0.5(10.5)=0.25,這裡導數僅為原函式值的0.25倍。

引數梯度下降公式的不斷更新,σ(z)會變得越來越小,每次迭代引數更新的步伐越來越小,最終接近於0,產生梯度消失的現象。

3. logistic迴歸 損失函式

Loss function

一般經驗來說,使用平方錯誤(squared error)來衡量Loss Function:

L(y^,y)=12(y^y)2

但是,對於logistic regression 來說,一般不適用平方錯誤來作為Loss Function,這是因為上面的平方錯誤損失函式一般是非凸函式(non-convex),其在使用低度下降演算法的時候,容易得到區域性最優解,而不是全域性最優解。因此要選擇凸函式。

邏輯迴歸的Loss Function:

L(y^,y)=(ylogy^+(1y)log(1y^))