1. 程式人生 > >機器學習中“批量梯度下降”公式推導

機器學習中“批量梯度下降”公式推導

之前在看批量梯度下降的時候,看到代價函式J(w)的求導過程中,一直搞不明白它是怎麼推匯出來的,今天終於把它推匯出來了。(注:下面文字中加粗的字母即為向量)

原始的代價函式如下所示:

代價函式公式

J(w)就是代價函式,其中w 是需要求出的引數向量,m 表示為訓練樣本個數,(x(i), y(i))就是其中的一個訓練樣本點,前面的求和項是實際值和預測值的誤差總和,後面的lamda 項為正則項,暫且理解為懲罰項,這個是為了避免overfitting的。

之後對J(w) 求導,可得如下公式:

代價函式求導公式

代價函式求導公式

代價函式求導公式

代價函式求導公式

代價函式求導公式

代價函式求導公式

代價函式求導公式

上述式子就是最終結果了,看到網上有很多的人都把中括號中的求和項的正負號顛倒了,所以說想在這裡確認一下。

之後更新步長(或者學習率learning rate),迭代之類的云云網上已經說了很多了,在這裡就不一一贅述了,只是把自己覺得不懂的地方寫下來,希望能夠幫助大家理解批量梯度下降以及之後的隨機梯度下降