機器學習中“批量梯度下降”公式推導
阿新 • • 發佈:2019-02-15
之前在看批量梯度下降的時候,看到代價函式J(w)的求導過程中,一直搞不明白它是怎麼推匯出來的,今天終於把它推匯出來了。(注:下面文字中加粗的字母即為向量)
原始的代價函式如下所示:
J(w)就是代價函式,其中w 是需要求出的引數向量,m 表示為訓練樣本個數,(x(i), y(i))就是其中的一個訓練樣本點,前面的求和項是實際值和預測值的誤差總和,後面的lamda 項為正則項,暫且理解為懲罰項,這個是為了避免overfitting的。
之後對J(w) 求導,可得如下公式:
上述式子就是最終結果了,看到網上有很多的人都把中括號中的求和項的正負號顛倒了,所以說想在這裡確認一下。
之後更新步長(或者學習率learning rate),迭代之類的云云網上已經說了很多了,在這裡就不一一贅述了,只是把自己覺得不懂的地方寫下來,希望能夠幫助大家理解批量梯度下降以及之後的隨機梯度下降。