1. 程式人生 > >機器學習筆記(參考吳恩達機器學習視訊筆記)06_正則化

機器學習筆記(參考吳恩達機器學習視訊筆記)06_正則化

6 正則化

6.1 過擬合問題

通過學習得到的假設可能能夠非常好地適應訓練集(代價函式可能幾乎為 0),但是可能會不能推廣到新的資料。如何處理過擬合問題:

1)丟棄一些不能幫助我們正確預測的特徵。可以是手工選擇保留哪些特徵,或者使用一些模型選擇的演算法來幫忙(例如 PCA)。

2)正則化。保留所有的特徵,但是減少引數的大小( magnitude)。

6.2 正則化引數

迴歸問題中的模型為:,其中,高次項導致了過擬合的產生,若使高次項係數接近於0,就能更好地擬合。在一定程度上減小引數的值,就是正則化的基本方法。能夠防止過擬合問題的代價函式表示為:

其中,稱為正則化引數(Regularization Parameter),不對

進行懲罰。若過大,會把所有的引數都最小化,導致模型變成,造成欠擬合。取一個合理的的值,這樣才能更好的應用正則化。

6.3 正則化線性迴歸

對於線性迴歸的求解,主要有兩種學習演算法:一種基於梯度下降,一種基於正規方程。正則化線性迴歸的代價函式為:

梯度下降演算法將分為兩種情形:

Repeat until convergence{

}

Repeat

對上面的演算法中j=1,2,…,n時的更新式子進行調整可得:

可以看出,正則化線性迴歸的梯度下降演算法的變化在於,每次都在原有演算法更新規則的基礎上令值減少了一個額外的值。

利用正規方程求解正則化線性迴歸模型,方法如下:

圖中的矩陣尺寸為(n+1)*(n+1)。

6.4 正則化邏輯迴歸

正則化邏輯迴歸的代價函式表示為:

最小化代價函式,通過求導,得出梯度下降演算法為:

Repeat until convergence{

                 

}