1. 程式人生 > >機器學習筆記4:正則化(Regularization)

機器學習筆記4:正則化(Regularization)

機器學習筆記4:正則化(Regularization)

Andrew Ng機器學習課程學習筆記4


過擬合與欠擬合
  線性擬合時,有兩種擬合效果不好的情況,分別是過擬合與欠擬合。
  過擬合(overfitting),也叫高方差(variance)。主要是擬合曲線過於彎曲,雖然很多訓練的資料集都在擬合曲線上,但是,對於新的測試集資料預測正確的概率不高。一般特徵引數過多的時候可能會出現情況。比如用高階函式去擬合低階函式的資料。
  欠擬合(underfitting),也叫高偏差(bias)。主要是擬合曲線過於平直,不能適應訓練集的變化。比如用低階函式去擬合高階函式的資料。
  對於過擬合,解決辦法有:
  1.減少特徵引數的數量。
  2.正則化
  正則化時,我們將保留所有的特徵變數,但是會減小特徵變數的數量級,使得特徵變數的影響小一些。

loss function
  線性迴歸的正則化損失函式,就是在原線性擬合的損失函式上增加了一項,具體實現如下:
J ( θ ) = 1 2

m [ i = 1
m
( h θ ( x ( i ) ) y ( i ) ) 2 + λ j = 1 n θ j 2 ]
J(θ) = \dfrac{1}{2m}{[ \sum_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})^2+λ\sum_{j=1}^{n}θ_j^2 ]}
  式中的係數λ若過大,可能會發生欠擬合。

Gradient descent
  梯度下降法,需要注意的是θ0是單獨的,與其他的θj分開計算。
  具體的實現如下:
  repeat until convergence{
   θ j : = θ j α J ( θ ) θ j θ_j:=θ_j-α\dfrac{∂J(θ)}{∂θ_j}
  }        (simultaneously update all θ_j)
  將式子中的微分項替換掉即
  repeat until convergence{
   θ 0 : = θ 0 α 1 m i = 1 m ( h θ ( x ( i ) y ( i ) ) x 0 ( i ) θ_0:=θ_0-α\dfrac{1}{m}\sum_{i=1}^{m}(h_θ(x^{(i)}-y^{(i)})x^{(i)}_0
   θ j : = θ j ( 1 α λ m ) α 1 m i = 1 m ( h θ ( x ( i ) y ( i ) ) x j ( i ) θ_j:=θ_j(1-α\dfrac{λ}{m})-α\dfrac{1}{m}\sum_{i=1}^{m}(h_θ(x^{(i)}-y^{(i)})x^{(i)}_j
  }