1. 程式人生 > >區域性權重線性迴歸(Locally weighted linear regression)

區域性權重線性迴歸(Locally weighted linear regression)

我們先看一組圖片:
這裡寫圖片描述

這是給出一組實數輸入xR後,對目標函式y的估計。最左邊的圖用y=θ0+θ1x去擬合數據。但我們看到大部分訓練樣本並不在這條直線上,擬合的效果不好。中間的圖改用y=θ0+θ1x+θ2x2來擬合數據情況就好很多了。但我們應當注意新增過多的特徵也是很危險的。我們可以看最右邊的圖,用五階多項式來擬合數據,擬合出的曲線幾乎通過了所有的點。但我們不認為這是個好的估計。左邊的情況稱為欠擬合,右邊的稱為過擬合,這個問題在後面的章節會有詳述。

通過上面的例子可以看到,輸入特徵的選擇對於擬合結果的表現是影響很大的。而這一節講的區域性線性迴歸演算法(LWR)在資料集足夠的情況下,能讓模型選擇問題變得不再那麼關鍵。

在原始的線性迴歸演算法中,當給出一個輸入點x後,我們會採取以下步驟:

  1. 尋找合適的θ值,使i(y(i)θTx(i))2最小化。
  2. 輸出 θTx

而在區域性權重線性迴歸中,步驟會有所調整:

  1. 尋找合適的θ值,使iω(i)(y(i)θTx(i))2最小化。
  2. 輸出 θTx

這裡ω(i)是非負權重值。我們可以很直觀的發現,當ω(i)大的時估計值和真實值之間的偏差就會很關鍵。對應的當ω(i)小的時候,偏差就幾乎可以忽略了。

而權重的標準形式是:

ω(i)=exp((x(i)x)22τ2)

我們注意到權重值ω(i)是和預測點x直接相關的。離x越近的點權重越高,越遠的點權重越低。而其中引數τ

控制了訓練樣本權重隨著距離增大的下降速度,被稱為頻寬引數

區域性權重線性迴歸是我們見過的第一個非引數化演算法。而前面討論的線性迴歸演算法則是一個引數化演算法。它們之間的區別是,引數化演算法需要擬合的引數是固定有限的,當擬合完成後,訓練集資料也無需保留。而非引數化演算法在擬合完成後,仍需保留訓練集樣本資料。