1. 程式人生 > >機器學習 -- 迴歸

機器學習 -- 迴歸

1. 線性迴歸

   利用數理統計學中的迴歸分析來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計方法。 表達形式: y = ax + b + e   ( e 為誤差服從均值為0的正態分佈,不是一個定值)

2. 擬合

    把平面上一系列的點用一條光滑的曲線連線起來的過程就叫做擬合。高中還是初中學過的,用小車拉紙帶,用打點器每隔多少秒在紙帶上打點,來計算重力加速度的實驗,就是通過得出的時間與速度的關係圖,用一條直線擬合這些點,這條直線的斜率就是重力加速度的近似值。

3. 殘差分析

   從上面的打點計時器的例子來看,理論上推定 v=gt,而在實驗中產生的其實是一個不太準確的函式 v=gt+e。 那麼問題就轉化為 g 究竟取多少才能讓 e 最小呢? 這個過程就是殘差分析,而最終得到的結果就是要計算出一個 g,使得 e 為誤差服從均值為0的正態分佈。 這種用來進行線性迴歸中的係數猜測的方法就是 -- 最小二乘法

4. 過擬合

   在歸納過程中,可能為了迎合所有樣本向量點甚至噪聲點而使得模型描述過於複雜。

   過擬合的危害: (1) 描述複雜  (2) 失去泛化能力。

   造成過擬合的原因:  (1)訓練樣本少。 (2) 力求完美

5. 欠擬合

    由於操作不當----也可以說建模不當產生的誤差 e 分佈太散或者太大的情況。通常體現出來的都是線上性迴歸中的因素考慮不足的情況,常見的原因有以下兩種:

  (1)引數過少。(2) 擬合不當 

6. 曲線擬合轉化為線性擬合

   非線性迴歸一般可以分為一元非線性迴歸和多元非線性迴歸。一元非線性迴歸是指兩處自變數之間呈現非線性關係。如雙曲線、二次曲線等。

   我們應該儘量把多元非線性迴歸經過適當的數學變換,使它們可以用線性化的表示式。