1. 程式人生 > >機器學習(三)—線性回歸、邏輯回歸、Softmax回歸 的區別

機器學習(三)—線性回歸、邏輯回歸、Softmax回歸 的區別

樣本 自變量 進行 方便 線性回歸 https 參數 常用方法 等價

1、什麽是回歸?

  是一種監督學習方式,用於預測輸入變量和輸出變量之間的關系,等價於函數擬合,選擇一條函數曲線使其更好的擬合已知數據且更好的預測未知數據。

2、線性回歸

  代價函數(平方誤差代價函數,加1/2是為了方便求導):
  技術分享圖片
  梯度下降法:
  技術分享圖片
  技術分享圖片
  (1) 批處理梯度下降法:每次對全部訓練數據進行求導後更新參數,能求得最優解;

  (2) 增量梯度下降法:每掃描一個訓練樣本就更新參數,快,訓練集很大時選擇。

  正規方程組求解(The normal equations):直接令代價函數對參數求導為0:
  技術分享圖片
  步長(學習率)的選擇:過小,叠代次數非常高;過大,越過最小值無法收斂。0.01,0.03,0.1,0.3,1,3,10

  特征值歸一化:多維特征時,需要確保特征的取值範圍在相同的尺度內計算過程才會收斂,常用方法有(1) (X- mean(X))/std(X);(2) (X - min) / (max - min)。

3、邏輯回歸

  目的:從訓練數據特征學習出一個0/1分類模型。

  預測函數:
  技術分享圖片
  優點:計算代價不高,易於理解和實現;缺點:容易欠擬合,分類精度不高

  觀測值的概率:

   技術分享圖片  

  損失代價函數:
  技術分享圖片

4. Softmax回歸模型

  當多分類問題時,logistic推廣為softmax.

  假設函數:
  技術分享圖片
  損失函數:
  技術分享圖片
  為了解決softmax回歸的參數冗余帶來的數值問題,可以加入權重衰減項

5. 過擬合和欠擬合如何產生,如何解決?

  欠擬合:根本原因是特征維度過少,導致擬合的函數無法滿足訓練集,誤差較大;解決方法:增加特征維度;

  過擬合:根本原因是特征維度過大,導致擬合的函數完美的經過訓練集,但對新數據的預測結果差。解決方法:(1)減少特征維度;(2)正則化,降低參數值。

6、邏輯回歸和線性回歸區別

  1)線性回歸要求變量服從正態分布,logistic回歸對變量分布沒有要求。

  2)線性回歸要求因變量是連續性數值變量,而logistic回歸要求因變量是分類型變量。

  3)線性回歸要求自變量和因變量呈線性關系,而logistic回歸不要求自變量和因變量呈線性關系

  4)因變量不同:logistic回歸是分析因變量取某個值的概率與自變量的關系,而線性回歸是直接分析因變量與自變量的關系

  Logistic Regression最大的特點就是將函數值收縮到[0,1]這個範圍。

機器學習(三)—線性回歸、邏輯回歸、Softmax回歸 的區別