1. 程式人生 > >【Machine Learning Done Wrong】機器學習七種易犯的錯誤

【Machine Learning Done Wrong】機器學習七種易犯的錯誤

作者總結了機器學習七種易犯的錯誤:1.想當然用預設Loss;2.非線性情況下用線性模型;3.忘記Outlier;4.樣本少時用High Viriance模型;5.不做標準化就用L1/L2等正則;6.不考慮線性相關直接用線性模型;7.LR模型中用引數絕對值判斷feature重要性。

1. 機器學習本質上是在解一個優化問題,優化目標定義錯誤(或者 loss function 定義錯了),就全錯了!

2. 儘量通過特徵處理和變換,把非線性情況用線性模型求解:因為線性模型具有訓練演算法簡單可處理海量資料等特性;

3. 很多情況下,如果不把 Outlier 資料提前過濾,就要採用可處理 Outlier 的模型(或者在模型訓練過程中加入處理 Outlier 資料的演算法);

5. 特徵標準化是很重要的預處理:多維度特徵組合在一起時,特徵具有同一尺度的可比性很重要;

6. 絕大多數情況下,“線性相關” 很少存在(比如廣告點選率和飄紅長度)但是:可以一個大的 "非線性相關問題" 轉化成 N 個小的 "線性相關問題";

7. LR 訓練出來的特徵權重和特徵的重要性很相關,但並非完全代表特徵的重要性(有很多情況需要特定考慮)