kaggle經典學習
1 考核方式:Public LB(驗證集) 和 Private LB(測試集)
2資料分析
分析特徵分佈
分析特徵分佈,如果是連續變數且拖尾可以考慮使用對數或者冪變化。如果是離散變數,先觀察出現的頻率,對少數類別使用其他編碼。
分析目標變數的分佈
(1)如果資料的範圍很大,或者是長尾分佈,適合使用對數變換
(2)如果資料符合對數正態分佈(密度和分佈函式如下圖所示)
(3)一般情況下使用Box-Cox變換,通過變換可以使得模型有更好的優化,通常也會帶來效果上的提升。
(4)上下采樣與分層採用

對數正態分佈概率密度.png

對數正態分佈分佈函式.png
分析變數兩兩之間的相關度和分佈
3資料清洗
資料缺失值處理
(1)連續分佈:正態分佈則用均值補,偏態分佈使用中位數補全
(2)離散分佈:使用眾數補全
4特徵工程
特徵變換
主要是針對一些長尾特徵,需要進行一些冪變化或者對數變換,使得模型能更好的優化迭代。需要注意的是,GBDT或RF等模型對 單調變換 不敏感,其原因在於樹模型在求解分裂點時只考慮排序分位點。
特徵編碼
(1)OneHot編碼
-如果分類維度特別高的情況下進行OneHot編碼會導致模型稀疏,影響模型的效能。所以,通常取前 Top N 的資料進行OneHot編碼,其他的資料歸入 “其他” 類目。
-利用每個ID特徵的的一些統計量替代該ID取值作為特徵
(2)LabelEncoder
對於Random Forests和GBDT模型,如果類別特徵取值特別多,可以考慮使用LabelEncoder後的結果作為特徵。
模型訓練和驗證
(1)模型選擇

模型選擇.png
未完待續