【Trick】機器學習特徵工程處理（一）

阿新 • • 發佈：2019-01-13

前言

機器學習特徵工程處理系列部落格為博主學習相關視訊教程以及結合平時接觸到的特徵工程處理方法，總結出的一些處理技巧，本篇部落格介紹資料格式化、資料清洗、資料取樣等，我在之前有總結過一篇部落格介紹資料預處理的常用方法，對其中的部分操作有涉及，如有需要，可參考本篇部落格。

資料格式化

儲存格式

（一）時間戳/時間段/時間記錄標準
對於同類屬性，比如時間屬性，表達形式不同，但要採取同樣的記錄格式，一般來講，通過網路爬蟲爬取的web資料，通常這類屬性較為整齊，不需要做過多的處理，但生成或人工記錄的資料，可能會出現不同差異，比如時間屬性的記錄，像R語言本身會以1970年1月1日00：00作為時間戳記錄現在時間距離上述時間的秒數，而認為設定的時間記錄標準可能為：年-月-日、月-日-年、按星期記錄、12小時制（am、pm）、24小時制等等，當這類資料生成之後，處理時候就會非常麻煩，解決這類資料的最好方法就是扼殺在萌芽之中，即同一個專案，儘量採取相同的相似屬性記錄方式，這樣，在以後的屬性轉換、預處理中都會極大的簡化處理過程。
（二）行為記錄/行為群記錄
這個好理解，就是單個屬性的多個行為記錄，要麼分條列出來，要麼整體列出來，舉個例子，我再之前進行資料爬取時，

資料清洗

這部分在之前的那個部落格中介紹的非常詳細，其中涉及很多清洗方法。

資料取樣

在實際的建模過程中，經常會遇到需要進行資料取樣的問題，很多情況下正負樣本是不均衡的，比如電商中使用者購買/未購買過的商品；電信使用者中流失/保留的使用者量等等，大多數模型對正負樣本的量是敏感的，比如LR，如果不進行樣本取樣，就會嚴重影響模型效果。
資料不均勻問題很常見，也很容易被忽視掉，資料不均勻會導致模型精度下降，需要重視，假設有一個數據集，是一個二分類資料集，包含的正負樣本的比例為10：1，可以採用如下中的一種進行處理：
（1）從正樣本中隨機抽取十分之一與負樣本組成訓練集。這種情況需要注意：一定要保證是在資料量足夠大的情況下，如果資料本身就很少，這樣做反而會更加麻煩。
（2）賦予負樣本十倍於正樣本權重。由於負樣本比較少，這時增加負樣本權重，會彌補由於負樣本數量少帶來的影響。
（3）將負樣本資料額外複製9份，並新增極小噪聲。
下面是一個例項介紹資料不均勻會帶來的影響，可能有點極端，但用來解釋這個問題很合適。資料集：正樣本：9900個，負樣本100個，合計10000個樣本點，用來進行二分類研究，如果直接進行建模，可能出現的一種情況是：模型將所有輸入都預測為正樣本，最終依舊會得到很高（99%）的準確率，而對於負樣本的召回率為0，如果只是對模型精度進行判斷根本檢查不出異常，但這樣的模型又是萬萬不能在實際中應用的。
總結一下樣本不平衡的處理方法：
（1）正樣本>>負樣本，並且樣本量比較大的情況下，進行下采樣。
（2）正樣本>>負樣本，並且樣本量都不大的情況下：
a）增加資料
b）下采樣，如深度學習中的影象旋轉
c）修改損失函式

參考資料

roguesir的部落格：資料預處理的常用方法
七月線上機器學習第八期課程：機器學習中的特徵工程處理
周志華《機器學習》
李航《統計學習方法》
Ian Goodfellow等《deep learning》

【Trick】機器學習特徵工程處理（一）

前言

資料格式化

儲存格式

資料清洗

資料取樣

參考資料

【Trick】機器學習特徵工程處理（一）

【NIFI】 Apache NiFI 之 ExecuteScript處理（二）【NIFI】 Apache NiFI 之 ExecuteScript處理（一）

【ML1】機器學習之EM演算法（含演算法詳細推導過程）

ng機器學習視頻筆記（一）——線性回歸、代價函數、梯度下降基礎

機器學習之數學基礎（一）-微積分，概率論和矩陣

貝葉斯在機器學習中的應用（一）

【Mybtais】Mybatis 插件 Plugin開發（一）動態代理步步解析

吳恩達老師機器學習筆記異常檢測（一）

機器學習之數學系列（一）矩陣與矩陣乘法

《機器學習實戰》筆記（一）：K-近鄰演算法

Python機器學習基礎教程筆記（一）

【教程】Matrikon OPC使用教程連載（一）

機器學習技法筆記總結（一）SVM系列總結及實戰

系統學習自然語言處理（一）--綜述

機器學習實戰--決策樹（一）

機器學習基本概念梳理（一）

機器學習實戰決策樹（一）——資訊增益與劃分資料集

【更新】LEADTOOLS v20最新版釋出（一）

【轉】深入淺出理解決策樹演算法（一）-核心思想

【原創】從原始碼剖析IO流（一）輸入流與輸出流--轉載請註明出處

【Trick】機器學習特徵工程處理（一）

前言

資料格式化

儲存格式

資料清洗

資料取樣

參考資料

相關推薦