1. 程式人生 > >機器學習特征表達——日期與時間特征做離散處理(數字到分類的映射),稀疏類分組(相似特征歸檔),創建虛擬變量(提取新特征) 本質就是要麽多變少,或少變多

機器學習特征表達——日期與時間特征做離散處理(數字到分類的映射),稀疏類分組(相似特征歸檔),創建虛擬變量(提取新特征) 本質就是要麽多變少,或少變多

通過 time 理想 ast 可能 ear 創建 eat 根據

特征表達

接下來要談到的特征工程類型雖然簡單卻影響巨大。我們將其稱為特征表達。

你的數據並不一定總是理想格式。你需要考慮是否有必要通過另一種形式進行特征表達以獲取有用信息。

  • 日期與時間特征: 我們假設你擁有purchase_datetime特征。從中提取purchase_day_of_week與purchase_hour_of_day兩項特征可能會更有用。你還可以進行觀察聚類以創建諸如purchases_over_last_30_days這類特征。
  • 數字到分類的映射: 假設你擁有years_in_school特征。你可以基於它創建新的grade特征,並分類為“小學”、“初中”和“高中”。
  • 稀疏類分組:假設你擁有一個包含多個類別的特征,但樣本量較小。你可以嘗試對相似類進行分組,將相似的類別分到一組,然後將剩下的類劃分至單一的“其他”類中。
  • 創建虛擬變量 根據你所選取的機器學習實現方法,你可能需要手動地將各分類特征轉化為虛擬變量。請務必在稀疏類分組之後再創建虛擬變量。

見:http://www.infoq.com/cn/news/2017/08/Analysis-practices-Feature-Engin

機器學習特征表達——日期與時間特征做離散處理(數字到分類的映射),稀疏類分組(相似特征歸檔),創建虛擬變量(提取新特征) 本質就是要麽多變少,或少變多