1. 程式人生 > >機器學習(建模過程)簡概

機器學習(建模過程)簡概

資料集

資料來源:

  • 公開資料
  • 企業資料
  • 爬取資料

預分析

  • 問題定義
  • 可行性分析
  • 模型預選擇

特徵工程

(特徵工程決定了模型的上限,對模型優化只是逼近這個上限)

資料預處理:

  • 缺失值處理
  • 異常處理
  • 資料歸一化
  • 探索性分析
  • 相似性度量

特徵選擇:

  • Fiter
  • Wrapper
  • Embedded

優化:

  • 降維:PCA/LDA
  • 特徵融合

模型選擇

有監督學習:

  • 迴歸:線性迴歸、Logistic迴歸
  • 分類:決策樹、貝葉斯分類、SVM、KNN

無監督學習:

  • 聚類:K-means、DBSCAN

強化學習:

模型分類:

  • 生成模型:根據特徵得出屬於某一類的概率
  • 判別模型:根據特徵直接判定屬於哪一類

模型訓練

  • 訓練集
  • 驗證集

驗證方法:交叉驗證

評估和優化

評估方法:

  • 最小二乘法
  • 交叉熵

問題及優化:

  • 過擬合:正規化、減少特徵、替換模型
  • 欠擬合

模型應用

  • 模型泛化
  • 遷移學習