1. 程式人生 > >《python機器學習—預測分析核心算法》:構建預測模型的一般流程

《python機器學習—預測分析核心算法》:構建預測模型的一般流程

定性 標識 貢獻 任務 表現 style 工程 重要 提取

參見原書1.5節

構建預測模型的一般流程

問題的日常語言表述->問題的數學語言重述
重述問題、提取特征、訓練算法、評估算法

熟悉不同算法的輸入數據結構:
1.提取或組合預測所需的特征
2.設定訓練目標
3.訓練模型
4.評估模型在訓練數據上的性能表現

機器學習:
開發一個可以實際部署的模型的全部過程,包括對機器學習算法的理解和實際的操作

通常,有非常切實的原因,導致某些算法被經常使用,了解背後的原因

(1)構造一個機器學習問題
審視數據集中的數據,確定需要做何種形式的預測
如,這些數據代表什麽?如何與預測任務關聯起來?

1.“更好的結果”->可測量可優化的具體目標
2.收集數據,表示為特征的矩陣
3.目標:已知正確的數據結果用於訓練

<------問題重構---------<-
| |
問題的定性描述->問題的數學描述->模型訓練與性能評估->模型部署

(2)特征提取和特征工程
特征提取: (將決定哪些特征可以用來預測目標)
把一個自由形式的各種數據(如一個文檔中的字詞)轉換為行、列形式的數字的過程

特征工程:
對特征進行整理組合,以達到更富有信息量的過程

算法,提供每個特征對最終預測結果貢獻的度量
對特征打分,標識重要性

註意:數據準備和特征工程 估計會占開發一個機器學習模型80%~90%的時間

通常訓練100~5000個不同的模型,然後選擇與問題、數據集最匹配的模型

(3)確定訓練後模型的性能
測試集:留出一部分數據,用於測試模型的性能

《python機器學習—預測分析核心算法》:構建預測模型的一般流程