1. 程式人生 > >機器學習與人工智障(5):決策樹與隨機森林

機器學習與人工智障(5):決策樹與隨機森林

一、從LR到決策樹

  1.總體流程與核心問題

    (1)決策樹是基於樹的結構進行決策:

      每個“內部節點”對應於某個屬性上的“測試”

      每個分支對應於該測試的一種可能結果(即該屬性上的每個取值)

      每個葉節點對應於一個預測結果

    (2)學習過程:通過對訓練樣本的分析來確定“劃分屬性”(即內部節點所對應的屬性)

    (3)預測過程:將測試例項從根節點開始,沿著劃分屬性所構成的“判定測試序列”下行,直到葉節點

  2.決策樹的總體流程:

    (1):“分而治之(divide-and-conquer)”

      自根至葉的遞迴過程

      在每一箇中間節點尋找一個“劃分屬性”

    (2)三種停止的條件:

      當前節點包含的樣本完全屬於同一類別,無需劃分;

      當前屬性集為空,或者所有樣本在所有屬性上取值相同,無法劃分

      當前節點包含的樣本集合為空,不能劃分

  

  3.熵、資訊增益、資訊增益率

二、迴歸樹  

  1.構建迴歸樹

  2.最優化迴歸樹

三、從決策樹到隨機森林

  1.取樣與bootstrap

  2.bagging與隨機森林