1. 程式人生 > >機器學習 - 決策樹(下)- CART 以及與 ID3、C4.5的比較

機器學習 - 決策樹(下)- CART 以及與 ID3、C4.5的比較

機器學習 - 決策樹(下)- CART 以及與 ID3、C4.5的比較

  • CART

    CART(Classification and Regression Tree),分類與迴歸樹。CART假設決策樹為二叉樹,遞迴的二分每個特徵,既可以做迴歸,也可以做分類。

  • 迴歸樹

    損失函式採用平方誤差最小化。

    • ① 選擇最優切分變數 x

      ( j ) x_{(j)} 、切分點 s
      s
      ,切分點將資料劃分為 R 1 , R
      2 R_1,R_2
      ,求解:

      j , s m i n [ c 1 m i n x i R 1 ( j , s ) ( y i c 1 ) 2 + c 2 m i n x i R 2 ( j , s ) ( y i c 2 ) 2 ] \mathop{}_{j,s}^{min}[\mathop{}_{c_1}^{min}\sum_{x_i∈R_1(j,s)}(y_i-c_1)^2+\mathop{}_{c_2}^{min}\sum_{x_i∈R_2(j,s)}(y_i-c_2)^2]

      得出最優解 j 1 , x 1 j_1^*,x_1^*

    • ② 根據 j 1 , x 1 j_1^*,x_1^* 劃分區域 R 1 , R 2 R_1,R_2 並計算其相應的輸出值:

      R 1 ( j 1 , x 1 ) = { x x ( j ) s } R_1(j_1^*,x_1^*)=\{x|x^{(j)}\le s\} R 2 ( j 1 , x 1 ) = { x x ( j ) > s } R_2(j_1^*,x_1^*)=\{x|x^{(j)}>s\}

      c m = 1 N x i R m ( j , s ) y i x R m , m = 1 , 2 \mathop{}_{c_m}^{-}=\frac{1}{N}\sum_{x_i∈R_m(j,s)}y_i,x∈R_m,m=1,2

    • ③ 繼續對兩個子區域重複 ① ② 步驟,直至滿足條件

    • ④ 將輸入空間劃分為 M 個區域 R 1 , R 2 , . . . R M R_1,R_2,...R_M ,生成決策樹

      f ( x ) = m = 1 M c m I ( x R m ) f(x)=\sum_{m=1}^{M}\mathop{}_{c_m}^{-}I(x∈R_m)

  • 分類樹

    CART 的分類樹與 ID3,C4.5 類似,但衡量最優特徵的標準有差異。分類樹中使用基尼指數選擇最優特徵,同時決定該特徵的最優切分點。

    1. 基尼( G i n i Gini )指數

      分類問題中,假設有 K K 個類,樣本點屬於第 k k 類的概率為 P k P_k ,則 G i n i ( P ) = k = 1 K P k ( 1 P k ) = 1 k = 1 K P k