1. 程式人生 > >機器學習-決策樹演算法

機器學習-決策樹演算法

機器學習中分類和預測演算法的評估:

1.準確率

2.速度

3.強壯性

4.可規模性

5.可解釋性

1.什麼是決策樹/判定樹

判定樹是一個類似於流程圖的樹結構:其中,每個內部結點表示在一個屬性上的測試,每個分支代表一個屬性輸出,而每個樹葉結點代表類或類分佈。樹的最頂層是根結點。

2.機器學習中分類方法中的一個重要演算法

3.構造決策樹的基本演算法

3.1熵的概念

一條資訊的資訊量大小和它的不確定性有直接的關係

變數的不確定性越大,熵也就越大

3.2決策樹歸納演算法(ID3)

選擇屬性判斷結點

資訊獲取量:Gain(A)=Info(D)-Infor_A(D)

通過A來作為結點味蕾獲取了多少資訊

演算法的步驟

1.樹以代表訓練樣本的單個結點開始

2.如果樣本都在同一個類(擁有相同的y),則該結點變成樹葉,並用該類標號

3.如果不是在同一類,則需要繼續進行劃分,通過資訊獲取量,找到資訊獲取量中值最大的作為頭結點,繼續建立分枝

4.結束的條件

 1)給定結點的所有樣本屬於同一類

 2)沒有剩餘屬性來進行下一步劃分,這時使用多數表決,將結點轉換成樹葉,並用樣本中的多數類標記它,作為最後的結果

 3)分枝

5.建立樹葉

4.樹剪枝葉(避免overfitting) 避免劃分的太細導致,在訓練集中演算法準確,但是在測試集中,有新的變數就導致不準的情況

 4.1先剪枝

 4.2後剪枝

5.決策樹的優點

 直觀,便於理解,小規模資料集有效

6.決策樹的缺點

 處理連續變數不好

 類別較多時,錯誤增加的比較快

 可規模性一般