機器學習-決策樹演算法
阿新 • • 發佈:2018-12-09
機器學習中分類和預測演算法的評估:
1.準確率
2.速度
3.強壯性
4.可規模性
5.可解釋性
1.什麼是決策樹/判定樹
判定樹是一個類似於流程圖的樹結構:其中,每個內部結點表示在一個屬性上的測試,每個分支代表一個屬性輸出,而每個樹葉結點代表類或類分佈。樹的最頂層是根結點。
2.機器學習中分類方法中的一個重要演算法
3.構造決策樹的基本演算法
3.1熵的概念
一條資訊的資訊量大小和它的不確定性有直接的關係
變數的不確定性越大,熵也就越大
3.2決策樹歸納演算法(ID3)
選擇屬性判斷結點
資訊獲取量:Gain(A)=Info(D)-Infor_A(D)
通過A來作為結點味蕾獲取了多少資訊
演算法的步驟
1.樹以代表訓練樣本的單個結點開始
2.如果樣本都在同一個類(擁有相同的y),則該結點變成樹葉,並用該類標號
3.如果不是在同一類,則需要繼續進行劃分,通過資訊獲取量,找到資訊獲取量中值最大的作為頭結點,繼續建立分枝
4.結束的條件
1)給定結點的所有樣本屬於同一類
2)沒有剩餘屬性來進行下一步劃分,這時使用多數表決,將結點轉換成樹葉,並用樣本中的多數類標記它,作為最後的結果
3)分枝
5.建立樹葉
4.樹剪枝葉(避免overfitting) 避免劃分的太細導致,在訓練集中演算法準確,但是在測試集中,有新的變數就導致不準的情況
4.1先剪枝
4.2後剪枝
5.決策樹的優點
直觀,便於理解,小規模資料集有效
6.決策樹的缺點
處理連續變數不好
類別較多時,錯誤增加的比較快
可規模性一般