機器學習之決策樹(ID3)
阿新 • • 發佈:2019-01-10
決策樹
我們直觀的通關這個樹狀圖去了解一下決策樹的概念,下面這個例子是姑娘相親見不見的問題
通過上面的圖我們可以看到首先這個姑娘是看相親物件的年齡問題,當年齡大於30歲就不見,小於三十歲就見以此類推形成這個深度為5的樹接下來讓我們一起復習一下我們以前學過的資料結構關於樹的基礎知識:
結點:指樹中的一個元素;
結點的度:指結點擁有的子樹的個數,二叉樹的度不大於2;
數的度:指樹中的最大結點度數;
葉子:度為0的結點,也稱為終端結點;
高度:葉子節點的高度為1,根節點高度最高;
層:根在第一層,以此類推
熵的引入
熵的概念: 但是需要注意的是決策樹的結點的選擇並不是隨意的,比如先以年齡作為首選的根結點,我們需要計算資訊增益:
1.先計算總熵
2.其次分別計算每個屬性的資訊增益
先計算A對D的期望資訊
再用總熵減去A對D的期望資訊就得該屬性的資訊增益
現在小夥伴可能還不太理解一會就具體例子就會秒懂了!
簡單的說一下第二行的計算過程0.3就是對應日誌密度的l所佔的概率,括號裡面就是利用計算總熵的那個公式計算l在yes和no的熵,我們看錶可以看到l全部都是yes所以no沒有為0/3,相反yes為3/3其他都是這樣子算的。
該計算是對日誌密度進行的資訊增益計算,其他屬性也是一樣的步驟。
最後我們選取信息增益最大的屬性最為樹的結點,遞迴下去形成一個決策樹。