1. 程式人生 > >決策樹(Decision Tree)原理

決策樹(Decision Tree)原理

範圍 思想 選擇 規則 是我 概念 而是 tree 個人

決策樹的思想在生活中很常見,其實就是根據條件去做決定,選擇最符合我們自己東西,例如買房子,我們要考慮的有城市/地段/是否有地鐵/開發商/戶型等等這些因數,這些因數在我們決策樹中就叫做特征,我們就是根據這些特征來選到心儀的房子,所有對我們來說,選到心儀的房子就是多種條件的判斷後的結果,也就是我們邏輯上一串的if-then規則後的結果;

那麽問題來了,我們根據特征做判斷,那先考慮哪個特征呢?例如我們買房子是先考慮城市/地段/是否有地鐵,還是先考慮開發商/戶型等等呢?那主要看個人的偏好了,個人覺得對你來說,你比較看中哪個條件,可能優先判斷,然而, 從效率上說,我們肯定是想找到最簡單的的判斷邏輯(盡可能少的判斷),也就是根據某個特征的判斷,盡可能多的縮小選擇範圍,所以呀,我們選擇判斷的特征的先後順序就有東西衡量啦,什麽呢?就是經過哪個特征判斷,判斷後的再選擇簡單,就哪個特征先判斷。

我們定性的想到解決方案後,我們得定量研究這個問題怎麽解決,而是,就有人提出熵的概念來表示隨機變量的不確定性,信息增益來表達某個特征確定後信息不確定性減少的程度。(例如:明天下雨的信息熵是1,明天陰天的情況下下雨的信息熵是0.1,那麽信息增益就是1-0.1=0.9,說明陰天對明天下雨的來說很重要,不確定性能減少很多,信息增益大。)

決策樹(Decision Tree)原理