1. 程式人生 > >決策樹中基本概念——夏農熵

決策樹中基本概念——夏農熵

在學習決策樹時,最重要的步驟是構建決策樹。

其中,最重要的步驟是根據屬性劃分資料集,其中先使用哪個屬性,後使用哪個屬性,是決定決策樹構建的好壞的重要標準。

其中,使用屬性構建資料集,最重要的參考標準,就是使劃分後的資訊增益最大。

這裡就使用到一個概念:資訊熵。

熵:表示隨機變數不確定性,即混亂程度的量化指標。

熵越大,不確定性越大,越無序;越小,確定性越大,越有序。

同理,一條資訊的資訊量大小,與不確定性直接相關。

不確定性越大,資訊量越大,熵越大;

確定性越大,資訊量越小,熵越小。

熵的單位是bit。

不計算資訊量等,直接儲存一個檔案,需要的是正常的儲存空間大小。

通過壓縮演算法,僅保留有用資訊的情況下,儲存的是檔案的資訊量。

兩者數量上的差距,是冗餘度。

由此可見:冗餘度越大,可壓縮的空間越大。反之,亦然。

夏農熵的計算公式為:


注意公示的負號,P(x)表示隨機變數某個取值的概率。

注意事項:

另一種度量集合無序程度的方法是:Gini impurity,基尼不純度。

參考文章:

1、http://baike.baidu.com/link?url=1vvwdVLVFHE9e5vJEFEnK95cHSVQYy7YoCq9jjTq66MvBdGB11cxAANbN4VWjRW8X0wyrEC5n5SDAnotlPPCmq