1. 程式人生 > >4、決策樹算法

4、決策樹算法

技術分享 方法 cart 剪枝 決策樹算法 圖片 if-then c4.5 準備

1、認識決策樹:

決策樹思想非常樸素,程序設計中的條件就是if-then結構,最早的決策樹就是利用這類結構分割數據的一中分類學習方法。

2、信息論基礎-銀行貸款分析

香農在1948年提出信息論,單位為比特;

信息熵:可以理解為代價;信息和消除不確定性是相聯系的;

信息增益:當得知特征x的信息而使得類y的信息的不確定性減小的程度,

公式:g(D,A)=H(D)- H(D | A)

技術分享圖片

3、決策樹的生成

1)決策樹的分類依據:信息增益、ID3、C4.5、CART、基尼系數(劃分更仔細)

4、決策樹的優點

1)簡單的理解和解釋,樹木可視化;

2)需要很少的數據準備、其他技術通常需要數據歸一化;

5、決策樹的缺點

1)決策樹學習可以創建不能很好推廣的數據過於復雜的樹,這種也被稱為過擬合。

6、改進:

1)剪枝算法Cart;

2)隨機森林;

4、決策樹算法