決策樹

基礎知識

樹的構成：
1.每一個內部節點代表一個屬性測試
2.每個分支對應特定的屬性值
3.每個葉子節點對應一個分類
樹的描述：
對於樹通常可以用一個析取正規化表示，每一個klausel對應著樹上從跟到葉子節點的一條路徑
比如：
(Vorhersage=sonnig∧Luftfeuchtigkeit=normal)∨(Vorhersage=bedeckt)∨(Vorhersage=regnerisch∧Wind=schwach)

決策樹適用範圍

1.例項可以用“屬性-值”對進行表示的
2.對應輸出域是離散的
3.任意兩個假設都應該是不相交的(Disjunkte Hypothesen erforderlich)
4.訓練用的例子允許存在干擾
(Beispieldaten sind möglicherweise verrauscht)
5.訓練用的例子中可能含有錯誤的屬性值
(Beispieldaten enthalten evtl. fehlende Attributwerte)

常用的決策樹方法

1.ID3(Quinlan 1986):
非遞增方法
(nicht inkrementelles Verfahren)
2.C4.5(Quinlan,1993):
通過一般化規則(剪枝)優化ID3
商業系統//不知何意？？？？
(kommerzielles System)
3.ID5R(Utgoff,1989):
inkrementelles Verfahren
//inkrementell為遞增的意思

ID3:從上往下構建決策樹

ID3演算法的一般表述

1.A←用於下一步決策的最優的屬性
2.把A作為下一步決策用的屬性
3.為A的每個可能的取值增加一個後續的節點
(Füge für jeden möglichen Wert von A einen Nachfolgeknoten ein)
//不該啊不是應該就加葉子了嗎？？怎麼還要加入子節點，感覺這都應該是下一個迴圈的事了。
4.根據屬性值對訓練資料進行分類
5.當決策已經能夠很好的進行分類時，終止演算法。否則則重複上述步驟

熵值(Entropie)

那麼應該如何選取最優的測試屬性呢？？？
我們用熵值來表示訓練資料的齊次性
(Die Entropie als Maß der Homogenität der Trainingsdaten)
//為什麼是表示齊次性呢？？？有點搞不懂啊？？？？但是想要幹嘛確實知道的。。。。

Entropie(S)=−p(+)log2p(+)−p(−)log2p(−)
其中：
S表示訓練集
//前面把例子例項化了，針對的是兩類問題，一類用正表示，一類用負表示
p(+)表示訓練例子中分類為正的部分
p(−)表示訓練例子中分類為負的部分
//他們正負概率相加不是1嗎？？所以有必要兩個都寫嗎？？回到多類問題就有必要了
目標是通過確定屬性值v使得正負類儘量的區分開來。也就是說逐漸的縮小對應的熵值。(sukzessive die Entropie maximal zu reduzieren)
//一個屬性對應的熵值不是固定的嗎？？不應該是找出是熵值最小得屬性嗎？？另外為什麼是就看這個屬性的熵值，不應該是求整體的熵值，然後做到全域性最優嗎？？？

資訊增益(Informationsgewinn)

//應該是交資訊增益吧，因為說得就是這個意思了，但是和其他的資訊增益的公式比起來，怎麼就長得不一樣呢？？？
Gewinn(S,A):表示通過加入屬性A後，熵值減少的量

Gewinn(S,A)=Entropie(S)−∑v∈V(A)|Sv||S|Entropie(Sv)
V(A)表示A的所有可能的值。
Sv表示S對應A取v值的子集
目標是在決策樹的深度儘可能淺的情況下是增益最大
例子：S16-18
/*S18-20沒看懂不知他要表達的是神馬意思
Es gibt typischerweise viele Entscheidungsbäume,die mit den Trainingsbeispielen konsistent sind???
Hypothesenraum ist bei Bäumen vollständig, d.h. Zielfunktion ist enthalten
Suche der Hypothese:,Simple to complex” oder “hill climbing” nach Informationsgewinn???
Lokale Minima(Wie bei allen hill climbing Algorithmen) möglich???
Präferenzbias:
Ordnung auf dem Raum der Hypothesen??
Wähle Hypothese h mit der höchsten Präferenz??
Restriktionsbias:
Einschränkung des Hypothesenraums,z.B. auf lineare Schwellwertfunktionen??
H ist bei ID3 die Potenzmenge der möglichen Instanzen X??
Nicht ganz:
Präferenz für kleine Bäume und für Bäume, deren Attribute nahe der Wurzel einen hohen Informationsgewinn besitzen.
ID3-Bias ist eine Präferenz für bestimmte Hypothesen, aber keinen Restriktion des Hypothesenraums H.???
Occam’s Razor:Bevorzuge die einfachste Hypothese, die mit den Trainingsdaten übereinstimmt.
*/

Occam‘s Razor

Occam’s Razor說得是，相對於長的複雜的假設，更喜歡短的簡單的假設
原因是：
1.就數量上而言，短的假設相對於長的來說比較少
2.一個能夠正確描述資料的短的假設是巧合的概率比較小
3.和2相反一個比較長的假設，他能夠描述這些資料可能只是因為巧合
4.決策樹比較小得化效率比較高不是嗎

Overfitting

存在問題：

如果在ID3操作過程中：
每個分支都根據增益進行擴充套件直到所有的都正確分類。
在下面情況下，
1.訓練用的例子收到干擾
2.訓練例子不具有代表性
不僅會增加複雜度，而且可能存在更多的潛在的錯誤

Overfitting

定義：
我們說一個假設h對資料D過適應，當存在另一個滿足下面條件的可用於替換原假設的假設h’:

Ftraining(h)<Ftraining(h′)FD(h)>FD(h′)
其中函式F表示存在的錯誤的數量。

對策

1.提前停止樹的擴充套件
2.生成樹後在進行剪枝(實際中比較有用)
確定最優樹的大小的標準時什麼呢？？
1.分離測試資料
2.對訓練資料進行統計測試//這個真不懂要幹嘛？？？
/*
Statistischer Test auf den Trainingsdaten
z.B. x2-Test für Unabhängigkeit von Attributen
*/
3.測量訓練資料和決策樹的編碼複雜度//不懂+1
/*
Maß für die Kodierungskomplexität der Trainingsbeispiele und des Entscheidungsbaums
Prinzip der Minimalen Beschreibungslänge
*/

剪枝(Reduced Error Pruning)

1.把資料分為訓練資料和測試資料兩部分
2.只要剪枝不會導致測試效果表差，就充分下列操作
2.1.用測試資料評價去掉各個節點(及其後續)後決策樹的好壞程度
2.2.去掉使決策樹提升最多的節點
/*
Evaluiere die Auswirkungen des Entfernens jedes Knotens(und seiner Nachfolgeknoten) auf die Klassifikationsgüte bzgl. der Testdaten.
Entferne den Knoten, dessen Entfernen die Klassifikationsrate bzgl. der Testdaten am meisten erhöht.
*/
→輸出完整子樹的最小變形
//不懂？？？？什麼叫變形，為什麼是子樹的變形？？
(Liefert die kleinste Variante des akkuratesten Unterbaums)
存在的問題：
當資料量不足的時候，把資料進行分類可能反而提高了他的出錯率(原文是錯誤的敏感度？？)
(Bei wenigen Daten erhöht das Aufteilen der Daten die Fehlerfälligkeit noch weiter)

值域比較大的屬性

存在的問題：
在ID3中通過比較Gewinn(S,A)值域比較大的屬性比值域比較小的屬性更容易被選作下一個測試的屬性
對策：
加如懲罰措施：

GewinnAnteil(S,A)≡Gewinn(S,A)SplittInformation(S,A)SplittInformation(S,A)≡−∑i=1c|Si||S|log2|Si||S|
其中：
Si為S對應A的值為vi的子集

屬性值為連續的

已知：屬性A的值是連續的
採取的措施：
動態定義新的離散的屬性值Ac，並且有：當A>c時，Ac為真。

那麼現在的問題是：如何選取這個閥值c
我們採用的方法是利用資訊增益：
1.按照對應的值的大小，對訓練的例子進行排序
(原文應該翻譯為分類，但我感覺應該是排序才比較正確吧？？？)
2.如果相鄰的兩個值屬於不同的類，那麼最佳的閥值就在這兩個值之間。取出所有的符合上面條件的值，計算其各自的資訊增益，然後取出增益最大的作為閥值。
//課件裡帶有一個例子，佔地一格。S33

屬性值未知

存在的問題是：
如果存在一些屬性值並不清楚，那麼應該如何使用這些資料呢？？？
//有點模糊，是一個屬性所有的屬性值都不清楚，還是？？
對應的措施是：
還是用老方法對例子進行分類，缺失的屬性值用下面的方法獲得：
1.使用例子中對應的最常出現的值
2.使用同一分類的該屬性最常出現的那個值
//值還缺著呢是怎麼進行分類的？？？
3.取每個值的概率由該值出現的頻率決定
(jedem Wert

機器學習-決策樹(Entscheidungsbäume)

決策樹

基礎知識

決策樹適用範圍

常用的決策樹方法

ID3:從上往下構建決策樹

ID3演算法的一般表述

熵值(Entropie)

資訊增益(Informationsgewinn)

Occam‘s Razor

Overfitting

存在問題：

Overfitting

對策

剪枝(Reduced Error Pruning)

值域比較大的屬性

屬性值為連續的

屬性值未知

機器學習-決策樹(Entscheidungsbäume)

機器學習--決策樹

機器學習—決策樹

AI機器學習-決策樹算法-概念和學習過程

機器學習——決策樹和隨機森林演算法

機器學習-決策樹演算法

機器學習--決策樹演算法學習筆記

機器學習-決策樹（decision tree）

機器學習--決策樹及泰坦尼克號生存預測

機器學習——決策樹

機器學習決策樹隨機森林演算法

機器學習---決策樹decision tree的應用

機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較

機器學習 - 決策樹（中）- ID3、C4.5 以及剪枝

機器學習 - 決策樹（上）- 資訊理論基礎

機器學習決策樹：提煉出分類器演算法

機器學習-決策樹-ID3, C4.5

[機器學習]決策樹中的資訊增益和資訊增益比

機器學習 —— 決策樹及其整合演算法(Bagging、隨機森林、Boosting)

機器學習決策樹演算法解決影象識別

機器學習-決策樹(Entscheidungsbäume)

決策樹

基礎知識

決策樹適用範圍

常用的決策樹方法

ID3:從上往下構建決策樹

ID3演算法的一般表述

熵值(Entropie)

資訊增益(Informationsgewinn)

Occam‘s Razor

Overfitting

存在問題：

Overfitting

對策

剪枝(Reduced Error Pruning)

值域比較大的屬性

屬性值為連續的

屬性值未知

相關推薦