四分類：基本概念，決策樹與模型評估1

阿新 • • 發佈：2018-11-13

4.1預備知識

元組（x，y）：x指屬性集合，y指分類屬性
在這裡插入圖片描述
目標函式又稱為分類模型：描述性建模；預測性建模

4.2 解決分類問題的一般方法

分類技術是一種根據輸入資料集建立分類模型的系統方法。
學習演算法確定分類模型；泛化能力模型
訓練集；檢驗集
在這裡插入圖片描述
分類模型效能評估：
1.正確錯誤計數（混淆矩陣）

2.錯誤率，正確率

4.3 決策樹歸納

4.3.1 決策樹的工作原理

決策樹：根結點，內部結點（屬性測試條件），葉結點（類標號）

4.3.2 如何建立決策樹

屬性集太大，決策樹高度指數級，區域性最優決策構造具有一定準確率的次優決策樹
1.Hunt演算法：（基本思想：已經確定了類別的結點不用繼續分解下去）
在這裡插入圖片描述

2.決策樹歸納的設計問題
如何分裂訓練記錄；如何停止分類過程

4.3.3 表示屬性測試條件的方法

二元屬性：二元劃分
標稱屬性：二元劃分或多路劃分
序數屬性：二元劃分或多路劃分，不能違背有序性
連續屬性：測試條件選擇比較測試二元輸出；離散化策略

4.3.4 選擇最佳劃分的度量

選擇最佳劃分的度量通常是根據劃分後子女結點不純性的程度。不純性度量方法：
在這裡插入圖片描述
為確定測試條件的效果，需比較父節點和子女結點的不純程度。差越大，測試條件越好。
增益：

決策樹歸納采用最大化增益的測試條件，即最小化子女結點的不純性度量的加權平均。
當選擇熵作為不純度量時，熵的差就是資訊增益。
1.二元屬性的劃分
2.標量屬性的劃分
3.連續屬性的劃分
4.增益率：決策樹演算法C4.5

4.3.5 決策樹歸納演算法

在這裡插入圖片描述

4.3.6 例子:Web機器人檢測（反爬蟲）

4.3.7 決策樹歸納的特點

1.構建分類模型的非引數方法
2.NP完全問題
3.計算代價小
4.決策樹容易解釋
5.學習離散值
6.避免過分擬合
7.冗餘資料不會造成影響
8.葉結點記錄少，不具統計意義：資料碎片問題設定閾值
9.子樹重複問題
10.測試條件只涉及一個屬性：斜決策樹
11.不純度量方法影響小

四分類：基本概念，決策樹與模型評估1

4.1預備知識

4.2 解決分類問題的一般方法