1. 程式人生 > >四 分類:基本概念,決策樹與模型評估1

四 分類:基本概念,決策樹與模型評估1

4.1預備知識

元組(x,y):x指屬性集合,y指分類屬性
在這裡插入圖片描述
目標函式又稱為分類模型:描述性建模;預測性建模

4.2 解決分類問題的一般方法

分類技術是一種根據輸入資料集建立分類模型的系統方法。
學習演算法確定分類模型;泛化能力模型
訓練集;檢驗集
在這裡插入圖片描述
分類模型效能評估:
1.正確錯誤計數(混淆矩陣)
在這裡插入圖片描述
2.錯誤率,正確率
在這裡插入圖片描述

4.3 決策樹歸納

4.3.1 決策樹的工作原理

決策樹:根結點,內部結點(屬性測試條件),葉結點(類標號)

4.3.2 如何建立決策樹

屬性集太大,決策樹高度指數級,區域性最優決策構造具有一定準確率的次優決策樹
1.Hunt演算法:(基本思想:已經確定了類別的結點不用繼續分解下去)
在這裡插入圖片描述


2.決策樹歸納的設計問題
如何分裂訓練記錄;如何停止分類過程

4.3.3 表示屬性測試條件的方法

二元屬性:二元劃分
標稱屬性:二元劃分或多路劃分
序數屬性:二元劃分或多路劃分,不能違背有序性
連續屬性:測試條件選擇比較測試二元輸出;離散化策略

4.3.4 選擇最佳劃分的度量

選擇最佳劃分的度量通常是根據劃分後子女結點不純性的程度。不純性度量方法:
在這裡插入圖片描述
為確定測試條件的效果,需比較父節點和子女結點的不純程度。差越大,測試條件越好。
增益:
在這裡插入圖片描述
決策樹歸納采用最大化增益的測試條件,即最小化子女結點的不純性度量的加權平均。
當選擇熵作為不純度量時,熵的差就是資訊增益。
1.二元屬性的劃分
2.標量屬性的劃分
3.連續屬性的劃分
4.增益率:決策樹演算法C4.5

4.3.5 決策樹歸納演算法

在這裡插入圖片描述

4.3.6 例子:Web機器人檢測(反爬蟲)

4.3.7 決策樹歸納的特點

1.構建分類模型的非引數方法
2.NP完全問題
3.計算代價小
4.決策樹容易解釋
5.學習離散值
6.避免過分擬合
7.冗餘資料不會造成影響
8.葉結點記錄少,不具統計意義:資料碎片問題設定閾值
9.子樹重複問題
10.測試條件只涉及一個屬性:斜決策樹
11.不純度量方法影響小