四 分類:基本概念,決策樹與模型評估1
阿新 • • 發佈:2018-11-13
4.1預備知識
元組(x,y):x指屬性集合,y指分類屬性
目標函式又稱為分類模型:描述性建模;預測性建模
4.2 解決分類問題的一般方法
分類技術是一種根據輸入資料集建立分類模型的系統方法。
學習演算法確定分類模型;泛化能力模型
訓練集;檢驗集
分類模型效能評估:
1.正確錯誤計數(混淆矩陣)
2.錯誤率,正確率
4.3 決策樹歸納
4.3.1 決策樹的工作原理
決策樹:根結點,內部結點(屬性測試條件),葉結點(類標號)
4.3.2 如何建立決策樹
屬性集太大,決策樹高度指數級,區域性最優決策構造具有一定準確率的次優決策樹
1.Hunt演算法:(基本思想:已經確定了類別的結點不用繼續分解下去)
2.決策樹歸納的設計問題
如何分裂訓練記錄;如何停止分類過程
4.3.3 表示屬性測試條件的方法
二元屬性:二元劃分
標稱屬性:二元劃分或多路劃分
序數屬性:二元劃分或多路劃分,不能違背有序性
連續屬性:測試條件選擇比較測試二元輸出;離散化策略
4.3.4 選擇最佳劃分的度量
選擇最佳劃分的度量通常是根據劃分後子女結點不純性的程度。不純性度量方法:
為確定測試條件的效果,需比較父節點和子女結點的不純程度。差越大,測試條件越好。
增益:
決策樹歸納采用最大化增益的測試條件,即最小化子女結點的不純性度量的加權平均。
當選擇熵作為不純度量時,熵的差就是資訊增益。
1.二元屬性的劃分
2.標量屬性的劃分
3.連續屬性的劃分
4.增益率:決策樹演算法C4.5
4.3.5 決策樹歸納演算法
4.3.6 例子:Web機器人檢測(反爬蟲)
4.3.7 決策樹歸納的特點
1.構建分類模型的非引數方法
2.NP完全問題
3.計算代價小
4.決策樹容易解釋
5.學習離散值
6.避免過分擬合
7.冗餘資料不會造成影響
8.葉結點記錄少,不具統計意義:資料碎片問題設定閾值
9.子樹重複問題
10.測試條件只涉及一個屬性:斜決策樹
11.不純度量方法影響小