1. 程式人生 > >四 分類:基本概念,決策樹與模型評估2

四 分類:基本概念,決策樹與模型評估2

4.4模型的過分擬合

分類模型的誤差分類:訓練誤差和泛化誤差
過擬合:訓練誤差小,泛化能力弱
造成過擬合的主要原因:模型複雜度
在這裡插入圖片描述

4.4.1噪聲導致的過分擬合

由於擬合了誤分類(噪聲)的訓練記錄,導致了泛化誤差增大。

4.4.2缺乏代表性樣本導致的過分擬合

由於訓練樣本太少,導致分類模型雖然訓練誤差雖然小,但泛化誤差大,出現過擬合現象。

4.4.3 過分擬合與多重比較的過程

在選擇分類屬性時,實際是對屬性候選集的多重比較奧,選擇大於閾值的分類屬性,因此多重比較的過程會導致模型的過分擬合。

4.4.4 泛化誤差估計

模型複雜度對於過分擬合有影響,但如何確定模型複雜度,確定產生最低泛化誤差的模型複雜度,這就需要對模型的泛化誤差進行估計,泛化誤差的估計方法有:
1.使用再代入估計
主要思想時將訓練誤差當成泛化誤差進行處理,但訓練誤差並不能準確代表泛化誤差。
2.結合模型複雜度
奧卡姆剃刀原則:
在這裡插入圖片描述


將分類模型評估與模型複雜度結合起來的方法:新增複雜度罰項
悲觀誤差評估:
在這裡插入圖片描述
最小描述長度原則:
在這裡插入圖片描述
3.估計統計上界
通過訓練誤差的統計修正來進行估計泛化誤差。
主要思想是:由於泛化誤差傾向於比訓練誤差大,所以統計修正通常是計算訓練誤差的上界。
4.使用確認集
將訓練集分為用來訓練部分和用來確認泛化誤差的部分(確認集)。

4.4.5 處理決策樹歸納的過分擬合

先剪枝:提前終止原則,例如在觀察到不純度增量達到某一閾值時終止決策樹的生長,關鍵問題是選擇合適的閾值。
後剪枝:初始決策樹按照最大規模生長,然後自底向上進行剪枝。

4.5 評估分類器的效能

測試分類模型在檢驗集上的分類效能方法:

4.5.1 保持方法

將資料分為互相獨立的訓練資料和檢驗資料,訓練資料用來訓練模型,檢驗資料用來測試模型效能。
侷限性:
在這裡插入圖片描述

4.5.2 隨機二次抽樣

多次重複保持方法改進對分類器效能的評估。

4.5.3 交叉驗證

訓練集和驗證集不斷互換角色對分類器進行效能評估,總誤差通過互換執行的誤差求和獲得。
k折交叉驗證

4.5.4 自助法

訓練記錄採用有放回抽樣,然後將未抽取的記錄作為檢驗集。

4.6 比較分類器的方法

比較不同分類器效能的統計檢驗方法:
涉及效能度量的統計顯著性的兩個關鍵問題:
1.檢驗集大小不同,準確率的置信程度多高
2.準確率的差可以解釋為檢驗集的複合的變差嗎

4.6.1 估計準確度的置信區間

確定置信區間首先建立分類結果的概率分佈,這裡通過將分類任務使用二項分佈實驗建模來推導置信區間。
當記錄資料足夠大,通常使用正態分佈來近似:
在這裡插入圖片描述

例子:
在這裡插入圖片描述

4.6.2 比較兩個模型的效能

沒看懂,貌似就是檢驗兩個模型的錯誤率之差是否具有統計顯著,即是否符合正態分佈。

4.6.3 比較兩種分類法的效能

在檢驗方法為k折交叉驗證下的分類法效能比較。
這部分設計統計方法的假設性檢驗知識,看不太懂,這部分知識需要補充下。