1. 程式人生 > >第四章(2) 分類:模型評估

第四章(2) 分類:模型評估

  1. 訓練誤差:即再代入誤差或表現誤差,即訓練記錄上錯誤分類的比例
  2. 泛化誤差:模型在未知記錄上的期望誤差
  3. 一個好的分類模型應該具有低訓練和泛化誤差,而擬合度過高的模型,泛化誤差可能高
  4. 模型的訓練誤差隨著模型的複雜度增加而降低,但是檢驗誤差可能很大(檢驗誤差在一定程度上代表著泛化誤差),因為樹的結點可能擬合了噪音
  5. 造成過分擬合的因素
    1. 噪聲導致過分擬合:訓練集本身的錯誤導致模型擬合出問題;而例外導致的錯誤是不可避免的,例外所佔的比例也設定了分類模型的最小錯誤率
    2. 缺乏代表性樣本會導致過分擬合
    3. 過分擬合和多重比較過程:決策樹中,每一個結點都是最佳的屬性劃分,且有多個屬性可以選擇,這就導致了多重比較;當訓練記錄很少時,找到最佳劃分屬性的概率就增大,決策樹增長到一定深度時,這種情況就會發生;大量的候選屬性和少量的訓練記錄會導致模型的過分擬合
  6. 泛化誤差估計:模型要有低泛化誤差;學習演算法只能訪問訓練資料集,對檢驗資料集一無所知,也不知道在未知記錄上的效能
    1. 使用再代入估計:假設訓練資料集可以代表整體資料,即訓練誤差(再代入誤差)=泛化誤差;然而這是很差的估計
    2. 結合模型複雜度:兩種把模型複雜度和分類模型評估結合在一起的方法
      1. 奧卡姆剃刀:兩個具有相同泛化誤差的模型,較簡單的模型更可取
      2. 悲觀誤差評估:泛化誤差看作模型的悲觀誤差估計
      3. 最小描述長度原則:資訊理論方法原則,傳輸模型資訊時,傳輸的是模型編碼開銷和錯誤分類記錄編碼的開銷;根據原則,尋找的是最小開銷函式的模型
    3. 估計統計上界:泛化誤差傾向於比訓練誤差大,所以計算訓練誤差的上界用來估計泛化誤差(就是正態分佈的置信區間的上界)
    4. 使用確認集:將訓練集分為兩個子集,一個用於訓練,一個用於確認,來估計泛化誤差(就是檢查誤差);用於通過引數控制獲得具有不同複雜度模型的分類技術
  7. 處理決策樹中的過分擬合:避免過分擬合的兩種策略
    1. 先剪枝(提前終止規則):決策樹增長演算法在產生完全擬合訓練集前停止決策樹生長,增加的條件如:不純性度量的增益<閾值
    2. 後剪枝:初始決策樹按照最大規模生長,然後按照自底向上的方式修剪完全增長的決策樹,當模型不再改進時終止剪枝,兩種做法:
      1. 用新葉結點代替子樹
      2. 用子樹中最常使用的分支代替子樹,子樹提升