第四章（2）分類：模型評估

阿新 • • 發佈：2018-12-17

訓練誤差：即再代入誤差或表現誤差，即訓練記錄上錯誤分類的比例
泛化誤差：模型在未知記錄上的期望誤差
一個好的分類模型應該具有低訓練和泛化誤差，而擬合度過高的模型，泛化誤差可能高
模型的訓練誤差隨著模型的複雜度增加而降低，但是檢驗誤差可能很大（檢驗誤差在一定程度上代表著泛化誤差），因為樹的結點可能擬合了噪音
造成過分擬合的因素
1. 噪聲導致過分擬合：訓練集本身的錯誤導致模型擬合出問題；而例外導致的錯誤是不可避免的，例外所佔的比例也設定了分類模型的最小錯誤率
2. 缺乏代表性樣本會導致過分擬合
3. 過分擬合和多重比較過程：決策樹中，每一個結點都是最佳的屬性劃分，且有多個屬性可以選擇，這就導致了多重比較；當訓練記錄很少時，找到最佳劃分屬性的概率就增大，決策樹增長到一定深度時，這種情況就會發生；大量的候選屬性和少量的訓練記錄會導致模型的過分擬合
泛化誤差估計：模型要有低泛化誤差；學習演算法只能訪問訓練資料集，對檢驗資料集一無所知，也不知道在未知記錄上的效能
1. 使用再代入估計：假設訓練資料集可以代表整體資料，即訓練誤差（再代入誤差）=泛化誤差；然而這是很差的估計
2. 結合模型複雜度：兩種把模型複雜度和分類模型評估結合在一起的方法
  1. 奧卡姆剃刀：兩個具有相同泛化誤差的模型，較簡單的模型更可取
  2. 悲觀誤差評估：泛化誤差看作模型的悲觀誤差估計
  3. 最小描述長度原則：資訊理論方法原則，傳輸模型資訊時，傳輸的是模型編碼開銷和錯誤分類記錄編碼的開銷；根據原則，尋找的是最小開銷函式的模型
3. 估計統計上界：泛化誤差傾向於比訓練誤差大，所以計算訓練誤差的上界用來估計泛化誤差（就是正態分佈的置信區間的上界）
4. 使用確認集：將訓練集分為兩個子集，一個用於訓練，一個用於確認，來估計泛化誤差（就是檢查誤差）；用於通過引數控制獲得具有不同複雜度模型的分類技術
處理決策樹中的過分擬合：避免過分擬合的兩種策略
1. 先剪枝（提前終止規則）：決策樹增長演算法在產生完全擬合訓練集前停止決策樹生長，增加的條件如：不純性度量的增益<閾值
2. 後剪枝：初始決策樹按照最大規模生長，然後按照自底向上的方式修剪完全增長的決策樹，當模型不再改進時終止剪枝，兩種做法：
  1. 用新葉結點代替子樹
  2. 用子樹中最常使用的分支代替子樹，子樹提升

第四章（2）分類：模型評估

訓練誤差：即再代入誤差或表現誤差，即訓練記錄上錯誤分類的比例泛化誤差：模型在未知記錄上的期望誤差一個好的分類模型應該具有低訓練和泛化誤差，而擬合度過高的模型，泛化誤差可能高模型的訓練誤差隨著模型的複雜度增加而降低，但是檢驗誤差可能很大（檢驗誤差在一定程度上代表著泛化誤差），因為樹的結點可能擬

第五章（2）分類：最近鄰分類器

積極學習方法：從訓練記錄中提取模型，對預測資料進行分類消極學習方法：Rote分類器，記住整個訓練資料，僅當測試例項的屬性和某個訓練樣例完全匹配時才進行分類，缺點是某些測試記錄不能被分類更靈活的方法是找出和測試樣例的屬性相對接近的所有訓練樣例，這些訓練樣例即最近鄰最近鄰分類器是把每個樣例看作多維空間

C++ primer 習題第四章（2）

4.26 編寫程式從標準輸入裝置讀入一個string型別的字串。考慮如何程式設計實現從標準輸入裝置讀入一個C風格字串。 int main() { cout << "C++ style" << endl; string str; cin >> str; c

Java第四天——核心技術第三章（2）

繼續第三章的學習。。。運算子運算子+、-、*、/表示加、減、乘、除運算 %求餘操作 /運算兩個運算元都是整數時，表示整數除法；否則，表示浮點數除法例：15/2=7 15%2=1 15.0/2=7.5 整數被0除會產生

第五章（2）使用流-----對映

1.map對映的基本使用一個非常常見的資料處理套路就是從某些物件中選擇資訊。比如在SQL裡，你可以從表中選擇一列。Stream API也通過map和flatMap方法提供了類似的工具。 List<Dish> menu = Arrays.

第四章（1）流Stream介紹

1.使用流的好處流是Java API的新成員，它允許你以宣告性方式處理資料集合（通過查詢語句來表達，而不是臨時編寫一個實現,例如你要在集合中篩選一個紅色的蘋果，你可以用類似於sql式的查詢結構來說明你要幹什麼就可以了，而無需想著如何的去實現它，比如使用for迴圈+if判

第三章（2） JAVA8 api為我們提供的函式式介面

咱們書接上回，上回咱們說到，Java 8的庫設計師幫你在java.util.function包中引入了幾個新的函式式介面。我們接下來會介紹Predicate、Consumer和Function。 1.Predicate（謂詞）

SpringMVC_第四章（RESTful）

1:什麼是RESTful 首先說什麼是REST，REST即表述性狀態轉移（英文：Representational State Transfer，簡稱REST）是Roy Fielding博士在2000年他的博士論文中提出來的一種軟體架構風格。

安卓學習（初）第三章（2）（《第一行程式碼》）

一、佈局的線性佈局<LinearLayout 1、示例： <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" android:orientation="horizontal"

C++primer 習題第四章（1）

4.7編寫程式碼實現一個數組賦值給另外一個數組，然後將這段程式碼改用vector實現。考慮如何將一個vector 賦值給另一個vector。 int main() { int a[3] = { 1,2,3 }; int b[3]; cout << "array :" <&l

《C語言的科學與藝術》課後習題答案第四章（部分）

#include <stdio.h> #include "genlib.h" #include "simpio.h" void main() { int n,i,sum=0,j=1; printf("請輸入一個正整數: "); n=GetInteger(); for (i=1;i<=n;i

資料結構——c語言描述第三章（2）棧的練習（四則運算的實現）

棧的基本概念和實現我在上一篇文章中實現了，現在做一下練習，一個簡單的四則運算的實現，還是比較簡單的，我並沒有再往下實現括號的四則運算，這個都是次要的，主要是掌握棧的操作方法，和一些基本的注意事項，其實這個程式碼我之前刪除了又重寫了一邊，第一遍在實現的過程中對自己的程式碼並沒

Python編程：從入門到實踐——【作業】——第十四章（記分）

wid ont elif pac rom ext splay 添加能夠第十四章 14-1 按P開始新遊戲：鑒於遊戲《外星人入侵》使用鍵盤來控制飛船，最好讓玩家也能夠通過按鍵來開始遊戲。請添加讓玩家在按P時開始遊戲的代碼。也許這樣做會有所幫助：將check_

4類Storage方案（AS開發實戰第四章學習筆記）

uil sed base 改變查詢語句 class getc tex dcim 4.1 共享參數SharedPreferences SharedPreferences按照key-value對的方式把數據保存在配置文件中，該配置文件符合XML規範，文件路徑是/data/

菜單Menu（AS開發實戰第四章學習筆記）

開發實戰 top nbsp 改變 blog urn 第四章格式 reat 4.5 菜單Menu Android的菜單主要分兩種，一種是選項菜單OptionMenu，通過按菜單鍵或點擊事件觸發，另一種是上下文菜單ContextMenu，通過長按事件觸發。頁面的布局文件放在r

PMBOK(第六版) PMP筆記——《四》第四章（專案整合管理）

從第四章開始，進入49個過程的學習。49個過程被劃分為十大知識領域，分為十個章節，本章節是專案整合管理知識領域，主要講述專案整合管理的7個過程。 1、需要對什麼進行整合管理？干係人需求、約束條件、專案管理各個過程、專案集、專案組合的政策、公司戰略等等。 2、如何實現整合管理？在整合管理的過

大前端之路node第（2）天：Express Generator搭建node專案後臺

使用 Express Generator Express Application Generator 能夠快速建立一個Express應用框架。 npm install express-generator -g express myapp --view=pug cd myapp npm i

Python入門筆記—第四章（列表List）

第四章：列表（List） - 定義：一組有順序的集合（重點：有順序） 1 建立列表的方法（4種） #建立空列表 l1 = [] print(type(l1)) print(l1) #建立單值列表 l2 = [1001] print(type(l2)) print(l2

《Linux程式設計》第四章（臨時檔案、使用者資訊、主機資訊、日誌、資源和限制）

1.臨時檔案程式有的時候會使用一些中間檔案儲存某些中間計算結果，最後在將這些檔案刪掉。這樣的檔案成為臨時檔案。 tmpnam函式可以生成一個唯一的臨時檔名。函式原型如下： #include <stdio.h> char* tmpnam(char *s)；

第十二章（2）——記憶體管理、隨機數

本文部分參考https://blog.csdn.net/fireflylane/article/details/83660791 分配記憶體malloc()和free() 定義在stdlib.h中 malloc()函式接收一個引數：所需要的記憶體位元組數該函式

第四章（2） 分類：模型評估

相關推薦

第四章（2）分類：模型評估