機器學習筆記——機器學習建議與誤差分析

阿新 • • 發佈：2019-01-01

建議

在實踐過程中我們經常會發現我們的建模不合適，那麼這種情況我們應該對我們模型的引數進行調整呢

評估假設

我們首先要做的就是對我們建立的模型進行評估，來判斷模型擬合是否合適。我們將利用訓練集求出來的網路引數θ應用在測試集上得到的誤差叫做測試集誤差，這個誤差越小代表建模越合適

驗證集

為了選擇一個合適的模型，我們需要嘗試多種多項式來保證我們既不會過擬合也不會欠擬合。方法就是求出各種假設函式的測試集誤差來選擇最小誤差對應的假設函式

但是這種用根據測試集誤差選出來的假設函式很可能是對一般誤差的一種樂觀估計，因此我們還需要一個不想關的測試集來對這個假設函式進行函式。為此我們將資料分為訓練集、驗證集、測試集三個部分。選擇引數的過程我們在驗證集上做

偏差與方差

我們對欠擬合與過擬合又有另一個名字：高偏差與高方差

我們可以看出當假設函式由低次到高次漸變的過程中測試集誤差與訓練集誤差的變化情況。也正是從這個曲線中我們可以判斷我們的假設函式是過擬合還是欠擬合了。高偏差對應的是測試集誤差與訓練集誤差都高，高方差對應的是測試集誤差高，訓練集誤差低

正則化

我們之前講到過正則化，正則化前面的係數也跟過擬合/欠擬合有關，正則化係數越大，代表著欠擬合越嚴重；係數越小代表過擬合嚴重

同樣我們可以像選擇假設函式多項式最高次冪的方法一樣不斷調整正則化係數λ來取得最合適的擬合效果

同樣我們也可以根據訓練集誤差和測試集誤差來判斷λ是過大還是過小

學習曲線

除了上述方法，我們還可以通過學習曲線來判斷擬合效果

對於高偏差來說，隨著訓練集數量增加，測試集誤差與訓練集誤差將靠的很近，因為多項式的次冪限制了曲線繼續演進，從而使測試集誤差與訓練集誤差都維持在一個較高的值

對於高方差曲線來說，訓練集誤差維持在一個較低的值，測試集誤差維持在較高的值，但是隨著訓練集增加，這個間隔會越來越小

下一步

在有了之前的鋪墊以後我們就可以很好的決定下一步做什麼了，我們可以根據曲線是過擬合還是欠擬合來進行選擇下一步嘗試方法

大資料原理

我們經常聽到說“It's not who has the best algorithm that wins, its who has the most data.”那我們應該如何構建一個高精度的系統呢，保證大資料能夠應用在好的演算法上呢？首先我們得保證我們已經獲得一組資料中足夠多的特徵，判斷標準就是人類是否能根據這些特徵做出判斷

足夠多的特徵保證了我們不會欠擬合，也就意味著訓練集誤差會比較低，之後我們通過增大資料量，來使測試集誤差逼近訓練集誤差來保證我們的演算法有很好的精度與普適性

誤差分析

當我們要對一個很複雜的模型建模的時候我們往往是先用幾天的時間建立一個很簡單的模型來判斷誤差的大小，再通過畫出學習曲線等方法來決定是否需要增加特徵或是增加測試集數量等等

不對稱分類

對於兩種十分不對稱的分類，我們採用傳統的誤差分析（即錯誤率）不能很好地驗證演算法的有效性。比如我們得到了一個錯誤概率為1%的演算法，但是實際上只有0.5%的病人，那麼我們只需要做出所有人都不得病的判斷就能獲得錯誤率為0.5%的演算法，但是這顯然是一種不合理的演算法。這也就意味著我們需要一個新的評判標準

我們可以用精準率與召回率這兩個引數來進行度量。精準率代表判斷為病人的人中真正得病的人的比例；召回率代表實際得病的人中被診斷出有病的人的比例

我們可以通過調整假設函式的閾值來調整這兩者的值，很多時候我們需要在這二者中做出一個權衡

有兩個度量標準很多時候讓我們不知道如何選擇，為了解決這個問題，我們有F分的方法將二者融合為一個標準

機器學習筆記——機器學習建議與誤差分析

建議在實踐過程中我們經常會發現我們的建模不合適，那麼這種情況我們應該對我們模型的引數進行調整呢評估假設我們首先要做的就是對我們建立的模型進行評估，來判斷模型擬合是否合適。我們將利用訓練集求出來的網路引數θ應用在測試集上得到的誤差叫做測試集誤差，這個誤差越小代表建模越合適

西瓜書《機器學習》學習筆記二模型評估與選擇（二）效能度量 ROC AUC...

目錄 3、效能度量（performance measure）衡量模型泛化能力的評價標準，就是效能度量。效能度量 <————> 任務需求在對比不同模型的“好壞”時，使用不同的效能度量往往會導致不同的結果，這也意味著模型的好壞是相

吳恩達新書-機器學習學習筆記-（五）與人類表現水平對比

1.為何與人類表現水平進行對比許多機器學習系統的設計目的是想要自動化處理一些人類可以處理得很好的事情。可舉的例子有影象識別、語音識別以及垃圾郵件分類等等。學習演算法進步如此之快，有許多類似任務的處理已經超過了人類的表現水平。有很多理由表明在處理人類擅長的任務時，構建一

周志華西瓜書《機器學習筆記》學習筆記第二章《模型的評估與選擇》

本章是西瓜書的第二章，周志華老師在這一部分基礎對機器學習中的基礎知識進行介紹，主要闡述了誤差、過擬合的相關概念和模型的評估度量方法。博主在今年元旦之後就要正式開始做畢業設計了，所以我會努力在今年元旦假期結束之前把西瓜書的所有內容更新。也希望大家可以監督我嘻嘻。一、經驗誤

Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 4 —— 資料探索與視覺化、發現規律

紅色石頭的個人網站：redstonewill.com 目前為止，我們已經對資料有了初步的認識，大體上明白了我們要處理的資料型別。現在，我們將進入更深入的研究。首先，確保已經劃分了測試集並放置一邊，我們只會對訓練集進行操作。另外，如果訓練集很大，可以從中取樣一些作

Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 3 —— 資料獲取與清洗

紅色石頭的個人網站：redstonewill.com 本章將完整地介紹一個端對端（End-to-End）機器學習專案。假如你是某個房地產公司剛僱傭的資料科學家，你所要做的事情主要分成以下幾個步驟： 1.整體規劃。 2.獲取資料。 3.發現、視覺化資料，增加

機器學習筆記(6)-邏輯迴歸與最大熵模型

Logistic迴歸 Logistic 迴歸雖然名字叫回歸，但是它是用來做分類的。其主要思想是: 根據現有資料對分類邊界線建立迴歸公式，以此進行分類。假設現在有一些資料點，我們用一條直線對這些點進行擬合（這條直線稱為最佳擬合直線），這個擬合的過程就叫做迴歸。

機器學習筆記(二)模型評估與選擇

2.模型評估與選擇 2.1經驗誤差和過擬合不同學習演算法及其不同引數產生的不同模型，涉及到模型選擇的問題，關係到兩個指標性，就是經驗誤差和過擬合。 1）經驗誤差錯誤率(errorrate)：分類錯誤的樣本數佔樣本總數的比例。如果在m個樣本中有a個樣本分類錯誤，則錯誤率E

機器學習筆記之模型評估與選擇

2.1經驗誤差與過擬合錯誤率（error rate）：分類錯誤的樣本數佔樣本總數的比例精度（accuracy）：1-錯誤率誤差（error）：實際預測輸出與樣本的真實輸出之間的差異訓練誤差/經驗誤差：在訓練集上的誤差測試誤差/泛化誤差：在新樣本的誤差過擬合：學習時選擇的模型包

七月演算法機器學習筆記6 -- 工作流程與模型優化

這套筆記是跟著七月演算法四月機器學習班的學習而記錄的，主要記一下我再學習機器學習的時候一些概念比較模糊的地方，具體課程參考七月演算法官網：http://www.julyedu.com/ 特徵工程總

斯坦福大學機器學習筆記——機器學習系統設計（誤差分析、查全率和查準率、F1值）

這次部落格我們主要討論機器學習系統設計的主要問題，以及怎樣巧妙的構建一個複雜的機器學習系統。我們先用一個例子引入機器學習系統的設計：以一個垃圾郵件分類器演算法為例：對於該問題，我們首先要做的是怎樣選擇並且表達特徵向量x。我們可以選擇100個詞所構

Halcon學習筆記——機器視覺應用工程開發思路及相機標定

助手創建模板建模 visio open 這一目的傅裏葉變換綁定機器視覺應用工程開發思路機器視覺應用工程主要可劃分為兩大部分，硬件部分和軟件部分。 1.硬件部分，硬件的選型至關重要，決定了後續工作是否可以正常開展，其中關鍵硬件部

機器學習對前人學習筆記的學習

blog 機器學習 logs ges load 學習筆記 img 技術 image 機器學習對前人學習筆記的學習

機器學習筆記——整合學習

一，個體與整合整合學習通過構建並結合多個學習器來完成學習任務，有時也被稱為多分類器系統，基於委員會的學習。其一般結構是先產生一組“個體學習器”，再用某種策略將它們結合起來。如下圖：整合學習研究的核心是如何產生並結合“好而不同”的個體學習器。根據個體學習器的生成方式，整合

機器學習基礎學習筆記——機器學習基礎介紹

機器學習基礎介紹機器學習（Machine Learing,ML）概念：多領域交叉學科，設計概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識

機器學習筆記(四）PCA主成分分析

首先先複習一下要用到的基礎的知識：（一）、協方差和方差樣本均值：樣本方差：樣本X和樣本Y的協方差：協方差代表了兩個變數之間的相關關係，協方差為正時，說明X和Y是正相關關係；協方差為負時，說明X和Y是負相關關係；協方差為0時，說明X和Y是相互獨立

Udacity機器學習筆記——深度學習（2）

Udacity機器學習筆記——深度學習（2）感知器感知器或者神經元是神經網路的基礎單元，它們對輸入的資料進行判斷，比如說輸入一個學生的學業成績和考試成績，然後感知器根據這兩個值來判斷該學生是否被某大學錄取。那麼，感知器是根據什麼規則來對這兩個值進行比較從而得出結論的呢？感

Udacity機器學習筆記——深度學習（1）

Udacity機器學習筆記——深度學習（1）深度學習是機器學習的一個熱門分支，它使用大量的資料裡解決與人類感知相關的問題，例如影象識別，語音識別、理解自然語言等。許多公司都將深度學習作為研究的一部分，例如Facebook、Google、Microsoft和百度等。上個世紀八九十年代雖然

[學習筆記]機器學習——演算法及模型（五）：貝葉斯演算法

傳統演算法（五）貝葉斯演算法一、貝葉斯定理簡介貝葉斯定理是18世紀英國數學家托馬斯·貝葉斯（Thomas Bayes）提出得重要概率論理論；貝葉斯方法源於他生前為解決一個“逆概”問題寫的一篇文章

學習筆記 | 機器學習-周志華 | 5

第二章模型評估與選擇 2.1 經驗誤差與過擬合 "錯誤率" (error rate) ，即如果在 m 個樣本中有 α 個樣本分類錯誤，則錯誤率 E= α/m; 1 一 α/m 稱為**“精度” (accuracy)** ，即"精度 =1 - 錯誤率" 更一般地，