coursera機器學習課程第六週——課程筆記

阿新 • • 發佈：2019-01-11

本週的內容主要分為兩部分，第一部分：主要內容是偏差、方差以及學習曲線相關的診斷方法，為改善機器學習演算法的決策提供依據；第二部分：主要內容是機器學習演算法的錯誤分析以及數值評估標準：準確率（交叉驗證集的誤差）、查準率（precision）、查全率（recall）以及F值，還有大資料對機器學習的作用，並給出了機器學習演算法的設計流程。

第一部分

（一）模型選擇

在評估假設函式時，我們通常把資料集分成三部分：60%training set, 20%cross validation set, 20%test set. 分別用於擬合函式，模型選擇和預測。

三個集合的誤差如下所示（注意是沒有正則化引數的）：

基於上面的劃分，我們對模型選擇的步驟為：

1、用測試集training set對多個模型（例如一次函式、二次函式、三次函式）進行訓練；

2、用交叉驗證集cross validation set驗證上一步得到的多個假設函式，選擇交叉驗證集誤差最小的模型；

3、用測試集test set對上一步選擇的最優模型進行預測。

下面是模型選擇的過程：

以上問題其實是指關係到模型選擇的中的一點——多項式的次數d。實際上我們還會去考慮這樣兩個引數：正則化引數λ、樣本量m。而這些知識點涉及到我們下面要說的偏差（bias）、方差（variance）。

（二）偏差（bias）、方差（variance）、學習曲線（learning curve）

根據上圖我們可以發現以下對應關係：

欠擬合（underfit）	高偏差（high bias）
正常擬合（just right）	偏差和方差均較小
過擬合（overfit）	高方差（high variance）

下面介紹特徵量的度d、正則化引數λ、資料量m以及學習曲線：

1、特徵量的度d

例如上面線性迴歸的例子，當我們用二次函式擬合時，訓練集和交叉驗證集的誤差都很小。但是當使用直線擬合時，不管使用多高階的演算法去減小代價函式，偏差依然很大，這時候即：多項式次數d太小，導致高偏差、欠擬合；類似的當我們使用10次曲線去擬合，每個樣本點都可以經過，訓練集的誤差近乎為0，但是當我們使用交叉驗證集時會發現效果很差，誤差很大，這時候即：多項式次數d太大，導致高方差、過擬合。

多項式次數d與訓練集、交叉驗證集誤差時間的關係為：

2、正則化引數λ

正則化引數在第三週的學習中提到過，即λ越大，對θ懲罰越大：θ->0，假設函式是一條水平線，即欠擬合、高偏差；正則化引數越小，相當於正則化作用越弱，即過擬合、高方差。關係如下圖所示：

3、樣本量m和學習曲線learning curve

學習曲線是誤差與訓練集和交叉驗證集之間的關係，分為高偏差和高方差兩種情況（欠擬合和過擬合）

①高偏差（欠擬合）

從上圖可以看出，高偏差情況下資料量的增加對誤差的減小並沒有效果，即m的增加對於演算法的改進無益。

②高方差（過擬合）

從上圖可以看出，通過增加樣本量訓練集的擬合程度很好，而且誤差逐漸降低，說明m的增加對演算法的改進有一定的幫助。

（三）如何決策

綜上所訴，發現以下結論：

①訓練集誤差大、交叉驗證集誤差也大：欠擬合、高偏差、多項式次數d太小、λ太大；

②訓練集誤差小、交叉驗證集誤差卻很大：過擬合、高方差、多項式次數d太大、λ太下、樣本量太少。

這就為我們改善機器學習演算法提供了依據：

一般來說，使用一個大型的神經網路並使用正則化來修正過擬合通常比使用一個小型神經網路效果更好。但容易出現的問題是計算量會比較大。

第二部分

（一）機器學習系統的設計流程

1、剛開始使用簡單演算法儘快實現，然後再交叉驗證集上實現並測試；

2、畫出學習曲線（learning curve）來決定是否需要更多的資料、更多的特徵；

3、誤差分析（error analysis）：檢查交叉驗證集中被錯誤分類的樣本，觀察得到特性（例如垃圾郵件分類器例子中：什麼型別的郵件容易被錯誤分類）。注意：誤差分析（error analysis）不能決定是否對提高準確率有幫助。

以垃圾郵件分類器為例，首先應該快速實現，即使你找不到太多的特徵量，然後使用交叉驗證集去檢驗，人工檢查出錯郵件的共同特徵，通過這些特徵和學習曲線來確定需要增加哪些特徵量以及是否需要更多的資料量。

（二）數值評估機器學習演算法的標準

1、交叉驗證集誤差（cross validation error）

設計的擬合函式交叉驗證集誤差很大，那麼肯定不是一個很好的學習演算法，但誤差很小也不能證明該演算法是一個很好的學習演算法，下面介紹一個特殊的類：偏斜類（skewed classes）。

例如某癌症的患病率是0.5%，設計的一個學習演算法（綜合考慮各種特徵量最小化代價函式）得到交叉驗證集準確率為99%，但是當你設計一種演算法，所有預測結果都為0，此時的交叉驗證集準確率為99.5%，顯然這種預測並不是好的，這種就叫做偏斜類。

所以引入了查準率（precision）和查全率（recall）。

2、查準率（precision）、查全率（recall）與F值

查準率：你預測樣本發病樣本最後真發病的概率；

查全率：一個最終患病的樣本，你之前也預測他患病的概率；

高的查準率意味著，我們在極為確定樣本患病的情況下才告訴他患病(或者理解為不輕易預測他患病)；

高的查全率意味著，樣本有可能患病我們就告訴他(或者理解為普世關懷)；

表示式如下圖所示：

例如前面預測癌症的例子，如果使所有的預測結果都為0，此時的準確率為99.5%，但是查全率為0，我們希望得到的學習演算法是不僅要有高的預測準確率，還要有儘可能高的查準率和查全率，所以這種預測所有結果都為0的方法並不好。

但是查準率和查全率往往不可兼得，所以需要權衡二者——F值。

F值給出了一個很好判斷查準率和查全率的數值計算標準（評估度量值），具體計算公式如下圖：

（三）機器學習的資料量

大量資料往往能大幅度提高學習演算法的最終效能，而不在於你是否使用更高階的求解演算法。

當然要基於兩點前提假設：

1.假設樣本的特徵能夠提供充足的資訊進行預測；

你不可能指望只知道房子的面積來預測房價，不管你是不是房地產方面的專家；

2.假設樣本能提供儘可能多的特徵量；

特徵量越多，越不容易出現欠擬合、高偏差的問題；

所以也有這樣的結論成立：

1.資料量越大，高方差、過擬合問題越不可能發生；

2.特徵量越多，高偏差、欠擬合問題越不可能發生。

積累積累

By 信念

coursera機器學習課程第六週——課程筆記

本週的內容主要分為兩部分，第一部分：主要內容是偏差、方差以及學習曲線相關的診斷方法，為改善機器學習演算法的決策提供依據；第二部分：主要內容是機器學習演算法的錯誤分析以及數值評估標準：準

吳恩達-coursera-機器學習測試題第五週

如果我們使用梯度下降作為我們的優化演算法，那麼梯度檢查是很有用的。但是，如果我們使用的是高階優化方法之一（比如fminunc），它幾乎沒有什麼作用。假設我們有一個正確的反向傳播的實現，並且使用梯度下降來訓練一個神經網路。假設我們

coursera機器學習課程第五週——課程筆記

第五週課程學習結束，一直都是邊上課邊做筆記（紙質），沒有想過在這裡再梳理一遍然後將筆記整理出來，考慮之後覺得這一步很重要，可以藉此對學過的這一週所有知識做一個梳理，方便自己更好的理解這些知識，而且這

(有解題思路)機器學習coursera吳恩達第六週最後測驗習題彙總

第六週的習題做了三遍才100%正確，其中還是參照了不少論壇裡大神的答案（比如BeiErGeLaiDe的部落格，連結點選開啟連結）正式進入主題：ML第六週最後測驗，共五題。文中大部分屬於個人觀點，如有錯誤歡迎指正、交流。1. You are

Machine Learning-Andrew Ng 課程第六週——Advice for Applying Machine Learning

這一週的課程沒涉及什麼特別“硬”的知識，都是在說如何使學習演算法表現得更好，但是這些知識也很重要，有助於提高“軟”實力，特別是在除錯演算法的時候，尤其有幫助。 1. Learning Curve和Validation Curve 所謂的Learning Curv

機器學習技法第七週學習筆記

1.motivation of aggregation 假如我們學習了T個模型，那麼我們怎麼組合這些模型能得到最好的模型呢？ 1.用validation求出其中最好的一個作為我們最終的模型。 2.利用所有的模型進行平均投票。 3.非均勻投票。 4.不同條件下給

機器學習基石第六講筆記

Lecture 6:theory of generalization一般化理論 6-1 Restriction of Break Points 成長函式m：假說h在n個點上可以產生多少個二分（dichotomies）。若正向o，反向×，則理解程度一般，positiv

極客學院學習：第六週javascript基礎查漏補缺筆記

一、BOM：瀏覽器物件 1、www.baidu.com:8080#sdsd <1>#後面的為：hash,<2>、:8080為埠:port 2、history.back(); history:forward(); 網頁往前走兩步

機器學習實戰-第六章（支援向量機）

1 拉格朗日乘子法(等式約束)：目標函式：f(x)=b+wTxi+∑(αihi),s.t.hi=0 最優解條件：∂h∂xi=0 2 kkt(不等式約束)：目標函式：f(x)=b+wTxi+∑(αigi)+∑(βihi),s.t.hi=0,gi≤0

機器學習基石第六講：theory of generalization

機器學習基石第六講繼續討論“學習是否可行的問題”。 Restriction of Break Point 繼續前面的討論，我們看mH(N)是否會有一個很小的增長速度。回顧前面的四種成長函式及其break point。我們知道k是一個成長函式的brea

機器學習實戰第六章支援向量機照葫蘆畫瓢演算法實踐

支援向量機簡要介紹一些概念： 1.分隔超平面：在二維中直觀來說就是將資料集分隔開來的直線，三維中則是一個平面。觸類旁通。 2.超平面：分類的決策邊界，分佈在超平面一側的所有資料都屬於某個類別，另一側屬於另一個。 3.支援向量：離分隔超平面最近的那些

機器學習技法第五週學習筆記

1.Soft-Margin SVM as Regularized Model 我們對hard-margin svm和soft-margin svm進行回顧，我們首先求出問題的基本式，然後轉換成對偶式，最後對對偶式利用二次規劃工具求解。 hard-margin s

讀書筆記-《機器學習》第六章：支援向量機

支援向量機訓練完成後，大部分的訓練樣本都不需要保留，最終模型僅與支援向量有關 SMO的基本思路是先固定xi之外的所有引數，然後求xi上的極值。由於存在約束，因此SMO每次選擇兩個變數並固定其他引數

[完]機器學習實戰第六章支援向量機（Support Vector Machine）

[參考] 機器學習實戰（Machine Learning in Action）本章內容支援向量機（Support Vector Machine）是最好的現成的分類器，“現成”指的是分類器不加修改即可直接使用。基本形式的SVM分類器就可得到低錯

第六週（機器學習應用建議）-【機器學習-Coursera Machine Learning-吳恩達】

目錄評估學習演算法：方差和偏差學習曲線機器學習系統設計 1 評估假設，選擇多項

Coursera-吳恩達-機器學習-第六週-程式設計作業: Regularized Linear Regression and Bias/Variance

本次文章內容： Coursera吳恩達機器學習課程，第六週程式設計作業。程式語言是Matlab。學習演算法分兩部分進行理解，第一部分是根據code對演算法進行綜述，第二部分是程式碼。 0 Introduction 在這個練習中，應用regularized linea

Coursera-吳恩達-機器學習-第六週-測驗-Machine Learning System Design

說實話，這一次的測驗對我還是有一點難度的，為了刷到100分，刷了7次（哭）。無奈，第2道和第4道題總是出錯，後來終於找到錯誤的地方，錯誤原因是思維定式，沒有動腦和審題正確。這兩道題細節會在下面做出講解。第二題分析：題意問，使用大量的資料，在哪兩種情況時

機器學習 | 吳恩達機器學習第六週學習筆記

課程視訊連結第六週PPT 下載密碼:zgkq 本週主要講解了如何設計機器學習系統和如何改進機器學習系統，包括一些模型選擇的方法，模型效能的評價指標，模型改進的方法等。目錄一、應用機器學習建議 1.決定下一步做什麼 2.評估假設函式 3.模型選擇和訓練、驗

機器學習 | 吳恩達機器學習第六週程式設計作業(Python版）

實驗指導書下載密碼:4t4y 本篇部落格主要講解，吳恩達機器學習第六週的程式設計作業，作業內容主要是實現一個正則化的線性迴歸演算法，涉及本週講的模型選擇問題，繪製學習曲線判斷高偏差/高方差問題。原始實驗使用Matlab實現，本篇部落格提供Python版本。目錄 1.實驗包

Ng深度學習課程-第三週筆記摘要

淺層神經網路：一般地，輸入層不算在總層數內。只考慮隱藏層和輸出層的層數。這個是當輸入是單一的訓練樣本時的計算過程，程式設計實現時也只是這四行程式碼。接下來是針對多個訓練樣本。即是在原來單列的基礎上，再向後增加一列，每增