吳恩達機器學習訓練祕籍整理二十到二十七章（三）

阿新 • • 發佈：2018-11-27

第二十章：

偏差和方差：誤差的兩大來源

你的貓識別器在開發集上的錯誤率是16%，訓練集上的錯誤率是15%。

偏差：在訓練集上的錯誤率。15%

方差：開發集上的表現比訓練集差多少。16%-15%=1%

總誤差 = 偏差+方差 = 16%

第二十一章：

通過偏差和方差來定義欠擬合和過擬合

訓練集錯誤率：1%

開發集錯誤率：11%

方差為：10%

訓練集誤差低，開發集誤差高。這就是過擬合。

訓練集錯誤率：15%

開發集錯誤率：16%

方差為：1%

訓練集和開發集誤差都很高。這就是欠擬合。

訓練集錯誤率：0.5%

開發集錯誤率：1%

方差為：0.5%

訓練集合開發集誤差都很低。擬合的很好。

第二十二章：

假設在一個語音設別演算法中有14%的語音片段聲音嘈雜即使是人類也無法識別。假設我們的演算法：

訓練集錯誤率：15%

開發集錯誤率：30%

那麼：

最優錯誤率（‘不可避免偏差’）：14% 即使是世界上最好的語音系統，仍會有 14% 的誤差。

可避免偏差：15%-14%=1% 即訓練錯誤率和最優誤差率之間的差值。

方差：15% 即開發錯誤和訓練錯誤之間的差值。

最優錯誤率也被稱為貝葉斯錯誤率（Bayes error rate）

，或貝葉斯率。

第二十三章：

如何處理偏差和方差

處理偏差（主要是欠擬合）：加深網路結構，L2正則化，BN層等等

處理方差（主要是過擬合）：增加資料集，dropout，正則化等等

第二十四章：

偏差和方差之間的權衡。

第二十五章:

避免偏差的技術：

1.加深網路結構

2.減少或者去除正則化

3.根據誤差分析來修改輸入特徵

4.修改模型結構

第二十六章：

訓練集誤差分析

在訓練資料上進行誤差分析，處理方式類似於在開發集上設定一個 Eyeball 開發集。當你的演算法有著高偏差時（例如演算法沒有很好擬合訓練集的時候）這將有所幫助。

第二十七章：

減少方差的技術：

1.增加訓練資料

2.加入正則化

3.加入提前終止

4.減少輸入特徵的數量和種類

5.減小模型規模

吳恩達機器學習訓練祕籍整理五十三到五十七章（八）元件分析

第五十三章：根據元件進行誤差分析假設你的系統由複雜的機器學習流水線所構建，並且你希望提高該系統的效能，那應該從流水線的哪一部分開始改進呢？你可以通過將誤差歸因於流水線的特定元件，來決定工作的優先順序。在上圖的流水線中，第一部分是貓檢測器，它能夠檢測出貓，並將它們從影象裁剪出來

吳恩達機器學習訓練祕籍整理四十四到五十二章（七）優化測試和端到端

第四十四章優化驗證測試假設你正在構建一個語音識別系統，該系統通過輸入一個音訊片段A，併為每一個可能的輸出句子S計算得分ScoreA(S) 。例如，你可以試著估計 ScoreA(S) = P(S|A) ，表示句子S是正確輸出的轉錄的概率，其中 A 是給定的輸入音訊。

吳恩達機器學習訓練祕籍整理三十六到四十三章（六）訓練資料

第三十六章：何時在不同的分佈上訓練與測試。使用者上傳的10000張圖片。網上收集的200000張圖片。使用者上傳的5000張用來做開發集和測試集。205000用來做訓練集。這樣可以讓他們的資料集的分佈儘可能的相同。第三十七章：現有100000張使用者上傳的圖片和200000張

吳恩達機器學習訓練祕籍整理三十三到三十五章（五）

第三十三章為何與人類表現水平進行對比：許多機器學習系統的設計目的是想要自動化一些人類可以處理得很好的事情，可舉的例子有影象識別、語音識別以及垃圾郵件分類等等。此外，有許多理由表明在處理人類擅長的任務時，構建機器一個學習系統會更加簡單： 1.易於從人為標籤中獲取資料 2.基於人類直

吳恩達機器學習訓練祕籍整理二十八到三十二章（四）學習曲線

第二十八章：繪製學習曲線。隨著訓練集的增加，錯誤率逐漸的減少。第二十九章：繪製訓練誤差曲線。隨著訓練集大小的增加，開發集（和測試集）誤差應該會降低，但你的訓練集誤差往往會同時增加。第三十章：高偏差：隨著我們新增更多的訓練

吳恩達機器學習訓練祕籍整理二十到二十七章（三）

第二十章：偏差和方差：誤差的兩大來源你的貓識別器在開發集上的錯誤率是16%，訓練集上的錯誤率是15%。偏差：在訓練集上的錯誤率。15% 方差：開發集上的表現比訓練集差多少。16%-15%=1% 總誤差 = 偏差+方差 = 16% 第二十一章：通過偏差和

吳恩達機器學習訓練祕籍整理十一到十九章（二）

第十一章：如何修改開發集，測試集和度量指標我們在開發一個新專案的時候，會盡快選好一個開發集和測試集。這樣可以幫助團隊制定一個明確的目標。到後面我們會發現初始的開發集，測試集和度量指標設定與期待目標有一定的差距。這時候我們需要修改我們的開發集，測試集和度量指標。在專案中改變開發

吳恩達機器學習訓練祕籍整理一到十章（一）

第一到四章： 1.為什麼選用機器學習策略。機器學習是無數重要應用的基礎。 2.先修知識與符號標記。有監督學習的經驗。瞭解機器學習。 3.驅動機器學習發展的原因。資料的可用性和計算規模。傳統演算法和神經網路演算法在資料集較小的情況下區別不大，但是隨著資料集的增加和網路層數的加深，效果

吳恩達機器學習訓練祕籍整理五十三到五十五章（八）元件分析更新中...

第五十三章：根據元件進行誤差分析假設你的系統由複雜的機器學習流水線所構建，並且你希望提高該系統的效能，那應該從流水線的哪一部分開始改進呢？你可以通過將誤差歸因於流水線的特定元件，來決定工作的優先順序。在上圖的流水線中，第一部分是貓檢測器，它能夠檢測出貓，並將它

吳恩達“機器學習”——學習筆記二

最大似然數據 learning 模型 ima 我們回歸 eps 而是定義一些名詞欠擬合（underfitting）：數據中的某些成分未被捕獲到，比如擬合結果是二次函數，結果才只擬合出了一次函數。過擬合（overfitting）：使用過量的特征集合，使模型過於復雜。

吳恩達“機器學習”——學習筆記八

包含找到 trade 經驗這也 ... info 算法不等式偏差方差權衡(bias variance trade off) 偏差：如果說一個模型欠擬合，也可以說它的偏差很大。方差：如果說一個模型過擬合，也可以說它的方差很大。訓練誤差經驗風險最小化(ERM)

【吳恩達機器學習】學習筆記——1.5無監督學習

分類哪些 rep epm 朋友工作 style class 客戶 1 無監督學習：在不知道數據點的含義的情況下，從一個數據集中找出數據點的結構關系。 2 聚類算法：相同屬性的數據點會集中分布，聚集在一起，聚類算法將數據集分成不同的聚類。也就是說，機器不知道這些數據點具體

【吳恩達機器學習】學習筆記——2.1單變量線性回歸算法

工作方式樣本 body 聚類屬性 bsp 定義算法信息 1 回顧1.1 監督學習定義：給定正確答案的機器學習算法分類：（1）回歸算法：預測連續值的輸出，如房價的預測（2）分類算法：離散值的輸出，如判斷患病是否為某種癌癥1.2 非監督學習定義：不給定數據的信息的情況下

【吳恩達機器學習】學習筆記——代價函數

info alt 學習 ima 代價函數 png 線性回歸 gpo mage 單變量線性回歸函數 hθ(x) = θ0 + θ1x 為了使線性回歸函數對數據有較好的預測性，即y到h(x)的距離都很小。【吳恩達機器學習】學習筆記——代價函數

【吳恩達機器學習】學習筆記——梯度下降

得到向導 bubuko gpo 思路 pos 方向導數 ... image 梯度下降算法能夠幫助我們快速得到代價函數的最小值算法思路：以某一參數為起始點尋找下一個參數使得代價函數的值減小，直到得到局部最小值梯度下降算法：重復下式直至收斂，其中α為學習速

【吳恩達機器學習】學習筆記——2.7第一個學習算法=線性回歸+梯度下降

com 梯度 .com 局部最優 alt ima 實現梯度下降 width 梯度下降算法：　　　　　　　　　　　　　　線性回歸模型：　　　　　　線性假設：　　　　　　　　　　　　　　　　　　　　　平方差成本函數：將各個公式代入，對θ0、θ1分別求偏導得：再將偏

Coursera-AndrewNg(吳恩達)機器學習筆記——第三周

訓練 ros 方便 font 就是梯度下降全局最優用法郵件一.邏輯回歸問題（分類問題）生活中存在著許多分類問題，如判斷郵件是否為垃圾郵件；判斷腫瘤是惡性還是良性等。機器學習中邏輯回歸便是解決分類問題的一種方法。二分類：通常表示為y?{0,1}，0：“Negat

吳恩達機器學習第5周Neural Networks（Cost Function and Backpropagation）

and div bsp 關於邏輯回歸 info src clas 分享 5.1 Cost Function 假設訓練樣本為：{(x1),y(1)),(x(2),y(2)),...(x(m),y(m))} L = total no.of layers in network

吳恩達機器學習筆記 —— 5 多變量線性回歸

擬合進行 image 價格常用從表 cnblogs 優化深度本篇主要講的是多變量的線性回歸，從表達式的構建到矩陣的表示方法，再到損失函數和梯度下降求解方法，再到特征的縮放標準化，梯度下降的自動收斂和學習率調整，特征的常用構造方法、多維融合、高次項、平方根，最後基

吳恩達機器學習筆記 —— 9 神經網絡學習

滿了線性回歸復雜 amp 技術分享 tps 機器神經網絡前饋型神經網絡本章講述了神經網絡的起源與神經元模型，並且描述了前饋型神經網絡的構造。更多內容參考機器學習&深度學習在傳統的線性回歸或者邏輯回歸中，如果特征很多，想要手動組合很多有效的特征是不

吳恩達機器學習訓練祕籍整理二十到二十七章（三）

相關推薦