吳恩達“機器學習”——學習筆記八

阿新 • • 發佈：2018-02-04

包含找到 trade 經驗這也 ... info 算法不等式

偏差方差權衡(bias variance trade off)

偏差：如果說一個模型欠擬合，也可以說它的偏差很大。

方差：如果說一個模型過擬合，也可以說它的方差很大。

訓練誤差

技術分享圖片

經驗風險最小化(ERM)

選擇參數，使得訓練誤差最小化，即

技術分享圖片

假設類H:所有假設構成的集合。

ERM的目標也可以寫成選擇假設，使得訓練誤差最小化，即

技術分享圖片

泛化誤差(generalization error)

技術分享圖片，即對於新樣本錯誤分類的概率。

聯合界引理(the union bound)

事件和的概率小於等於事件概率之和。

Hoeffding不等式引理

令z1,...,zm為i,i,d，並且服從伯努利分布，即P(zi=1)=phi，P(zi=0)=1-phi。定義技術分享圖片

，對於給定的gamma，Hoeffding不等式為，

技術分享圖片

ERM的性質

以有限假設類為例

令H為一個包含了k個假設的假設類。這k個函數都是從輸入映射到輸出的函數，不帶有參數。ERM需要做的就是，對於給定的訓練集合，從假設類中找到一個假設，使得訓練誤差最小。我們更喜歡的是泛化誤差較小。所以，先證明訓練誤差是泛化誤差的近似，然後可以證明ERM輸出的泛化誤差具有上界。以下為證明過程

對於假設類裏面的某一個特定假設hi，定義技術分享圖片，那麽訓練誤差即為

技術分享圖片，則訓練誤差為泛化誤差的平均數，則有所以對於某一個假設來說，訓練誤差和泛化誤差是近似的。令Ai=，則。

技術分享圖片。所以，對於所有的假設，訓練誤差和泛化誤差是近似的，即一致收斂。

對於給定的gamma與delta，令技術分享圖片，則可以確定樣本的數量m，，這也叫樣本復雜度。

對於給定的m與delta，可以求解出gamma。在1-delta的概率下，有技術分享圖片，所以不等式右邊的即為gamma。

定義技術分享圖片，同時。則，

技術分享圖片

定理：令假設類是一個k個假設的集合，令m和delta固定，在至少1-gamma的概率下，有技術分享圖片第一項對應著算法的偏差，第二項對應著假設的方差。通過使用一個更為復雜的假設類，會使得方差變大，偏差變小。

吳恩達“機器學習”——學習筆記八

吳恩達“機器學習”——學習筆記八

包含找到 trade 經驗這也 ... info 算法不等式偏差方差權衡(bias variance trade off) 偏差：如果說一個模型欠擬合，也可以說它的偏差很大。方差：如果說一個模型過擬合，也可以說它的方差很大。訓練誤差經驗風險最小化(ERM)

機器學習 | 吳恩達機器學習第八週學習筆記

課程視訊連結第八週PPT 下載密碼:qedd 上週主要講解了支援向量機SVM的原理包括優化目標、大間隔以及核函式等SVM核心內容，以及SVM的使用。本週主要講解經典的無監督聚類演算法k-means，包括k-means的優化目標，原理以及一些引數設定細節；和降維演算法PCA的原理，

吳恩達機器學習筆記八 K-means聚類演算法

1. 代價函式 K-means演算法是比較容易理解的，它屬於無監督學習方法，所以訓練樣本資料不再含有標籤。我們假設有樣本資料x(1),x(2),⋯,x(m)x(1),x(2),⋯,x(m)，我們選擇設定KK個聚類中心u1,u2,⋯,uKu1,u2,⋯,uK

Coursera 深度學習吳恩達 deep learning.ai 筆記整理（3-2）——機器學習策略

新的 bsp 誤差 spa 歸納空間 font 處理整理一、誤差分析定義：有時我們希望算法能夠勝任人類能做的任務，但是當算法還沒達到人類所預期的性能時，人工檢查算法錯誤會讓你知道接下來做什麽，這也就是誤差分析檢查，發現會把夠狗當恒，是否需要做一個項目專門處理狗

吳恩達“機器學習”——學習筆記二

最大似然數據 learning 模型 ima 我們回歸 eps 而是定義一些名詞欠擬合（underfitting）：數據中的某些成分未被捕獲到，比如擬合結果是二次函數，結果才只擬合出了一次函數。過擬合（overfitting）：使用過量的特征集合，使模型過於復雜。

【吳恩達機器學習】學習筆記——1.5無監督學習

分類哪些 rep epm 朋友工作 style class 客戶 1 無監督學習：在不知道數據點的含義的情況下，從一個數據集中找出數據點的結構關系。 2 聚類算法：相同屬性的數據點會集中分布，聚集在一起，聚類算法將數據集分成不同的聚類。也就是說，機器不知道這些數據點具體

【吳恩達機器學習】學習筆記——2.1單變量線性回歸算法

工作方式樣本 body 聚類屬性 bsp 定義算法信息 1 回顧1.1 監督學習定義：給定正確答案的機器學習算法分類：（1）回歸算法：預測連續值的輸出，如房價的預測（2）分類算法：離散值的輸出，如判斷患病是否為某種癌癥1.2 非監督學習定義：不給定數據的信息的情況下

【吳恩達機器學習】學習筆記——代價函數

info alt 學習 ima 代價函數 png 線性回歸 gpo mage 單變量線性回歸函數 hθ(x) = θ0 + θ1x 為了使線性回歸函數對數據有較好的預測性，即y到h(x)的距離都很小。【吳恩達機器學習】學習筆記——代價函數

【吳恩達機器學習】學習筆記——梯度下降

得到向導 bubuko gpo 思路 pos 方向導數 ... image 梯度下降算法能夠幫助我們快速得到代價函數的最小值算法思路：以某一參數為起始點尋找下一個參數使得代價函數的值減小，直到得到局部最小值梯度下降算法：重復下式直至收斂，其中α為學習速

【吳恩達機器學習】學習筆記——2.7第一個學習算法=線性回歸+梯度下降

com 梯度 .com 局部最優 alt ima 實現梯度下降 width 梯度下降算法：　　　　　　　　　　　　　　線性回歸模型：　　　　　　線性假設：　　　　　　　　　　　　　　　　　　　　　平方差成本函數：將各個公式代入，對θ0、θ1分別求偏導得：再將偏

Coursera-AndrewNg(吳恩達)機器學習筆記——第三周

訓練 ros 方便 font 就是梯度下降全局最優用法郵件一.邏輯回歸問題（分類問題）生活中存在著許多分類問題，如判斷郵件是否為垃圾郵件；判斷腫瘤是惡性還是良性等。機器學習中邏輯回歸便是解決分類問題的一種方法。二分類：通常表示為y?{0,1}，0：“Negat

吳恩達機器學習筆記 —— 5 多變量線性回歸

擬合進行 image 價格常用從表 cnblogs 優化深度本篇主要講的是多變量的線性回歸，從表達式的構建到矩陣的表示方法，再到損失函數和梯度下降求解方法，再到特征的縮放標準化，梯度下降的自動收斂和學習率調整，特征的常用構造方法、多維融合、高次項、平方根，最後基

吳恩達機器學習筆記 —— 9 神經網絡學習

滿了線性回歸復雜 amp 技術分享 tps 機器神經網絡前饋型神經網絡本章講述了神經網絡的起源與神經元模型，並且描述了前饋型神經網絡的構造。更多內容參考機器學習&深度學習在傳統的線性回歸或者邏輯回歸中，如果特征很多，想要手動組合很多有效的特征是不

吳恩達機器學習筆記（六） —— 支持向量機SVM

次數括號圖片最小我們支持向量機svm UNC 意思 strong 主要內容：一.損失函數二.決策邊界三.Kernel 四.使用SVM 一.損失函數二.決策邊界對於：當C非常大時，括號括起來的部分就接近於0，所以就變成了：

吳恩達機器學習筆記 —— 17 推薦系統

htm 特征問題這就是 ref 圖片系統得出工業本章講述了推薦系統相關的知識，比如基於內容的推薦算法、基於協同過濾的推薦算法以及實踐中遇到的問題。更多內容參考機器學習&深度學習推薦系統是機器學習在工業界應用最廣泛的方向，很多電子商務類、咨詢類的

吳恩達機器學習筆記 —— 12 機器學習系統設計

不知道 cor 算法項目詞語樣本我們們的 ... http://www.cnblogs.com/xing901022/p/9362339.html 本章主要圍繞機器學習的推薦實踐過程以及評測指標，一方面告訴我們如何優化我們的模型；另一方面告訴我們對於分類的算法

吳恩達機器學習筆記 —— 14 無監督學習

www 最簡業務一次曲線 logs img 下一個 com http://www.cnblogs.com/xing901022/p/9368432.html 本章講述的是第一個無監督的機器學習算法，在無監督的算法中，樣本數據只有特征向量，並沒有標註的y值。比如聚類

吳恩達機器學習筆記 —— 19 應用舉例：照片OCR（光學字符識別）

參考 https ocr 噪聲也說字符 www. 定位 cnblogs http://www.cnblogs.com/xing901022/p/9374258.html 本章講述的是一個復雜的機器學習系統，通過它可以看到機器學習的系統是如何組裝起來的；另外也說明了一

吳恩達機器學習筆記 —— 11 應用機器學習的建議

切分 image 們的正則化如果 mage 樣本獲得建議 http://www.cnblogs.com/xing901022/p/9356783.html 本篇講述了在機器學習應用時，如何進行下一步的優化。如訓練樣本的切分驗證？基於交叉驗證的參數與特征選擇？在訓

吳恩達機器學習筆記

叠代公式 spec end webkit 測量 ase letter s函數 1 機器學習的含義（1）Field of study that gives computers the ability to learn without being explicitly p