吳恩達機器學習筆記 —— 12 機器學習系統設計

阿新 • • 發佈：2018-08-04

不知道 cor 算法項目詞語樣本我們們的 ...

http://www.cnblogs.com/xing901022/p/9362339.html

本章主要圍繞機器學習的推薦實踐過程以及評測指標，一方面告訴我們如何優化我們的模型；另一方面告訴我們對於分類的算法，使用精確率和召回率或者F1值來衡量效果更佳。最後還強調了下，在大部分的機器學習中，訓練樣本對模型的準確率都有一定的影響。

更多內容參考機器學習&深度學習

機器學習最佳實踐

針對垃圾郵件分類這個項目，一般的做法是，首先由一堆的郵件和是否是垃圾郵件的標註，如[(郵件內容1,是),(郵件內容2,否),(郵件內容3,是)...]。然後我們針對郵件的內容去做分詞，搜集全部詞語組織成詞表；由於郵件內容的詞通常都是常用詞，因此可以取top500的詞組織成詞表，然後替換內容郵件。

接下來如果想要優化機器學學習模型，可以有下面幾種： 1 搜集更多的數據 2 從郵件的地址中尋找新的feature 3 從郵件內容中尋找新的feature 4 基於更復雜的算法檢測錯拼詞

推薦的步驟是： 1 先通過一些簡單的算法快速實現，然後通過交叉驗證選擇一個比較好的模型 2 通過學習曲線，確定是屬於高偏差的情況、還是高方差的情況，再來決定是否增加樣本、或者增加特征 3 錯誤分類的分析，通過分析那些被分錯的樣本，觀察是否有什麽共同的特征。比如分析一個英文單詞，提取詞幹和不提取，錯誤率有沒有什麽變化，從而調整算法

P、R、F1模型評測

在說一個其他的例子，癌癥檢測。如果我們的錯誤率是1%，而1%中只有0.5%是真正得了癌癥的，那麽這個分類的算法其實也稱不上好。所以錯誤率低，並不一定代表模型就好。

因此可以使用下面的指標衡量方法，精確率和召回率。精確率是指我們預測的多少是對的；召回率是指我們預測對的全不全（預測對的占本身就是對的多少）。通過這兩個指標可以比較好的評判一個分類算法的好壞。

技術分享圖片

如果不知道怎麽平衡精確率和召回率，可以直接使用F1 Score，這個指標同時衡量了兩個值：

技術分享圖片

一般說來，盲目的擴充樣本數據並沒有什麽作用。但是在一些特例中，只有足夠的樣本才能使得訓練更準確。比如基於上下文卻分容易混淆的詞語。

吳恩達機器學習筆記 —— 12 機器學習系統設計

不知道 cor 算法項目詞語樣本我們們的 ... http://www.cnblogs.com/xing901022/p/9362339.html 本章主要圍繞機器學習的推薦實踐過程以及評測指標，一方面告訴我們如何優化我們的模型；另一方面告訴我們對於分類的算法

吳恩達機器學習筆記 —— 12 機器學習系統設計

機器學習最佳實踐

P、R、F1模型評測

吳恩達機器學習筆記 —— 12 機器學習系統設計

機器學習筆記（六）-吳恩達視訊課程（神經網路學習二）

吳恩達第六講[應用機器學習的建議] -- 評估學習演算法

吳恩達《神經網路與深度學習》課程筆記歸納（二）-- 神經網路基礎之邏輯迴歸

吳恩達《神經網路與深度學習》課程筆記歸納（三）-- 神經網路基礎之Python與向量化

Coursera吳恩達《神經網路與深度學習》課程筆記（2）-- 神經網路基礎之邏輯迴歸

Coursera 吳恩達《神經網路與深度學習》第三週程式設計作業

吳恩達DeepLearning.ai筆記（5-1）-- 迴圈序列模型

吳恩達deeplearning.ai第四課學習心得：卷積神經網路與計算機視覺

吳恩達DeepLearning.ai筆記（1-4）-- 深層神經網路

吳恩達deep learning筆記第二課改善深層神經網路：超引數除錯、正則化以及優化

【吳恩達deeplearning.ai筆記二】通俗講解神經網路上

Altium Designer學習筆記——12位感測系統佈線技巧

Coursera 深度學習吳恩達 deep learning.ai 筆記整理（3-2）——機器學習策略

吳恩達“機器學習”——學習筆記二

吳恩達“機器學習”——學習筆記八

【吳恩達機器學習】學習筆記——1.5無監督學習

【吳恩達機器學習】學習筆記——2.1單變量線性回歸算法

【吳恩達機器學習】學習筆記——代價函數

【吳恩達機器學習】學習筆記——梯度下降

吳恩達機器學習筆記 —— 12 機器學習系統設計

機器學習最佳實踐

P、R、F1模型評測

相關推薦