Machine Learning Yearning 中文翻譯稿
對於書名《Machine Learning Yearning》,我將其翻譯為《機器學習要領》,希望能表達出 Andrew NG 編寫這本書的目的:
focused not on teaching you ML algorithms, but on how to make ML algorithms work.
經驗即要領,同時單詞「yearning」讀音和「要領」相似,故以此名之。
在原稿中,Andrew NG 把每一個主題都濃縮到 1-2 頁的閱讀量,是非常精煉的。而且有些地方是在經過自己的理解之後並儘量遵照原文進行翻譯,只是希望儘可能的讀起來通順。
翻譯稿
在本書中,你將學習多達 50 多個 Andrew NG 多年總結的工程要領:
緒論 「Introduction」
1、為什麼需要機器學習策略
2、如何利用本書幫助你的團隊
3、預備知識和符號約定
4、規模化驅動下的機器學習發展
配置開發集和訓練集 「Setting up development and test sets」
隨著機器學習正朝著更大的資料集方向發展,關於配置開發/測試集的準則也在發生變化,本章內容將指導你如何在團隊中調整機器學習策略,以及如何設定開發集和測試集,以適應現代化的機器學習專案。
5、你的開發集和測試集
6、發集和測試集應當服從同一分佈
7、開發集/測試集多大合適
8、為團隊進行演算法優化建立單一數字評估指標
9、優化和滿足指標
10、使用開發集和評估指標加速迭代
11、何時更改開發/訓練集和評估指標
12、小結:設定開發和測試集
基本誤差分析 「Basic Error Analysis」
本章內容將通過描述手動分析誤差的流程,來為專案優化選擇合適的方向。
13、快速搭建第一個系統並開始迭代
14、誤差分析:檢視開發集樣本來評估想法
15、在誤差分析中並行評估多個想法
16、清除標註錯誤的開發/測試集資料
17、 如果你有一個很大的開發集,拆分為兩半,並只關注其中一個
18、眼球開發集和黑盒開發集應該多大
19、小結:基本誤差分析
偏差和方差 「Bias and Variance」
傳統的關於偏差和方差的觀點在現代機器學習專案中變得越來越不適用,是時候更新這些傳統的指導方針了,本章將教你如何利用偏差和方差來優化現代機器學習專案。
20、偏差和方差:兩大誤差來源
21、舉例說明偏差和方差
22、比較最優誤差
23、解決方差和偏差
24、權衡偏差和方差
25、減少可避免偏差的技巧
26、在訓練集上的誤差分析
27、減少方差的技巧
學習曲線 「Learning curves」
本章內容將提供一個更加豐富和直觀的方式,來幫助你更好地將偏差歸因到可避免偏差或者是方差上。
28、診斷偏差和方差:學習曲線
29、繪製訓練誤差曲線
30、解讀學習曲線:高偏差
31、解讀學習曲線:其他情況
32、繪製學習曲線
比較人類水平表現 「Comparing to human-level performance」
本章內容將提出通過和人類表現水平的比較來加快機器學習發展的策略。學習演算法的效能表現在越來越多的領域超越了人類水平表現,從語音識別到影象識別(狹義領域)。在深度學習領域,與人類水平表現競爭已然成為一項新興的運動,當你的演算法表現超越人類的時候會發生什麼呢?
33、為什麼我們要比較人類表現水平
34、如何定義人類水平表現
35、超越人類表現水平
不同分佈下的訓練和測試 「Training and testing on different distributions」
本章內容將探討當訓練集的資料分佈和開發/測試集的分佈不一致的時候可能出現的情況。有時候不得不將與測試集不同分佈的訓練集用在構建模型上,那什麼時候這種做法合適呢?如何確保你的演算法表現總能在目標分佈中表現良好呢?此外,本章同時將教會你如何診斷出資料不匹配,你也將學習如何解決資料不匹配的技術。
36、當你不得不在不同分佈中進行訓練和測試
37、如何決定是否使用所有資料
38、如何決定是否包含不一致的資料
39、資料加權
40、從訓練集到開發集的泛化
41、辨別偏差、方差和資料不匹配導致的誤差
42、解決資料不匹配的問題
43、人工合成數據
除錯推理演算法 「Debugging inference algorithms」
本章內容將探討用於除錯語音識別系統、機器翻譯系統和增強學習系統的共享 AI 設計模式是什麼?
44、優化驗證測試
45、優化驗證測試的一般形式
46、強化學習的例子
端到端的深度學習 「End-to-end deep learning」
Andrew NG 提到他曾經負責開發過一個大型端到端語音識別系統,並取得的很好的效果,但是他同時表示盲目使用該技術並不是好事。本章內容將探討什麼是端到端的深度學習? 什麼時候應該使用它,什麼時候應該避免它?同時給出了當不適合使用端到端學習技術之時,如何將機器學習任務分解成多個子任務的建議
47、端到端學習技術的興起
48、更多的端到端學習的例子
49、端到端學習的優點和缺點
50、選擇管道元件:資料可用性
51、選擇管道元件:任務簡單性
52、直接學習複雜的輸出
根據元件執行誤差分析 「Error analysis by parts」
本章學習到如何進行機器學習管道的誤差分析,如何利用複雜系統的元件來為誤差分析提供幫助。
53、根據元件執行誤差分析
54、將誤差歸因到某個元件
55、誤差歸因的一般情況
56、元件誤差分析與人類效率的比較
57、發現有缺陷的機器學習管道
58、全書結語
原文釋出時間為:2018-11-1
本文來自雲棲社群合作伙伴“ OA==&mid=2650341685&idx=1&sn=a58f335670901df4180b039e199841fe&chksm=878117c6b0f69ed04a3e282ef0aefefcba6076e0b81281b3f9ce32078eb54a3ec2f2ca5dc324&scene=0#rd" target="_blank" rel="nofollow,noindex">大資料探勘DT機器學習 ”,瞭解相關資訊可以關注“ 大資料探勘DT機器學習 ”。