49.端到端學習的利與弊翻譯自吳恩達新書-Machine Learning Yearning

阿新 • • 發佈：2018-12-13

回想我們之前說的語音識別流程：流程中很多內容都是"手工工程":

MFCCs 是一系列手工設計的音訊特徵。這個特徵提取過程會丟棄一些無用的資訊，並整理出合理的音訊摘要資訊。
音素是語音學家發明的。它是音訊的一種不完美表示方法，用音素來表示音訊會限制語音識別系統的效能。

然而，手動工程元件也有它的優勢：

MFCC特徵對那些不影響語音內容的因素，比如音高，具有很好的魯棒性，這可以有效的簡化機器學習演算法要解決的問題。
音素也是音訊的一種合力表示。可以讓演算法瞭解基本的語音單元，然後幫助改進演算法。

使用更多的手工工程元件，可以減少學習演算法所需要的資料量。從手工工程MFCCs和因素獲得的知識，而可以補充演算法中資料中獲得的知識。當我們沒有很多資料時，這些知識就非常有用了。

現在，在考慮下端到端系統：端到端系統流程

這個系統缺少手工工程相關的知識，因此當訓練資料集很小時，他可能表現出的效能差於手工工程流程。

然而，當資料量比較大時，學習演算法就不會受到MFCC或基於音素表示方法的限制了，如果學習演算法是一個足夠大的神經網路，而且有足夠多的資料參與訓練，它的潛力是非常大的，或許能達到最優的錯誤率。

端到端學習系統可以在兩端(輸入端、輸出端)有大量已標記資料的情況下，表現的非常好。在這個例子中，我們需要準備大量的音訊和對應的輸出文字。當資料不可用時，端到端學習方法就有很大的風險了。

當你用機器學習演算法解決問題時，如果訓練樣本集非常小，演算法的大部分知識需要來自於人類的觀察，比如手工工程設計的元件。

當你不使用端到端系統時，你需要考慮演算法流程分成哪幾步，這幾步如何組裝在一起，我們將會提供一些關於演算法流程的設計建議。

49.端到端學習的利與弊翻譯自吳恩達新書-Machine Learning Yearning

回想我們之前說的語音識別流程：流程中很多內容都是"手工工程": MFCCs 是一系列手工設計的音訊特徵。這個特徵提取過程會丟棄一些無用的資訊，並整理出合理的音訊摘要資訊。音素是語音學家發明的。它是音訊的一種不完美表示方法，用音素來表示音訊會限制語音識別

32.學習曲線繪製技巧翻譯自吳恩達新書-Machine Learning Yearning

假如你的訓練樣本集非常小，只有100個樣本。你依次隨機抽取10個樣本、20個樣本、30個樣本，每次增加10個樣本依次類推，一直到100個樣本，進行模型訓練，然後把學習曲線繪製出來，你可能會發現，當訓練樣本集很少時，曲線看起來有很多噪音。當你只隨機選擇10個樣

47.端到端學習的興起翻譯自吳恩達新書-Machine Learning Yearning

假如你正在構建一個機器學習系統，這個系統可以檢查線上的產品評論，然後告訴你評論者是否喜歡對應的產品。比如，你希望將下面的例子識別成正例：這個拖把非常棒或者把下面這句識別成負例：這個拖把質量非常差，買了非常後悔。這種識別正例/負例的問題稱作情感分類。為

48.更多的端到端學習例項翻譯自吳恩達新書-Machine Learning Yearning

假如你正在構建一個語音識別系統，這個系統中，你需要開發三個元件：這三個元件負責的工作如下：計算特徵：抽取手工設計的特徵，比如MFCC(梅爾頻率倒譜系數)特徵，採集有用的內容，忽略不相干的屬性，比如說話者的音高。音素識別：一些語言學家任務，聲音的基本單

28.通過學習曲線診斷偏差和方差翻譯自吳恩達新書-Machine Learning Yearning

我們已經瞭解了一些方法，可以算出有多少錯誤是來自於可避免得方差和偏差了。這些方法包括評估最優錯誤率、計算模型在訓練樣本集和開發樣本集上的錯誤率。下面我們討論兩外一項可獲得更多資訊得方法：繪製學習曲線。學習曲線顯示出模型在開發資料集上的錯誤率與訓練樣本數量的關

46.強化學習例項翻譯自吳恩達新書-Machine Learning Yearning

假如你正在使用機器學習教直升飛機，執行復雜的飛行任務。這兒有一張直升飛機引擎關閉時，著陸時拍攝的照片。這就是所謂的“autorotation”策略。它可以在引擎意外關閉的情況下，讓直升飛機平穩著陸。這種訓練時人類飛行員訓練的一部分。你的目標是，讓機器學習演

52.讓機器學習輸出更加豐富的內容翻譯自吳恩達新書-Machine Learning Yearning

圖片分類演算法中，輸入圖片，然後輸出一個數字，代表這張圖片所屬的類別。演算法能輸出一句完整的話來描述圖片嗎？比如：傳統的監督類機器學習，需學習到的內容都是 h:X→Y, 通常y都是一個整數或者實數。比如：端到端系統一個最令人激動的進展是，它可以讓我

7.開發和測試資料集多大合適翻譯自吳恩達新書-Machine Learning Yearning

為了檢測出不同演算法之間的差異，開發資料集應該足夠大。比如，分類演算法A的準確率為90.0%, 分類演算法B的準確率為90.1%，如果開發資料集中只有100個樣本，那你無法檢測出這0.1%差在哪兒。100個樣本的開發資料集實在時太小了。通常，我們會在開發資料集

11.何時需要改變資料集和衡量指標翻譯自吳恩達新書-Machine Learning Yearning

當開始一個新的專案時，我會快速的選擇開發和測試資料集，這樣可以給團隊定出明確的目標。我一般會要求我的團隊在一週內，提出初始的開發/測試資料集和初始的衡量指標。一開始的想法不完美並沒關係，但是要快，千萬不能過度思考。但是這一做法不適合成熟的機器學習應用，比如反

20. 偏差和方差的概念及用途翻譯自吳恩達新書-Machine Learning Yearning

假設你的開發、測試、訓練樣本集服從同一分佈，那麼獲取更多的訓練資料，可以讓你的演算法效能獲得巨大的提升嗎？儘管獲取更多的資料沒啥壞處，但可能無法像你預期的那樣，有很大提升。而且採集資料本身會耗費大量的時間，那如何判斷，什麼時候需要新增資料，什麼時候不需要新增

22.向最優的錯誤率看齊翻譯自吳恩達新書-Machine Learning Yearning

在我們的貓咪識別器的例⼦中，最理想的情況是實現⼀個最優的識別器，提供接近於0的錯誤率。如果圖片中有貓，人類幾乎可以100%識別出來；因此，我們也期望機器可以達到同樣的水平。和貓咪的例子相比，其他的問題相對複雜得多。例設，你正在開發一款語⾳設別系統，但你發現1

23.方差和偏差的處理方法翻譯自吳恩達新書-Machine Learning Yearning

處理偏差和⽅差的時候有⼀個最簡單的準則：如果可避免的偏差很高，則增加你的模型的規模(比如，在神經網路中增加更多的隱藏層或神經元)。如果方差很高，就在訓練樣本集中增加更多的資料。如果可以不受任何約束地擴大神經網路規模和訓練資料數量，那任何機器學習問題都

24.權衡模型的方差和偏差翻譯自吳恩達新書-Machine Learning Yearning

你可能以前聽過“權衡偏差和⽅差”。大多數機器學習改進方法中，有⼀些可以降低偏差但是會導致方差的上升，反之亦然。這個時候就需要在偏差和方差中進行權衡了。舉例來說，增加你的模型的規模，不管是在神經網路中增加神經元/隱藏層，還是增加輸入特徵，可以普遍減少偏差但是會

25.減少可避免的偏差方法翻譯自吳恩達新書-Machine Learning Yearning

如果你的學習演算法中的可避免偏差很高，你可以嘗試使用下面的⽅法：增加模型規模（比如神經元/層的數量）：這個方法可以減少偏差，因為這樣可以使得你的模型可以更好的擬合當前的訓練集。如果你發現使用這個方

27. 減少方差的方法翻譯自吳恩達新書-Machine Learning Yearning

如果你的學習演算法的方差很高，你可能需要嘗試下⾯的方法：、增加更多的訓練資料：只要你可以拿到更多資料，並且有足夠強計算能力，這是最簡單可靠的處理方差的方法。使用正則化(L2正則化，L1正則化，dropout)：這個方法可以減少方差，但是會增加偏差。提早

29. 將訓練錯誤率用圖形繪製出來翻譯自吳恩達新書-Machine Learning Yearning

你的開發/測試錯誤率應該會隨著訓練樣本數量的增加而減少。但是訓練錯誤率通常會隨著樣本數量的增加而增加。假設你的訓練樣本集中有兩個樣本：一張貓咪圖片和一張非貓咪圖片。這時演算法很容易就會記住這兩個樣本，從而得到0%的訓練錯誤率。即使樣本集中一個甚至兩個都標記錯誤

45.優化驗證實現的一般形式翻譯自吳恩達新書-Machine Learning Yearning

當提供一些輸入x，你知道如何通過計算分值，來衡量輸出y相對輸入x有多好時，你可以使用優化驗證測試。此外，你正在使用近似的演算法來尋找最大的得分值，但是假設搜尋演算法有時並找不到最大的得分值。我們之前說的語音識別例子中，x是一個語音片段，y是輸出的識別內容。加入

51.選擇管道元件之任務簡單化翻譯自吳恩達新書-Machine Learning Yearning

除了資料可用性以外，考慮流程中元件時，你還需要考慮一個因素：單個元件解決問題的簡單程度。你應該試著選擇那些容易構建和學習的元件。那什麼叫做元件易於學習呢？看看下面幾個機器學習任務，按難度遞增的順序排列出來：判斷圖片是否曝光過度判斷圖片是在室內拍攝的還

50.選擇管道元件之資料可用性翻譯自吳恩達新書-Machine Learning Yearning

當構建一個非端到端系統上時，演算法流程中，有哪些可以選的元件呢？如何設計演算法流程會極大的影響你的系統性能。其中非常重要的一個因素是，你能否非常輕易的為每個元件都採集到資料。比如，考慮下面這個自動駕駛的例子：你可以使用機器學習演算法檢測其他車輛和行人。這

43.人工資料合成翻譯自吳恩達新書-Machine Learning Yearning

你的語⾳識別系統需要更多聽起來在車裡錄製的語音資料。相對於收集那些在開車的時候錄製的音訊，有⼀個更簡單的方法獲取這些資料：通過人工合成數據。假設你已經獲得足夠的汽車/馬路噪音的音訊片段。你可以從多個網站上下載這些資料。如果你已經有很多安靜環境下錄製的訓練樣本

49.端到端學習的利與弊 翻譯自 吳恩達新書-Machine Learning Yearning

相關推薦

49.端到端學習的利與弊翻譯自吳恩達新書-Machine Learning Yearning