1. 程式人生 > >吳恩達機器學習訓練祕籍整理二十到二十七章(三)

吳恩達機器學習訓練祕籍整理二十到二十七章(三)

第二十章:

偏差和方差:誤差的兩大來源

你的貓識別器在開發集上的錯誤率是16%,訓練集上的錯誤率是15%。

偏差:在訓練集上的錯誤率。15%

方差:開發集上的表現比訓練集差多少。16%-15%=1%

總誤差  = 偏差+方差 = 16%

第二十一章:

通過偏差和方差來定義欠擬合和過擬合

訓練集錯誤率:1%

開發集錯誤率:11%

方差為:10%

訓練集誤差低,開發集誤差高。這就是過擬合。

 

訓練集錯誤率:15%

開發集錯誤率:16%

方差為:1%

訓練集和開發集誤差都很高。這就是欠擬合。

 

訓練集錯誤率:0.5%

開發集錯誤率:1%

方差為:0.5%

訓練集合開發集誤差都很低。擬合的很好。

第二十二章:

假設在一個語音設別演算法中有14%的語音片段聲音嘈雜即使是人類也無法識別。假設我們的演算法:

訓練集錯誤率:15%

開發集錯誤率:30%

那麼:

最優錯誤率(‘不可避免偏差’):14%    即使是世界上最好的語音系統,仍會有 14% 的誤差。

可避免偏差:15%-14%=1%  即訓練錯誤率和最優誤差率之間的差值。

方差:15%  即開發錯誤和訓練錯誤之間的差值。

最優錯誤率也被稱為貝葉斯錯誤率(Bayes error rate)

,或貝葉斯率。

第二十三章:

如何處理偏差和方差

處理偏差(主要是欠擬合):加深網路結構,L2正則化,BN層等等

處理方差(主要是過擬合):增加資料集,dropout,正則化等等

第二十四章:

偏差和方差之間的權衡。

第二十五章:

避免偏差的技術:

1.加深網路結構

2.減少或者去除正則化

3.根據誤差分析來修改輸入特徵

4.修改模型結構

第二十六章:

訓練集誤差分析

訓練資料上進行誤差分析,處理方式類似於在開發集上設定一個 Eyeball 開發集。當你的演算法有著高偏差時(例如演算法沒有很好擬合訓練集的時候)這將有所幫助。

第二十七章:

減少方差的技術:

1.增加訓練資料

2.加入正則化

3.加入提前終止

4.減少輸入特徵的數量和種類

5.減小模型規模