吳恩達機器學習之過擬合問題

阿新 • • 發佈：2018-11-05

一、過擬合問題：———什麼是過度擬合問題？

1.1兩個例子：

例子一：　　　　　

模型假設函式

的形式：　　　　　　　　　　　　　一次函式　　　　　　　　　　　　　　　　　二次函式　　　　　　　　　　　　　　　　高階多項式

模型擬合效果：　　　　　　演算法模型沒有很好地擬合訓練集資料　　　　　　演算法模型擬合訓練集資料效果很好　　　　　　　演算法模型很好地擬合了訓練集資料

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（因為，該模型的曲線正好通過了所有的資料點）

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　但是，該曲線很扭曲

結論：　　　　　　　　　　——欠擬合/演算法有高偏差　　　　　　　　　　——剛好合適　　　　　　　　　　　　　　　　　——過擬合/演算法具有高方差

　　　　總結：過度擬合的特點

1. 過擬合將在變數的數目過多時出現。
2. 訓練出來的假設能很好地擬合訓練集中的資料——>導致，代價函式J會很小，接近於0。
3. 訓練出來的模型假設，無法泛化到新的樣本中，即：模型假設函式，無法預測新樣本的輸出值y（新樣本中房子的價格）。注：泛化：一個模型假設，應用到新樣本（沒有出現在訓練集的資料）
  
  中的能力。
4. 過擬合的假設函式，和可用的資料（訓練資料）相吻合，但是不能很好地推廣到新資料（新樣本）上面。
5. 過擬合的原因：1.模型太龐大、太複雜，引數過多，導致沒有足夠的資料去約束；2.假設函式太複雜，導致函式影象，產生了很多和資料無關的不必要的，曲線和角度。
6. 模型的變數過多，樣本少時，會發生過擬合。

　　　　例二：邏輯迴歸

　　　　　　演算法模型：　　　　　　一次函式直線　　　　　　　　　　　　　　加入二次項——>二次函式　　　　　　　　　加入許多高次項——>高階多項式函式　　　　　　　

　　　　　　假設函式：　　　　h_θ(x) = g(θ₀+ θ₁x₁+ θ₂x₂) 　　　　　h_θ(x) = g(θ₀+ θ₁x₁+ θ₂x₂+　　　　　　　　　 h_θ(x) = g(θ₀+ θ₁x₁+

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　θ₃x₁²+ θ₄x₂²+ θ₅x₁x₂)　　　　　　　　　　θ₂x₁²+ θ₃x₁²x₂+ θ₄x₁²x₂² +

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　θ₅x₁³x₂³+ θ₆x₁³x₂ + .....)

影象結果：　　　模型沒有很好地擬合訓練資料　　　　　　　　　　擬合效果比一次函式直線強　　　　　　　　模型千方百計地去找一個判定邊界，

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 去符合每一個訓練樣本

　　結論：　　　　　　欠擬合/高偏差　　　　　　　　　　　　　　　　　　剛剛好　　　　　　　　　　　　　　　過擬合/高方差

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 無法泛化到新的樣本上　　　　　　

　　　1.2如何解決過擬合問題：

　　　　1.2.1解法一：減少選取的變數（feature）的數量

　　　　　　　　方法1：人工檢查：人工檢查，變數（feature）的清單，決定哪些變數更重要，哪些變數保留，哪些變數捨棄。

　　　　　　　　方法2：模型選擇演算法：演算法自動決定哪些變數保留，哪些捨棄。

　　　　　　　　該解法的缺點：捨棄變數，會意味著，捨棄一些關於問題的資訊。

　　　　1.2.2解法二：正則化：

　　　　　　　　1：保留所有變數（feature），但是減小各個引數θ_j 的量級大小。

　　　　　　　　解法特點：當有很多特徵（feature）時，且每個feature變數對於預測結果y都有用時，我們不希望捨棄任何一個變數，正則化方法的效果很好。

二、代價函式：

　　　　　　——1.正則化，如何進行？

　　　　　　——2.當進行正則化時，需寫出代價函式。

　　2.1例三：房屋價格預測（1）

　　　　　　　　　　　　二次函式擬合　　　　　　　　　　　　　　　　　　　　高階函式擬合

　　　　　　　　 h_θ(x) =g(θ₀+ θ₁x+ θ₂x²)　　　　　　　　　　　　　　　　 h_θ(x) =g(θ₀+ θ₁x+ θ₂x²+ θ₃x³+θ₄x⁴)

　　　　　　　　　　剛剛好擬合數據　　　　　　　　　　　　　　　　　　　　過擬合（泛化差）

　　　　　　　　　解決方法：加入懲罰項，使得θ₃、θ₄值很小。

　　　　2.2正則化思想：

　　　　　　　　通過加入懲罰項，使得引數儘可能的小、儘可能地接近於0，從而使模型假設h變得更簡單，更不容易出現過擬合問題。　　

　　　　2.3例四：房屋價格預測（2）　　　　　　　　

　　　　　　有100個特徵（feature）：x₁，x₂，x₃，x₄，........，x₁₀₀　　

　　　　　　有101個引數（parameter）：θ₀，θ₁，θ₂，.........，θ₁₀₀　

　　　　　　注：與例三的區別：

　　　　　　　　　　1.例三知道所有引數中，θ₃，θ₄　是高階項引數，即：所有引數中，相關度低的引數是θ₃，θ₄　，知道要縮小的引數為θ₃，θ₄

　　　　　　　　　　2.例四中，不知道所有特徵x₁~x₁₀₀哪個是相關度低的特徵。

　　　　　　　　　　核心：例四中，不知道要縮小哪些引數的值

　　　　　　　　　　解決方案：修改代價函式J(θ)，來縮小所有的引數

　　　　　　　Q：如果例三中的λ被取值很大會怎樣？比如λ=10¹⁰

　　　　　　　A:　λ值過大——>對θ₁，θ₂，θ₃，θ₄懲罰程度過大——>θ₁，θ₂，θ₃，θ₄ ≈ 0 （θ₁，θ₂，θ₃，θ₄ 的值均接近於0）

　　　　　　　　————>

　　　　　　　　————>h(x) = θ₀

　　　　　　　　　　　　　　　　用一條水平直線去擬合數據，欠擬合

　　　　　　　　　　　　　　　　所以，為了讓正則化起到應有的效果，應該如何選取合適的J(θ)？？？

三、線性迴歸的正則化：

　　3.1正則化線性迴歸的優化目標：

　　　　　　最小化：

　　3.2梯度下降法：

　　　　　　3.2.1原始版：

　　　　　　3.1.2正則化版：

　　3.2正規方程（normal equation）：

　　　　　　　　　　　　　　注：n = 2 時，

四、邏輯迴歸的正則化：

　　4.1代價函式：

　　4.2梯度下降法：

　　4.3高階演算法優化：

　　　　　　沒搞懂。。。。。><

五、程式設計作業：

六、總結、

　　6.1

　　　　邏輯迴歸的梯度下降問題：

　　　　　　　　邏輯迴歸的，正則化的梯度下降法，引數更新，應該使用下圖這兩個公式：

　　　　6.2

　　　　　　使用梯度下降法時，監測梯度下降法是否正確工作的方法：

　　　　　　　　　　　　　　　　　　畫圖，畫出作為迭代次數的函式的梯度影象，確保它是遞減的即可。

吳恩達機器學習之過擬合問題

一、過擬合問題：———什麼是過度擬合問題？ 1.1兩個例子：例子一：　　　　　　　　　　　　　　　　　　　　　　模型假設函式的形式：　　　　　　　　　　　　　一次函式　　　　　　　　　　　　　　　　　二次函式　　　　　　　　　　　　　　　　高階多項式模型擬合效果：　　　　

吳恩達機器學習之聚類演算法的引數選擇以及優化

對於K（k<樣本量的）均值聚類，一般引數的自定義主要有兩個，一個是聚類中心初始位置的選擇，二是K值的選擇優化目標：每個樣本點到該點聚類中心的平方的累加解決聚類中心的初始化問題：隨機挑選樣本點作為聚類中心，這個過程重複50-1000次，選出J值最低的（通常K值為2-10的時候

吳恩達機器學習之邏輯迴歸理論部分

一.特徵函式對應分類問題，我們先針對二分類問題進行討論，對應計算機而言，分類即將資料按其特徵值不同分為不同的集合，僅對應二分類問題，我們只需考慮分為：正類和負類，為此我們引入特徵函式。 y=1 — 代表二分類中的正類 y=0 — 代表二分類中的反類這是特殊函式

吳恩達機器學習之多變數線性迴歸實現部分

C++實現梯度下降法 “linear_regression.h” //多變數線性迴歸模型 struct elem_var2 { double y; double* x; //用陣列傳入自變數資料(x[0]=1,便於之後的計算) }; class var2

吳恩達機器學習之多變數線性迴歸理論部分

本部落格主要參考此部落格：戀雨心一.Multiple Features — 多維特徵相對於單變數線性迴歸模型，多變數線性迴歸模型適用於處理多個變數/特徵。對比：以之前我們介紹的單變數線性迴歸模型為例：用房屋面積x預測房子價格y。現在我們對房價模型增加更多的特徵，例如房間

吳恩達機器學習之單變數線性迴歸實現部分

C++實現程式碼實現 “linear_regression.h” //單變數線性迴歸模型 struct elem_var1 { double x, y; //訓練集元素資料：自變數、因變數 }; class var1_lin_reg { p

吳恩達機器學習之單變數線性迴歸理論部分

理論部分 1.方程形式在進行資料處理過程中，有時資料影象可擬合成單變數線性函式，即 2.如何擬合此時，我們雖知道擬合函式的形式，但如何擬合仍是個問題，怎樣擬合可以最接近實際資料情況呢？最小二乘法此時我們引入代價函式這個概念代價函式接下來我們來分析如何

吳恩達機器學習之最優間隔分類器

最優間隔分類器定義目標函式: hw,b=g(wTx+b)，g(z)={10z≥0z<0，y∈{−1,1} 定義函式間隔： Υ−i=yi(wTxi+b) 定

機器學習之過擬合欠擬合

機器學習之過擬合，欠擬合過擬合現象是指當我們能夠提高訓練集上的表現時，然而測試集的表現很差，例如在深度學習中經常訓練集達到99以上而資料集卻在50,60左右明顯過擬合，此時就要想辦法阻止過擬合，過擬合也成為過配。過擬合發生的本質原因，是由於監督學習問題的不適定：在高中數學我們知道，從n個

機器學習之過擬合的解決方法

過擬合過擬合，是指模型在訓練集上表現的很好，但是在交叉驗證集合測試集上表現一般，也就是說模型對未知樣本的預測表現一般，泛化（generalization）能力較差。一般防止過擬合的方法有early stopping、資料集擴增（Data augmen

吳恩達機器學習（五）正則化（解決過擬合問題）

目錄 0. 前言學習完吳恩達老師機器學習課程的正則化，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。 0. 前言在分類或者回歸時，通常存在兩個問題，“過擬合”（overfitting）和“欠擬合”（underfitting）. 過擬

吳恩達-機器學習(3)-分類、邏輯迴歸、多分類、過擬合

文章目錄 Classification and Representation Classification Hypothesis Representation Decision Boundary

演算法工程師修仙之路：吳恩達機器學習（九）

吳恩達機器學習筆記及作業程式碼實現中文版神經網路引數的反向傳播演算法代價函式假設神經網路的訓練樣本有 m

演算法工程師修仙之路：吳恩達機器學習（八）

吳恩達機器學習筆記及作業程式碼實現中文版第六章神經網路學習特徵和直觀理解從本質上講，神經網路能夠通過學習得出其自身的一系列特徵。神經網路中，單層神經元（無中間層）的計算可用來表示邏輯運算，比如邏輯與(AND)、邏輯或(OR)。邏輯

演算法工程師修仙之路：吳恩達機器學習（七）

吳恩達機器學習筆記及作業程式碼實現中文版第六章神經網路學習非線性假設無論是線性迴歸還是邏輯迴歸都有這樣一個缺點：當特徵太多時，計算的負荷會非常大。使用非線性的多項式項，能夠幫助我們建立更好的分類模型。假設我們有非常多的特徵，例如大於 100 個

演算法工程師修仙之路：吳恩達機器學習（六）

吳恩達機器學習筆記及作業程式碼實現中文版第五章正則化過擬合問題線性迴歸和邏輯迴歸能夠有效地解決許多問題，但是當將它們應用到某些特定的機器學習應用時，會遇到過擬合(over-fitting)的問題，可能會導致它們效果很差。正則化(regulari

演算法工程師修仙之路：吳恩達機器學習（五）

吳恩達機器學習筆記及作業程式碼實現中文版第四章 Logistic迴歸簡化代價函式與梯度下降邏輯迴歸的代價函式： C

演算法工程師修仙之路：吳恩達機器學習（四）

吳恩達機器學習筆記及作業程式碼實現中文版第四章 Logistic迴歸分類在分類問題中，要預測的變數y是離散的值，邏輯迴歸 (Logistic Regression) 演算法是目前最流行使用最廣泛的一種學習演算法。在分類問題中，我們嘗試預測的是結果

演算法工程師修仙之路：吳恩達機器學習作業（一）

吳恩達機器學習筆記及作業程式碼實現中文版第一個程式設計作業：單變數線性迴歸（python程式碼實現）一元線性迴歸問題描述在本練習的這一部分中，您將使用只有單變數的線性迴歸方法預測餐車的利潤。假設你是一家連鎖餐廳的執行長，正在

演算法工程師修仙之路：吳恩達機器學習（三）

吳恩達機器學習筆記及作業程式碼實現中文版第三章多變數線性迴歸多維特徵現在我們對房價模型增加更多的特徵，例如房間數樓層等，構成一個含有多個變數的模型，模型中的特徵為

吳恩達機器學習之過擬合問題

相關推薦