1. 程式人生 > >coursera-斯坦福-機器學習-吳恩達-筆記week3

coursera-斯坦福-機器學習-吳恩達-筆記week3

發生 足夠 bfgs clas 方法 技術 影響 限制 分享

1 邏輯回歸

1. classification 分類

eg:垃圾郵件分類、交易是否是欺詐、腫瘤類別。分類的結果是離散值。

2. sigmoid函數

技術分享圖片

  使用線性方法來判斷分類問題,會出現上圖中的問題,需要人工判斷分界點。有些特殊的樣本點,也會使得分界點發生漂移,影響準確性。我們希望我們的分類器輸出範圍在0~1之間,此時分類問題轉化為邊界問題。sigmoid函數能保證數據在0~1之間,並且越趨近於無窮大,輸出趨近於1。
技術分享圖片

假設函數預測的是對於輸入x,輸出為1的概率。

3. cost function

如果代價函數依然采用平方誤差函數,得到的是一個non-convex函數,此時梯度下降無法保證收斂得到全局最優值。因此我們用另一種方式表示cost function,使它作為convex函數,易於求解。
技術分享圖片

技術分享圖片

如果把代價函數定義為上述形式,當真實的值是1時,我們預測的值越靠近1,cost的值越小,誤差越小。如果真實值是0,那麽預測的值越靠近1,cost的值越大。

簡化公式:

技術分享圖片
4. 梯度下降

一般形式:

技術分享圖片

計算微分部分得到:
技術分享圖片

5. 高級優化方法

“共軛梯度Conjugate gradient”,“BFGS”和“L-BFGS” 是可以用來代替梯度下降來優化θ的更復雜,更快捷的方法。
都是求J函數和偏導數,然後進行優化。後三個算法優點:都不需要手動選擇學習率阿爾法(他們有內部循環,線性搜索算法,可以自動嘗試學習率,並選擇最好的學習率);它們的收斂速度往往比梯度下降要快。缺點:更復雜

6. 多分類問題

技術分享圖片

可以理解為采用多個Losgistic分類器進行分類,針對每個樣本點進行一次預測,選擇概率值最大的那個。

2 正則化

1. 過擬合

技術分享圖片
圖一 欠擬合,高偏差。圖三 過擬合,高方差。
2 解決方法
1. 減少特征的數量,可以通過一些特征選擇的方法進行篩選。
2. 正則化,通過引入一個正則項,限制參數的大小。

3 正則化用於線性回歸

4 正則化用於邏輯回歸

比如下面的曲線,針對高次項的參數,在後面多加一項乘以1000。這樣在優化損失函數的時候,會強制θ3和θ4不會很大,並且趨近於0,只有這樣才會保證損失函數的值足夠小。

技術分享圖片

得到的公式如下,註意只會針對x1開始,θ0相當於只是針對偏置項設置的,因此不需要加正則項。

技術分享圖片

但是如果λ設置的過大,相當於所有的θ都變成了0,損失函數的曲線相當於一條直線,就沒有任何意義了,因此選擇適合的λ很重要,後面也會講解如何選擇正確的λ。
5 梯度下降

添加正則項之後,梯度下降的公式就發生了變化:
技術分享圖片

coursera-斯坦福-機器學習-吳恩達-筆記week3