coursera-斯坦福-機器學習-吳恩達-筆記week3
1 邏輯回歸
1. classification 分類
eg:垃圾郵件分類、交易是否是欺詐、腫瘤類別。分類的結果是離散值。
2. sigmoid函數
使用線性方法來判斷分類問題,會出現上圖中的問題,需要人工判斷分界點。有些特殊的樣本點,也會使得分界點發生漂移,影響準確性。我們希望我們的分類器輸出範圍在0~1之間,此時分類問題轉化為邊界問題。sigmoid函數能保證數據在0~1之間,並且越趨近於無窮大,輸出趨近於1。
假設函數預測的是對於輸入x,輸出為1的概率。
3. cost function
如果代價函數依然采用平方誤差函數,得到的是一個non-convex函數,此時梯度下降無法保證收斂得到全局最優值。因此我們用另一種方式表示cost function,使它作為convex函數,易於求解。
如果把代價函數定義為上述形式,當真實的值是1時,我們預測的值越靠近1,cost的值越小,誤差越小。如果真實值是0,那麽預測的值越靠近1,cost的值越大。
簡化公式:
4. 梯度下降
一般形式:
計算微分部分得到:
5. 高級優化方法
“共軛梯度Conjugate gradient”,“BFGS”和“L-BFGS” 是可以用來代替梯度下降來優化θ的更復雜,更快捷的方法。
都是求J函數和偏導數,然後進行優化。後三個算法優點:都不需要手動選擇學習率阿爾法(他們有內部循環,線性搜索算法,可以自動嘗試學習率,並選擇最好的學習率);它們的收斂速度往往比梯度下降要快。缺點:更復雜
6. 多分類問題
可以理解為采用多個Losgistic分類器進行分類,針對每個樣本點進行一次預測,選擇概率值最大的那個。
2 正則化
1. 過擬合
圖一 欠擬合,高偏差。圖三 過擬合,高方差。
2 解決方法
1. 減少特征的數量,可以通過一些特征選擇的方法進行篩選。
2. 正則化,通過引入一個正則項,限制參數的大小。
3 正則化用於線性回歸
4 正則化用於邏輯回歸
比如下面的曲線,針對高次項的參數,在後面多加一項乘以1000。這樣在優化損失函數的時候,會強制θ3和θ4不會很大,並且趨近於0,只有這樣才會保證損失函數的值足夠小。
得到的公式如下,註意只會針對x1開始,θ0相當於只是針對偏置項設置的,因此不需要加正則項。
但是如果λ設置的過大,相當於所有的θ都變成了0,損失函數的曲線相當於一條直線,就沒有任何意義了,因此選擇適合的λ很重要,後面也會講解如何選擇正確的λ。
5 梯度下降
添加正則項之後,梯度下降的公式就發生了變化:
coursera-斯坦福-機器學習-吳恩達-筆記week3