斯坦福大學機器學習筆記——單變數的線性迴歸以及損失函式和梯度下降法（包含程式碼）

迴歸問題：
所謂的迴歸問題就是給定的資料集，且每個資料集中的每個樣例都有其正確的答案，通過給定的資料集進行擬合，找到一條能夠最好代表該資料集的曲線，然後對於給定的一個樣本，能夠預測出該樣本的答案（對於迴歸問題來說，最終的輸出結果是一個連續的數值）。比如，房價預測問題，最終的輸出房價是一個連續的數值。迴歸問題是監督學習的一種。
分類問題：
與迴歸問題一樣，分類問題同屬於監督學習，與之不同的是，分類問題預測的結果輸出是離散的值，比如判斷一個人得的腫瘤是良性的還是惡性的，這就是0/1離散輸出問題。
對於一個迴歸問題來說，它的一般流程為：
迴歸問題的流程
其中，h代表擬合的曲線，也稱為學習演算法的解決方案或函式或假設

。
單變數的線性迴歸是迴歸問題的一種，它的表示式為：
hθ(x)=θ0+θ1x
由於它只有一個特徵/輸入變數x，同時它擬合的曲線是一條直線，所以該問題叫做單變數線性迴歸問題。
以房價問題為例，來舉例說明迴歸問題。
這裡寫圖片描述

對於迴歸問題來說，假設的選擇是一個關鍵問題，在只有資料的情況下，如何確定h的形式？我們假設房價問題是線性迴歸，則θ0和θ1，在房價問題這個例子中便是直線的斜率和在y軸上的截距。
但是我們如何選擇引數θ0和θ1，來使得到的線性擬合更加準確呢！這裡需要引入一個代價函式（cost function），該函式的功能就是衡量了預測的結果與真正結果之間的差距。
在迴歸問題中我們一般選擇均方誤差代價函式（也叫作平方誤差代價函式）

，它是解決迴歸問題最常用的手段，該函式的表達形式如下：
J(θ0,θ1)=12m∑mi=1(hθ(xi)−yi)2
訓練的目標就是使得J(θ0,θ1)最小。
對於代價函式的理解可以通過下面一個例子加深：
迴歸問題的整個過程即為：
這裡寫圖片描述

為了方便繪圖和理解，可以對上述問題進行簡化，上述各個形式轉化為：
這裡寫圖片描述

假設有三組資料，資料分別為（1，1），（2，2），（3，3）
當θ1=0.5時，hθ(x)=0.5x，這三個點分別預測為：
（1，0.5），（2，1），（3，1.5）
則此時的損失函式的值為(（1-0.5）^2+(1-2)^2+(3-1.5)^2)/(2*3)=0.583
當θ1=1時，hθ

(x)=x這三個點分別預測為：
（1，1），（2，2），（3，3）
則此時的損失函式的值為（（1-1）^2+(2-2)^2+(3-3)^2）/(2*3)=0
以此類推，推出多個θ1值下的損失函式的值，然後繪製θ1和J(θ1)的曲線，找到使得J(θ1)取得最小值時的θ1的值。繪製的曲線為：
這裡寫圖片描述

從中可以看出當θ1=1時損失函式最小，所以h的表達形式為：
hθ(x)=x
然後對於一個待測試的樣本，最終的預測值就可以通過確定的h表示式來獲得。這就是完整的迴歸問題。

上述的問題已經將其進行了簡化，若不是簡化形式，求解形式相同，只不過原來的θ1和J(θ1)的曲線，轉化為θ0，θ1和J(θ1，θ0)曲面，代價函式的圖形模樣變成了下圖所示：
這裡寫圖片描述
我們不希望通過上述方法，編個程式把這些點繪製出來，通過人工的方法將最低點找到。在低維的情況下還可以這麼做，但是在高維更多引數的情況下，顯然上述方法是不可行的。所以，可以使用梯度下降法來實現。

梯度下降法的思想是：開始隨機選擇一個引數的組合（θ0，θ1，...,θn），計算代價函式，然後我們尋找下一個能讓代價函式下降最多的引數組合。我們持續這樣做，直到到達一個區域性最小值。由於我們沒有嘗試所有的引數組合，所以不能確定得到的結果是區域性最小值還是全域性最小值。
梯度下降法的數學定義如下：
這裡寫圖片描述
其中，α代表學習率（learning rate），它決定了沿著能讓代價函式下降程度最大方向的步長。
值得注意的是，θ0，θ1是同時更新，也就是說：

如左圖所示，為正確的更新過程，二者不同的地方在於，右圖中在求θ1的更新時，代價函式中的θ0是已經更新過的了，而左圖中的為將θ0，θ1都求過偏導之後再進行更新，代價函式中的θ0，θ1都是上一代中的值，與本次迭代更新無關。
下面舉例說明梯度下降的過程：
這裡寫圖片描述
例如上圖代表兩座山，你現在所處的位置為最上面的那一點，你想以最快的速度達到山下，你環顧360度尋找能快速下山的方向，這個過程對應於求偏導的過程，你每次移動一步，移動的步長對應於α，當你走完這一步，然後接著環顧360度，尋求最快下山的方法，然後在走出一步，重複這個過程，直到走到山下，走到山下對應於找到了區域性最小值。

下面討論一下步長α和偏導對梯度下降法的影響：
注意：下圖中討論，都是在θ0=0的簡單形式下討論的。
步長對梯度下降法的影響：
1. 當步長太小時，每次走的步子很小，導致到達最小值的速度會很慢，也就是收斂速度慢，但是能保證收斂到最小值點。
2. 當步長太大時，梯度下降法可能會越過最小值點，甚至可能無法收斂。
兩種情況的示意圖如下：

梯度對梯度下降法的影響：
以下圖為例：
這裡寫圖片描述
粉紅色的點為初始點，在此點求出導數，然後乘以學習率，更新引數θ1，到達第二個點，然後再在第二個點求導數，從斜率上明顯可以看出，第二個點的斜率明顯比第一個點的斜率低，也就是說雖然學習率固定，但是這一次更新的步長比上一次要小，以此類推，我們能夠得出一個結論，當接近區域性最低時，導數值會自動變得越來越小，所以梯度下降法會自動採用較小的幅度，這就是梯度下降的做法。所以實際上沒有必要再另外減小α。

下面我們來討論一下線性迴歸的梯度下降法：
梯度下降演算法和線性迴歸演算法如下圖所示：
這裡寫圖片描述
我們想用梯度下降演算法來最小化損失函式，關鍵問題在於求導，即：

當j=0時：

斯坦福大學機器學習筆記——單變數的線性迴歸以及損失函式和梯度下降法（包含程式碼）

斯坦福大學機器學習筆記——單變數的線性迴歸以及損失函式和梯度下降法（包含程式碼）

斯坦福大學機器學習筆記——多變數的線性迴歸以及梯度下降法注意事項（內有程式碼）

吳恩達機器學習之單變數線性迴歸實現部分

吳恩達機器學習之單變數線性迴歸理論部分

機器學習(一)——單變數線性迴歸

機器學習：單變數線性迴歸及梯度下降

機器學習之單變數線性迴歸（Linear Regression with One Variable）

吳恩達Coursera機器學習課程筆記-單變數線性迴歸

Machine Learning（Stanford）| 斯坦福大學機器學習筆記--第二週（1.多元線性迴歸及多元線性迴歸的梯度下降）

斯坦福大學機器學習筆記——異常檢測演算法（高斯分佈、多元高斯分佈、異常檢測演算法）

斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）

斯坦福大學機器學習筆記——推薦系統（協同過濾、低秩分解、推薦系統）

Machine Learning（Stanford）| 斯坦福大學機器學習筆記--第一週（1.監督學習與無監督學習的介紹）

斯坦福大學機器學習筆記——正則化的邏輯迴歸模型

斯坦福大學機器學習筆記——特徵和多項式迴歸以及正規方程

斯坦福大學機器學習筆記——邏輯迴歸、高階優化以及多分類問題

斯坦福大學機器學習筆記——機器學習系統設計（誤差分析、查全率和查準率、F1值）

吳恩達機器學習之多變數線性迴歸實現部分

吳恩達機器學習之多變數線性迴歸理論部分

機器學習筆記之四——線性迴歸原理以及推導

斯坦福大學機器學習筆記——單變數的線性迴歸以及損失函式和梯度下降法（包含程式碼）

相關推薦