線性迴歸及梯度下降演算法詳解

阿新 • • 發佈：2019-01-12

一、線性迴歸問題
迴歸最簡單的定義是，給出一個點集D，用一個函式去擬合這個點集，並且使得點集與擬合函式間的誤差最小，如果這個函式曲線是一條直線，那就被稱為線性迴歸，如果曲線是一條二次曲線，就被稱為二次迴歸。
總的來說，迴歸的目的就是建立一個迴歸方程用來預測目標值，迴歸的求解就是求這個迴歸方程的迴歸係數。預測的方法當然十分簡單，迴歸係數乘以輸入值再全部相加就得到了預測值。
下面以一元線性迴歸為例來解釋線性迴歸的概念，下圖1為某地區的房屋面積(feet)與價格的一個數據集，在該資料集中，只有一個自變數面積(feet)，和一個因變數價格，所以我們可以將資料集呈現在二維空間上，如圖2所示。利用該資料集，我們的目的是訓練一個線性方程，無限逼近所有資料點，然後利用該方程與給定的某一自變數（本例中為面積），可以預測因變數（本例中為房價）。本例中，訓練所得的線性方程如圖3所示。

線性迴歸的目的就是找到預測效能最好的線性方程：

如果再在該案例中增添了一個自變數：房間數，資料集如下所示：

此時，預測效能最好的線性方程應為如下所示：

因此，無論是一元線性方程還是多元線性方程，可統一寫成如下的格式：

因為引數只有θ，所以找到預測效能最好的線性方程換言之也就是找到最好的θ值，從而使得線性方程的預測最好。那麼我們該如何評估線性函式h(x)的好壞呢，這時候我們引入損失函式(loss function)的概念，用它來評估線性函式的好壞。

損失函式J(θ)也就是對每個樣本x(i)的估計值與真實值y(i)差的平方進行求和，得到整個樣本預測的值跟真實值之間的差距和損失，現在找最優的線性方程的問題可轉化為求解損失函式J(θ)的最小值。
如何調整θ以使得J(θ)取得最小值有很多方法，其中有最小二乘法(min square)和梯度下降法(Gradient Descent)。下面詳細講解梯度下降法。

二、梯度下降法
由上可知，原始問題已轉化成求解J(θ)的最小值，也就是求解得到J(θ)取得最小值時θ₀，θ₁ … θ_n的值。這裡採用梯度下降的方法來進行相應值的求解，找到損失函式的最小值。
我們先來看一張圖來理解梯度下降的概念：

上圖黑線即為梯度下降的走勢，在給定初始點開始向下走，往最低的點一步一步向下進行，直到找到最小點。但是這裡存在一個問題，初始點選擇不好有可能導致梯度下降的最終點不是全域性最小點，而是一個區域性最小點，如上圖紫色線所示，最終得到的值是一個區域性最小點。
但是對於損失函式J(θ)為凸函式的情況，就不會存在上面的問題，它只有一個全域性最優解，如下圖所示：

所以由上可知，梯度下降的原理可以形象表示為：比如我們在一座大山上的某處位置，由於我們不知道怎麼下山，於是決定走一步算一步，也就是在每走到一個位置的時候，求解當前位置的梯度，沿著梯度的負方向，也就是當前最陡峭的位置向下走一步，然後繼續求解當前位置梯度，向這一步所在位置沿著最陡峭最易下山的位置走一步。這樣一步步的走下去，一直走到覺得我們已經到了山腳。當然這樣走下去，有可能我們不能走到山腳，而是到了某一個區域性的山峰低處。
所以對於梯度下降法，它的主要步驟如下：
(1) 先確定向下一步的步伐大小，我們稱為學習率α；
(2) 任意給定一個初始值：；
(3) 確定一個向下的方向，並向下走預先規定的步伐，並更新θ值；
(4) 當下降的高度小於某個定義的值ε，則停止下降。
它的核心演算法可以用下面一張圖來概括：

具體來說就是，α為學習率，決定了下降的步伐大小；損失函式J(θ)關於θ的偏導數決定了下降的方向；當損失函式J(θ)收斂時，停止更新θ的值。
最後強調一下，梯度下降的步伐大小（即學習率α）非常重要，因為如果太小，會使得找到損失函式最小值的速度變得很慢，如果α太大，則有可能會出現跳過最優的現象，從而找不到損失函式的最優解。在實際應用中，若損失函式的值不斷變大，則有可能是步長速率a太大，導致演算法不收斂，這時可適當調整a值。

三、梯度下降演算法的優化除錯
3.1、演算法的步長選擇
實際上，步長的取值取決於資料樣本，可以多取一些值，從大到小，分別執行演算法，看看迭代效果，如果損失函式在變小，說明取值有效，否則要增大步長。前面說了。步長太大，會導致迭代過快，甚至有可能錯過最優解。步長太小，迭代速度太慢，很長時間演算法都不能結束。所以演算法的步長需要多次執行後才能得到一個較為優的值。
3.2、引數初始值的選擇
初始值不同，獲得的最小值也有可能不同，因此梯度下降求得的只是區域性最小值；當然如果損失函式是凸函式則一定是最優解。由於有區域性最優解的風險，需要多次用不同初始值執行演算法，關鍵損失函式的最小值，選擇損失函式最小化的初值。
3.3、歸一化
由於樣本不同特徵的取值範圍不一樣，可能導致迭代很慢，為了減少特徵取值的影響，可以對特徵資料歸一化，也就是對於每個特徵x，求出它的平均值mean(x)、最大值max和最小值min，然後轉化為： [x-mean(x)]/(max-min)。

線性迴歸及梯度下降演算法詳解

線性迴歸及梯度下降演算法詳解

《機器學習實戰》學習筆記（四）之Logistic（上）基礎理論及演算法推導、線性迴歸，梯度下降演算法

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

吳恩達機器學習課程筆記02——處理房價預測問題（梯度下降演算法詳解）

機器學習入門線性迴歸及梯度下降

線性迴歸、梯度下降演算法與 tensorflow

機器學習入門：線性迴歸及梯度下降（附matlab程式碼）

機器學習：單變數線性迴歸及梯度下降

【機器學習詳解】線性迴歸、梯度下降、最小二乘的幾何和概率解釋

梯度下降與隨機梯度下降概念詳解及推導過程

邏輯迴歸梯度下降法詳解

Machine Learning（Stanford）| 斯坦福大學機器學習筆記--第二週（1.多元線性迴歸及多元線性迴歸的梯度下降）

第一個機器學習演算法：線性迴歸與梯度下降

線性迴歸和梯度下降講解與程式碼

【機器學習】梯度下降法詳解

Tensorflow環境下線性迴歸（梯度下降）的練手例項（完整原始碼+說明）

機器學習--吳恩達（線性迴歸，梯度下降，正規方程法）

斯坦福大學機器學習筆記——多變數的線性迴歸以及梯度下降法注意事項（內有程式碼）

【機器學習】【線性迴歸】梯度下降的三種方式(BGD+SGD+MSGD)以及三種調優方法(加快收斂速度)

線性迴歸與梯度下降

線性迴歸及梯度下降演算法詳解

相關推薦