第一次寫部落格，好激動啊，哈哈。之前看了許多東西但經常是當時花了好大功夫懂了，但過一陣子卻又忘了。現在終於決定追隨大牛們的腳步，試著把學到的東西總結出來，一方面梳理思路，另一方面也作為備忘。接觸機器學習不久，很多東西理解的也不深，文章中難免會有不準確和疏漏的地方，在這裡和大家交流，還望各位不吝賜教。
　　先從基礎的開始寫起吧。這是學習Andrew Ng的課程過程中的一些筆記，慢慢總結出來和大家交流。
　　（又加了一部分代價函式的概率解釋——2016.4.10）

房價預測問題

　　還是經典的預測房價的例子。假如我們收集了這麼一組資料，描述了某一地區房子大小與價格的資訊：
這裡寫圖片描述
　　我們把它在座標系中畫出來，就是這個樣子：

　　好了，現在問題來了，如今樓市價格突飛猛進，而你剛剛蒐集了一些這個地區其它房子的面積資訊，並想要以此預測一下它們的價格，你該怎麼做？
　　為了表述清晰，我們先來約定一下符號表示。我們用x(i)表示輸入變數（也就是房子的大小），這也被稱作特徵。y(i)表示輸出，或者叫目標變數，也就是我們想要預測的變數（價格）。這麼一對輸入輸出(x(i),y(i))被稱作訓練樣本，我們用來學習預測方法的資料集包含了m個訓練樣本，它們被稱作訓練集。注意，這裡的上標(i)與冪沒有半毛錢關係，它只是代表了訓練集中樣本的編號或索引（index）。
　　我們用X和Y分別表示輸入和輸出的變數空間。在上面的房價預測問題中，輸入和輸出變數都是一維的，因此我們有X

=Y=R。
　　好了，說完這些繁瑣的符號，我們回到房價預測的問題上。我們來理一下思路，為了能夠對一個新的樣本進行預測，我們首先要從已有的樣本中發現其中的“規律”，然後把這個“規律”應用到新的樣本中，我們就可以得到一個預測。好了，我們的目標就很明確了，我們首先要根據訓練集學習一個函式h:X→Y，它把輸入變數從空間X對映到空間Y，得到輸出變數。由於歷史的原因，人們常常把函式h稱為假設（hypothesis）。這裡，我們的訓練樣本都是有標籤的，也就是我們的訓練樣本包含了x和y，這被稱為有監督學習。還有另外一種情況，訓練樣本是無標籤的，也就是隻包含x，被稱為無監督學習。下面這張圖說明了我們的預測流程：
　　這裡寫圖片描述

　　如果我們要預測的變數是連續的，就像上面的房價問題，那麼我們稱這種學習問題為迴歸（regression）問題，如果是離散的（比如我們想要預測這是一個別墅還是公寓），那就被稱為分類（classification）問題。

線性迴歸

　　實際上我們收集到的房子的特徵可能不止一個，假設我們又收集到了有關房屋臥室數量的資訊，顯然這也會對房子的價格有影響。好，我們的表格就變成了這樣：
　　這裡寫圖片描述
　　現在，x就是一個二維的向量了，x∈R2. 現在，我們假設函式h是x的線性函式：
　　　　　　　　　　(1)
　　
　　θi是線性函式的引數（也叫權值），大家發現上式多了一項θ0，它是x0的係數，我們習慣上令x0=1，這被稱為截距項。上式寫為向量形式：
　　這裡寫圖片描述　　　　　　　　　　(2)
　　
　　這裡我們省略了h的下標θ。

梯度下降法

　　有了線性模型，我們現在的任務就是想辦法求出h(x)，也就是求出引數θ。我們對假設函式h(x)有什麼要求呢？當然是希望它能儘量準確地預測出y的值。換句話說，對於訓練集中的樣本，我們希望選取的θ滿足使h(x)的輸出與y的距離儘可能地小。於是我們可以定義如下的代價函式：
　　這裡寫圖片描述　　　　(3)
　　注意，這個代價函式是θ的函式，因為我們現在的任務是尋找θ，使預測誤差最小。
那我們怎麼才能找到使J(θ)最小的θ呢？想象一下，如果你站在一個山谷的某個坡上，你怎樣才能最快到達山谷的谷底呢？當然是沿山坡下降最快的方向走下去。對！我們的最小化J(θ)的思路和這簡直一毛一樣！我們首先隨機初始化θ的值，也就是我們先猜θ的值，對不對沒關係，反正都是猜的，然後我們一步步地向使J(θ)最小的方向更新。使J(θ)最小的方向是什麼？當然是它的梯度的反方向啊！好了，現在目標已經很明確了，我們要做的就是這樣：
　　這裡寫圖片描述　　　　　　　　　　　(4)
　　注意，這裡的:=是賦值的意思。這個更新過程要對每一個j都過一遍。α是學習速率，它表示你每一步更新的幅度有多大，就相當於你下山時每一步邁多大一樣。好，我們現在來求等式右邊的梯度吧。為了簡便起見，我們先考慮只有一個訓練樣本的情況，這樣我們就可以省略式(3)中的求和符號了：
　　這裡寫圖片描述　　　(5)
　　把式(5)代入式(4)我們就得到了更新規則：
　　　　　(6)
　　這個規則稱為LMS更新規則(least mean squares)，或者叫Widrow-Hoff learning rule。這個規則看起來也很直觀：如果假設和樣本偏差很小時我們就更新地幅度小一點，反之更新地幅度就大一點。
　　上面的LMS規則是針對單個樣本的，我們有兩種方法把它擴充套件到多個訓練樣本。一種是直接把單個樣本代價函式的梯度換為多個樣本代價函式的梯度。由於多個樣本的代價函式是單個樣本代價函式的線性加和，所以其梯度也是單個樣本代價函式的梯度的加和，我們把它替換之後就得到如下演算法：
　　這裡寫圖片描述
　　這種方法每次更新都遍歷訓練集中所有的樣本，以它們的預測誤差之和為依據更新，所以被稱為batch gradient descent。其實梯度下降法是有可能收斂於一個區域性最小值的，但是我們這裡的線性迴歸問題只有一個全域性最優解，不存在區域性最小值，所以如果學習速率α不是過大，梯度下降法總是能夠收斂。實際上，J(θ)是一個凸的平方函式。
　　上面講的是batch gradient descent，還有另外一種梯度下降演算法，效果也很好，叫做stochastic gradient descent (也叫incremental gradient descent)，如下：
　　這裡寫圖片描述
　　這種方法中我們同樣也要遍歷整個訓練集，但和batch gradient descent不同的是，我們每次只使用單個訓練樣本來更新α，依次遍歷訓練集，而不是一次更新中考慮所有的樣本。當訓練樣本數m很大時，batch gradient descent的每次更新都會是計算量很大的操作，而stochastic gradient descent 可以利用單個訓練樣本立即更新，因此stochastic gradient descent 通常是一個更快的方法。但stochastic gradient descent 也有一個缺點，那就是它的α可能不會收斂於最小值，而是在最小值附近振盪，但在實際中也都會得到一個足夠好的近似。或者更通常的情況是，我們不用固定的學習速率，而是讓它隨著演算法的執行逐漸減小到零，也就是在接近“谷底”的時候慢慢減小下降的“步幅”，換成用“小碎步”走，這樣它就更容易收斂於全域性最小值而不是圍繞它振盪了。基於這些原因，特別是當訓練集很大時，人們更加傾向於使用stochastic gradient descent。

代價函式的概率解釋

　　現在我們來討論一下為什麼我們選擇這樣的代價函式J。線性迴歸的代價函式看起來非常直觀：我們希望最小化預測值與訓練集中實際值之差的平方。這裡面其實也是可以從概率的角度來解釋的。
　　我們首先假設目標變數和輸入之間有這樣的關係：
　　

y(i)=θTxi+ϵ(i)
　　ϵ(i)代表了沒有被線性模型捕捉到的一些因素的影響，比如一些我們沒有發現的影響房價的潛在特徵啊，隨機噪聲啊（甚至是賣房子的人當時開不開心啊（哈哈，不要在意這些細節））。我們假設ϵ(i)是獨立同分布的（independently and identically distributed，IID），它們符合高斯分佈（Gaussian distribution）（也叫正態分佈，Normal distribution），寫作ϵ(i)∼N(0,σ2)，其中σ2是方差，均值為零，它的密度函式為：
p(ϵ(i))=12π−−√σexp(−ϵ(i)2σ2).
注意，這個ϵ代表了y和x的線性模型之間的差，它符合高斯分佈，也就是說線上性模型（由引數θ控制）確定的情況下，給定x(i)，y(i)的條件分佈是這樣的：
p(y(i)|(x(i);θ)=12π−−√σexp(−(y(i)−

梯度下降法（Gradient Descent）

房價預測問題

線性迴歸

梯度下降法

代價函式的概率解釋

吳恩達深度學習筆記（8）-重點-梯度下降法（Gradient Descent）

高斯混合模型（GMM model）以及梯度下降法（gradient descent）更新引數

梯度下降法（Gradient Descent）

機器學習與高數：梯度（Gradient）與梯度下降法（Gradient Descent）

梯度下降演算法（Gradient descent）

梯度下降算法（gradient descent）

批梯度下降法(Batch Gradient Descent )，小批梯度下降 (Mini-Batch GD)，隨機梯度下降 (Stochastic GD)

斯坦福大學機器學習筆記——單變數的線性迴歸以及損失函式和梯度下降法（包含程式碼）

批量梯度下降法（Batch Gradient Descent）

隨機梯度下降法（Stochastic Gradient Descent）和批量梯度下降法（Batch Gradient Descent ）總結

學習筆記13：隨機梯度下降法（Stochastic gradient descent, SGD）

機器學習筆記——梯度下降（Gradient Descent）

機器學習1：梯度下降（Gradient Descent）

機器學習3- 梯度下降（Gradient Descent）

【吳恩達機器學習筆記】005 梯度下降（Gradient Descent）

機器學習(7)--梯度下降法（GradientDescent）的簡單實現

梯度下降法（上升法）的幾何解釋

機器學習金典演算法（二）--梯度下降法（2）

梯度下降法（GD,SGD,Mini-Batch GD）線上性迴歸中的使用

（3）梯度下降法Gradient Descent

梯度下降法（Gradient Descent）

房價預測問題

線性迴歸

梯度下降法

代價函式的概率解釋

相關推薦