機器學習公開課筆記(10)：大規模機器學習

阿新 • • 發佈：2019-01-16

批梯度下降 (Batch Gradient Descent)

以線性迴歸為例，用梯度下降演算法進行引數更新的公式為$$\theta_j=\theta_j-\alpha\frac{1}{m}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$$可以看到每次引數更新一次，都需要將整個訓練集掃描一遍，所以稱為批梯度下降，這種更新方式對於引數集很大的集合（例如m=100,000,000）執行速度十分慢，為了加快演算法執行速度，提出了隨機梯度下降。

隨機梯度下降 (Stochastic Gradient Descent)

每次僅用一個example來更新引數$\theta$，仍以線性迴歸為例，隨機梯度下降演算法為

1. 隨機重排列整個訓練集(shuffle)

2. 重複下列過程多次(資料集較大時可以重複1~10次)

for i = 1, ..., m {
　　　$\theta_j=\theta_j-\alpha(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
}

小批梯度下降 (Mini-Batch Gradient Descent)

介於批梯度下降和隨機梯度下降之間，批梯度處理利用全部m個example進行引數更新；隨機梯度下降只用1個example進行引數更新；而Mini梯度下降使用b(1<b<m)個example進行引數更新。仍以線性迴歸為例，加入我們有m=1000個example，我們可以用每b=10個example進行引數更新，例如:

Repeat {
for i = 1, 11, 21, ..., 991 {
$\theta_j=\theta_j-\alpha\frac{1}{10}\sum\limits_{k=i}^{i+9}(h_\theta(x^{(k)})-y^{(k)})x_j^{(k)}$
}
}

演算法收斂性

批梯度處理能夠保證演算法收斂到最小值(如果選擇的學習速率$\alpha$合適的話），可以plot代價函式$J(\theta)$隨迭代次數的曲線，如果曲線是總是下降的，則能夠收斂，反之需要調整學習速率。

隨機梯度下降並不能保證演算法收斂到最小值，最終結果可能是在最小值附近來回遊走，為了觀察其收斂特性，可以plot每100(1000)次迭代時100個example代價函式函式$\text{cost}(\theta,(x^{(i)}, y^{(i)}))$的平均值，如果是下降趨勢，則可以收斂，否則可能需要調整增大或者減小平均的example數（將100改為1000或者10等），減小或者增大學習速率。

線上學習 (Online Learning)

之前的演算法都是有一個固定的訓練集來訓練模型，當模型訓練好後對未來的example進行分類、迴歸等。線上學習則不同，它對每個新來的example進行模型引數更新，因此不需要固定的訓練集，引數更新的方式則是採用隨機梯度下降。線上學習的優勢是模型引數可以隨使用者的偏好自適應的進行調整，以logistic迴歸為例，線上學習方式如下:

Repeat forever {
1. 獲取當前example (x, y)
2. 使用(x,y)進行引數更新：$\theta_j=\theta_j-\alpha(h_\theta(x)-y)x_j$
}

MapReduce和資料並行化

這部分內容Andrew Ng講得不多，可以認為僅僅講了多個機器的求和問題，比如如何求解1+2+3+...+1000？Map過程：四個機器分別計算1+2+...+250，251+252+...+500, 501+502...+750，751+752+...+1000，然後Reduce過程：將四個機器求和的結果sum1,sum2,sum3,sum4彙總到一臺機器上，計算sum1+sum2+sum3+sum4。

機器學習公開課筆記(10)：大規模機器學習

批梯度下降 (Batch Gradient Descent)

隨機梯度下降 (Stochastic Gradient Descent)

小批梯度下降 (Mini-Batch Gradient Descent)

演算法收斂性

線上學習 (Online Learning)

MapReduce和資料並行化

機器學習公開課筆記(10)：大規模機器學習

機器學習公開課筆記(6)：應用機器學習的建議

機器學習公開課筆記(8)：k-means聚類和PCA降維

機器學習公開課筆記(7)：支援向量機

機器學習公開課筆記(1)：機器學習簡介及一元線性迴歸

機器學習公開課筆記(9)：異常檢測和推薦系統

機器學習公開課筆記(5)：神經網路(Neural Network)——學習

機器學習公開課筆記(2)：多元線性迴歸

機器學習公開課筆記(4)：神經網路(Neural Network)——表示

機器學習公開課筆記第九周之大數據梯度下降算法

廣義線性模型 - Andrew Ng機器學習公開課筆記1.6

斯坦福機器學習公開課筆記十三推薦系統

【Andrew NG 機器學習公開課】CS229：Introduction、Linear Regression

斯坦福機器學習公開課筆記(十五)--[應用]照片OCR技術

斯坦福機器學習公開課筆記(十三)--推薦系統

斯坦福機器學習公開課筆記(一)--單變數線性迴歸

Andrew Ng 機器學習筆記 10 ：評價學習演算法

吳恩達機器學習公開課學習筆記（一）

從零到一學習計算機視覺：朋友圈爆款背後的計算機視覺技術與應用 | 公開課筆記...

機器學習筆記（十六）：大規模機器學習

機器學習公開課筆記(10)：大規模機器學習

批梯度下降 (Batch Gradient Descent)

隨機梯度下降 (Stochastic Gradient Descent)

小批梯度下降 (Mini-Batch Gradient Descent)

演算法收斂性

線上學習 (Online Learning)

MapReduce和資料並行化

相關推薦