深度學習反向傳播---隨機梯度下降法

阿新 • • 發佈：2019-02-04

一、誤差準則函式與隨機梯度下降：

數學一點將就是，對於給定的一個點集（X，Y），找到一條曲線或者曲面，對其進行擬合之。同時稱X中的變數為特徵（Feature)，Y值為預測值。

如圖：

一個典型的機器學習的過程，首先給出一組輸入資料X，我們的演算法會通過一系列的過程得到一個估計的函式，這個函式有能力對沒有見過的新資料給出一個新的估計Y，也被稱為構建一個模型。

我們用X1、X2...Xn 去描述feature裡面的分量，用Y來描述我們的估計，得到一下模型：

我們需要一種機制去評價這個模型對資料的描述到底夠不夠準確，而採集的資料x、y通常來說是存在誤差的（多數情況下誤差服從高斯分佈），於是，自然的，引入誤差函式：

關鍵的一點是如何調整theta值，使誤差函式J最小化。J函式構成一個曲面或者曲線，我們的目的是找到該曲面的最低點：

假設隨機站在該曲面的一點，要以最快的速度到達最低點，我們當然會沿著坡度最大的方向往下走（梯度的反方向）

用數學描述就是一個求偏導數的過程：

這樣，引數theta的更新過程描述為以下：

（α表示演算法的學習速率）

二、不同梯度下降演算法的區別：

梯度下降：梯度下降就是我上面的推導，要留意，在梯度下降中，對於的更新，所有的樣本都有貢獻，也就是參與調整.其計算得到的是一個標準梯度。因而理論上來說一次更新的幅度是比較大的。如果樣本不多的情況下，當然是這樣收斂的速度會更快啦~
隨機梯度下降：可以看到多了隨機兩個字，隨機也就是說我用樣本中的一個例子來近似我所有的樣本，來調整，因而隨機梯度下降是會帶來一定的問題，因為計算得到的並不是準確的一個梯度，容易陷入到區域性最優解中
批量梯度下降：其實批量的梯度下降就是一種折中的方法，他用了一些小樣本來近似全部的，其本質就是我1個指不定不太準，那我用個30個50個樣本那比隨機的要準不少了吧，而且批量的話還是非常可以反映樣本的一個分佈情況的。

三、演算法實現與測試：

通過一組資料擬合 y = theta1*x1 +theta2*x2

#Python 3.3.5
import random
# matrix_A 訓練集
matrix_A = [[1

,4], [2,5], [5,1], [4,2]]
Matrix_y = [19,26,19,20]
theta = [2,5]
#學習速率
leraing_rate = 0.005
loss = 50
iters = 1
Eps = 0.0001
#隨機梯度下降
while loss>Eps and iters <1000 :
loss = 0
i = random.randint(0, 4)
h = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1]
theta[0] = theta[0] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][0]
theta[1] = theta[1] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][1]
Error = 0
Error = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1] - Matrix_y[i]
Error = Error*Error
loss = loss +Error
iters = iters +1
print ('theta=',theta)
print ('iters=',iters)
"""
#梯度下降
while loss>Eps and iters <1000 :
loss = 0
for i in range(4):
h = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1]
theta[0] = theta[0] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][0]
theta[1] = theta[1] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][1]
for i in range(4):
Error = 0
Error = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1] - Matrix_y[i]
Error = Error*Error
loss = loss +Error
iters = iters +1
print ('theta=',theta)
print ('iters=',iters)
"""
"""
#批量梯度下降
while loss>Eps and iters <1000 :
loss = 0
sampleindex = random.sample([0,1,2,3],2)
for i in sampleindex :
h = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1]
theta[0] = theta[0] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][0]
theta[1] = theta[1] + leraing_rate*(Matrix_y[i]-h)*matrix_A[i][1]
for i in sampleindex :
Error = 0
Error = theta[0]*matrix_A[i][0] + theta[1]*matrix_A[i][1] - Matrix_y[i]
Error = Error*Error
loss = loss +Error
iters = iters +1
print ('theta=',theta)
print ('iters=',iters)
"""

求解結果：

>>>
theta= [2.9980959216157945, 4.001522800837675]
iters= 75

但如果對輸入資料新增一些噪聲

matrix_A = [[1.05,4], [2.1,5], [5,1], [4,2]]

求解結果為：

>>>
theta= [3.0095950685197725, 3.944718521027671]
iters= 1000

可見在有噪聲的情況下，要及時調整模型誤差精度、迭代次數上限，一期達到我們的需求。

深度學習反向傳播---隨機梯度下降法

一、誤差準則函式與隨機梯度下降：數學一點將就是，對於給定的一個點集（X，Y），找到一條曲線或者曲面，對其進行擬合之。同時稱X中的變數為特徵（Feature)，Y值為預測值。如圖：一個典型的機器學習的過程，首先給出一組輸入資料X，我們的演算法會通過一系列的過程得到一個

深度學習必備：隨機梯度下降（SGD）優化演算法及視覺化

補充在前：實際上在我使用LSTM為流量基線建模時候，發現有效的啟用函式是elu、relu、linear、prelu、leaky_relu、softplus，對應的梯度演算法是adam、mom、rmsprop、sgd，效果最好的組合是：prelu+rmsprop。我的程式碼如下： # Simple examp

Hulu機器學習問題與解答系列 | 二十四：隨機梯度下降法

叠代 -s nbsp xib 大量步長空間圖片 ges Hulu優秀的作者們每天和公式抗爭，只為提升你們的技能，感動的話就把文章看完，然後哭一個吧。今天的內容是【隨機梯度下降法】場景描述深度學習得以在近幾年迅速占領工業界和學術界的高地，重要原因之一是數

谷歌機器學習速成課程---降低損失 (Reducing Loss)：隨機梯度下降法

計算機器 OS 隨機梯度下降法術語表表示機器學習放心使用在梯度下降法中，批量指的是用於在單次叠代中計算梯度的樣本總數。到目前為止，我們一直假定批量是指整個數據集。就 Google 的規模而言，數據集通常包含數十億甚至數千億個樣本。此外，Google 數據集通常

學習筆記13：隨機梯度下降法（Stochastic gradient descent, SGD）

假設我們提供了這樣的資料樣本（樣本值取自於y=3*x1+4*x2）：x1x2y1419252651194229x1和x2是樣本值，y是預測目標，我們需要以一條直線來擬合上面的資料，待擬合的函式如下：我們

機器學習---用python實現最小二乘線性回歸並用隨機梯度下降法求解（Machine Learning Least Squares Linear Regression Application SGD）

lin python get stat linspace oms mach 實現 all 在《機器學習---線性回歸（Machine Learning Linear Regression）》一文中，我們主要介紹了最小二乘線性回歸模型以及簡單地介紹了梯度下降法。現在，讓我們來

深度學習——線性單元和梯度下降

每次總結只知道指向預測模型 pre 叠代 $$ 機器學習的一些基本概念，模型、目標函數、優化算法等等，這些概念對於機器學習算法來說都是通用的套路。線性單元　　當我們面對的數據不是線性可分的時候，感知器規則就無法收斂，為了解決這個問題，我們使用一個可導的線性

反向傳播與梯度下降的基本概念

反向傳播和梯度下降這兩個詞，第一眼看上去似懂非懂，不明覺厲。這兩個概念是整個神經網路中的重要組成部分，是和誤差函式/損失函式的概念分不開的。神經網路訓練的最基本的思想就是：先“蒙”一個結果，我們叫預測結果h，看看這個預測結果和事先標記好的訓練集中的真實結果y之間的差距，然後調整策略，再試一次，這一次就不是

梯度下降法和隨機梯度下降法和小批量梯度對比

對於梯度下降法如果訓練樣本集特別大（假設為樣本3億：表示在美國大學3億人口，因此美國的人口普查擁有這樣數量級的資料），如果想用這些資料去擬合一個線性迴歸模型，那麼需要對著3億資料進行求和，計算量太大了，這種梯度下降也被稱為批量地圖下降法，（批量：表示每次我們都要同事考慮所有訓練樣本，我們

AI應用開發基礎傻瓜書系列2-神經網路中反向傳播與梯度下降的基本概念

第二篇：神經網路中反向傳播與梯度下降的基本概念預警：本篇部落格中會涉及到偏導數的概念，但是非常初級，很容易理解，建議硬著頭皮看，跟著算一遍，看完之後保證會覺得人生美好了很多。反向傳播和梯度下降這兩個詞，第一眼看上去似懂非懂，不明覺厲。這兩個概念是整個神經網路中的重要組成部分，是和誤差函式/損失函式的概念

隨機梯度下降法（Stochastic Gradient Descent）和批量梯度下降法（Batch Gradient Descent ）總結

梯度下降法常用於最小化風險函式或者損失函式，分為隨機梯度下降（Stochastic Gradient Descent）和批量梯度下降（Batch Gradient Descent ）。除此之外，還有梯度上升法（Gradient Ascent），應用於極大似

機器學習最優化方法[1] -- 梯度下降法

梯度下降法是求解無約束最優化問題最常見的方法，其基本思想是通過在負梯度方向通過一定的步長慢慢逼近最優解的過程。假設需要擬合函式：, , 給定資料集 , 我們需要最小化損失函式來求得引數求導：可以令導數等於0求得&nb

隨機梯度下降法，批量梯度下降法和小批量梯度下降法以及程式碼實現

前言梯度下降法是深度學習領域用於最優化的常見方法，根據使用的batch大小，可分為隨機梯度下降法（SGD）和批量梯度下降法（BGD）和小批量梯度下降法（MBGD），這裡簡單介紹下並且提供Python程式碼演示。如有謬誤，請聯絡指正。轉載請註明出處。聯

隨機梯度下降法

剛剛看完斯坦福大學機器學習第四講（牛頓法），也對學習過程做一次總結吧。一、誤差準則函式與隨機梯度下降：數學一點將就是，對於給定的一個點集（X，Y），找到一條曲線或者曲面，對其進行擬合之。同時稱X中的變數為特徵（Feature)，Y值為預測值。如圖：一個典型的機器學習的過程，首

深度學習---反向傳播演算法BP

這個BP演算法可以多看幾遍，條理清晰Stanford機器學習---第五講. 神經網路的學習 Neural Networks learning推導過程：重點參考必看：https://blog.csdn.net/fendouaini/article/details/7978944

隨機梯度下降法求解SVM（附matlab程式碼）

隨機梯度下降法（Stochastic Gradient Descent）求解以下的線性SVM模型： w的梯度為：傳統的梯度下降法需要把所有樣本都帶入計算，對於一個樣本數為n的d維樣本，每次迭代求一次梯度，計算複雜度為O(nd) ，當處理的資料量很大而且迭代次數比較多

梯度、梯度下降法、隨機梯度下降法

一、梯度gradient 在標量場f中的一點處存在一個向量G，該向量方向為f在該點處變化率最大的方向，其模也等於這個最大變化率的數值，則向量G稱為標量場f的梯度。在向量微積分中，標量場的梯度是一個向量場。標量場中某一點上的梯度指向標量場增長最快的方向，梯度的

AdamOptimizer和隨機梯度下降法SGD的區別

Adam 這個名字來源於adaptive moment estimation，自適應矩估計，如果一個隨機變數 X 服從某個分佈，X 的一階矩是 E(X)，也就是樣本平均值，X 的二階矩就是 E(X^2)，也就是樣本平方的平均值。Adam 演算法根據損失函式對每個引數的梯度

[深度學習] 反向傳播的四個基本公式證明及演算法流程

首先，我們來定義一些變數名：然後是以下四個公式的證明過程：最後我們得到反向傳播演算法的演算法流程： PS：對著網上的教程推了小半天，現在總算記住了，沒準以後面試就會考到 = = 不過反向傳播是現在網路訓練的數學基礎，以前只是有感性的認識，現在數學公式一列還是

梯度下降法、隨機梯度下降法、批量梯度下降法及牛頓法、擬牛頓法、共軛梯度法

引言李航老師在《統計學習方法》中將機器學習的三要素總結為：模型、策略和演算法。其大致含義如下：模型：其實就是機器學習訓練的過程中所要學習的條件概率分佈或者決策函式。策略：就是使用一種什麼樣的評價，度量模型訓練過程中的學習好壞的方法，同時根據這個方

深度學習反向傳播---隨機梯度下降法

相關推薦