【DeepLearning】深度學習第一課：使用autograd來自動求導

阿新 • • 發佈：2019-01-16

使用autograd來自動求導

在機器學習中，我們通常使用梯度下降（gradient descent）來更新模型引數從而求解。損失函式關於模型引數的梯度指向一個可以降低損失函式值的方向，我們不斷地沿著梯度的方向更新模型從而最小化損失函式。雖然梯度計算比較直觀，但對於複雜的模型，例如多達數十層的神經網路，手動計算梯度非常困難。

為此MXNet提供autograd包來自動化求導過程。雖然大部分的深度學習框架要求編譯計算圖來自動求導，mxnet.autograd可以對正常的命令式程式進行求導，它每次在後端實時建立計算圖，從而可以立即得到梯度的計算方法。

下面讓我們一步步介紹這個包。我們先匯入autograd

。

import mxnet.ndarray as nd
import mxnet.autograd as ag

為變數附上梯度

假設我們想對函式 f=2×x2 求關於 x 的導數。我們先建立變數x，並賦初值。

x = nd.array([[1, 2], [3, 4]])

當進行求導的時候，我們需要一個地方來存x的導數，這個可以通過NDArray的方法attach_grad()來要求系統申請對應的空間。

x.attach_grad()

下面定義f。預設條件下，MXNet不會自動記錄和構建用於求導的計算圖，我們需要使用autograd裡的record()函式來顯式的要求MXNet記錄我們需要求導的程式。

with ag.record():
    y = x * 2
    z = y * x

接下來我們可以通過z.backward()來進行求導。如果z不是一個標量，那麼z.backward()等價於nd.sum(z).backward().

z.backward()

現在我們來看求出來的導數是不是正確的。注意到y = x * 2和z = x * y，所以z等價於2 * x * x。它的導數那麼就是 dzdx=4×x 。

print('x.grad: ', x.grad)
x.grad == 4*x

對控制流求導

命令式的程式設計的一個便利之處是幾乎可以對任意的可導程式進行求導，即使裡面包含了Python的控制流。考慮下面程式，裡面包含控制流for

和if，但迴圈迭代的次數和判斷語句的執行都是取決於輸入的值。不同的輸入會導致這個程式的執行不一樣。（對於計算圖框架來說，這個對應於動態圖，就是圖的結構會根據輸入資料不同而改變）。

def f(a):
    b = a * 2
    while nd.norm(b).asscalar() < 1000:
        b = b * 2
    if nd.sum(b).asscalar() > 0:
        c = b
    else:
        c = 100 * b
    return c

我們可以跟之前一樣使用record記錄和backward求導。

a = nd.random_normal(shape=3)
a.attach_grad()
with ag.record():
    c = f(a)
c.backward()

注意到給定輸入a，其輸出 f(a)=xa，x 的值取決於輸入a。所以有 dfda=x，我們可以很簡單地評估自動求導的導數：

a.grad == c/a

頭梯度和鏈式法則

注意：讀者可以跳過這一小節，不會影響閱讀之後的章節

當我們在一個NDArray上呼叫backward方法時，例如y.backward()，此處y是一個關於x的函式，我們將求得y關於x的導數。數學家們會把這個求導寫成 dy(x)dx 。還有些更復雜的情況，比如z是關於y的函式，且y是關於x的函式，我們想對z關於x求導，也就是求 ddxz(y(x)) 的結果。回想一下鏈式法則，我們可以得到ddxz(y(x))=dz(y)dydy(x)dx。當y是一個更大的z函式的一部分，並且我們希望求得 dzdx 儲存在x.grad中時，我們可以傳入頭梯度（head gradient） dzdy 的值作為backward()方法的輸入引數，系統會自動應用鏈式法則進行計算。這個引數的預設值是nd.ones_like(y)。關於鏈式法則的詳細解釋，請參閱Wikipedia。

with ag.record():
    y = x * 2
    z = y * x

head_gradient = nd.array([[10, 1.], [.1, .01]])
z.backward(head_gradient)
print(x.grad)

本文來自李沐Github個人使用者。

【DeepLearning】深度學習第一課：使用autograd來自動求導

使用autograd來自動求導

為變數附上梯度

對控制流求導

頭梯度和鏈式法則

【DeepLearning】深度學習第一課：使用autograd來自動求導

【連載】深度學習筆記8：利用Tensorflow搭建神經網路

【C++探索之旅】第二部分第一課：面向對象初探，string的驚天內幕

【資源】深度學習 Top100：近 5 年被引用次數最高論文（下載）

【轉】深度學習基礎概念理解

深度學習第一課線性迴歸

【轉】Hadoop學習--第二篇：史上最詳細的Hadoop環境搭建

golang語言學習第一課：如何定義變數，筆記及回顧

【django3】Django學習筆記3：Model,Template,View 基本概念

深度學習第一步：windows+Anaconda下安裝tensorflow深度學習框架

【轉載】深度學習框架對比

深度學習第一課入門

【2】Caffe學習系列(11)：影象資料轉換成db（leveldb/lmdb)檔案

【Tensorflow】深度學習實戰06——Tensorflow實現ResNet

網易雲深度學習第一課第一週程式設計作業

吳恩達深度學習第一課第四周（深層神經網路）

網易雲深度學習第一課第三週程式設計作業

吳恩達深度學習第一課第三週課後作業

【專欄】- 深度學習進行目標定位和識別

【心得】深度學習入門——訓練並測試自己資料集

【DeepLearning】深度學習第一課：使用autograd來自動求導

使用autograd來自動求導

為變數附上梯度

對控制流求導

頭梯度和鏈式法則

相關推薦