用純Python實現迴圈神經網路RNN向前傳播過程(吳恩達DeepLearning.ai作業)

阿新 • • 發佈：2020-03-19

Google TensorFlow程式設計師點讚的文章！

前言

- 向量表示以及它的維度

- rnn cell

- rnn 向前傳播

重點關注:

- 如何把資料向量化的，它們的維度是怎麼來的

- 一共其實就是兩步: 單個單元的rnn計算，拉通來的rnn計算

在看本文前，可以先看看這篇文章回憶一下:

吳恩達deepLearning.ai迴圈神經網路RNN學習筆記(理論篇)

我們將實現以下結構的RNN，在這個例子中 Tx = Ty。

向量表示以及它的維度

Input with nx number of units

對單個輸入樣本，x(i) 是一維輸入向量。
用語言來舉個例子，將具有5k個單詞詞彙量的語言用one-hot編碼成具有5k個單位的向量，所以 x(i) 的維度是(5000,)。
我們將用符號 nx 表示單個訓練樣本的單位數。

Batches of size m

如果我們取小批量(mini-batches)，每個批次有20個訓練樣本。
為了受益於向量化，我們將20個樣本 x(i) 變成一個2維陣列(矩陣)。
比如一個維度是(5000，20)的向量。
我們用m來表示訓練樣本的數量。
所以小批量訓練資料的維度是 (nx, m)。

Time steps of size Tx

迴圈神經網路有多個時間步驟，我們用t來表示。
我們將看到訓練樣本 x(i) 將經歷多個時間步驟 Tx, 比如如果有10個時間步驟，那麼 Tx = 10。

3D Tensor of shape (nx, m, Tx)

輸入x就是用維度是 (nx, m, Tx) 的三維張量來表示。

Taking a 2D slice for each time step:

每一個時間步驟，我們用小批量訓練樣本(不是單個的訓練樣本)。
所以針對每個時間步驟t，我們用維度是 (nx, m)的2維切片。
我們把它表示成xt。

隱藏狀態a的維度

a的定義: 從一個時間步驟到另一個時間步驟的啟用值 at, 我們把它叫做隱藏狀態。
同輸入張量 x 一樣，對於單個訓練樣本的隱藏狀態，它的向量長度是na。
如果我們是包含了m個訓練樣本的小批量資料，那麼小批量維度是 (na, m)。
如果我們把時間步加進去，那麼隱藏狀態的維度就是 (na, m, Tx)。
我們將用索引t來遍歷時間步，每次操作是從3維張量切片成的2維向量。
我們用at來表示2維的切片，它的維度是 (na, m)。

預測值y^的維度

同輸入x和隱藏狀態一樣，y^是一個維度是 (ny, m, Ty) 的3維張量。

ny: 代表預測值的單位數。
m: 小批次訓練的樣本數量。
Ty: 預測的時間數。

比如單個時間步 t，2維的切片 y^ 的維度是 (ny, m)。

RNN cell

我們的第一個任務就是執行單個時間步驟的計算，計算如下圖。

輸入是a^<t-1>, xt，輸出是at, yt^。以下的程式碼其實就是把上面的公式程式碼化，總的步驟分成4步:

取出引數。
計算at。
計算yt^。
返回輸出的at, yt^，還要儲存一些值快取起來。

import numpy as np

def rnn_cell_forward(xt, a_prev, parameters):
    """
    Implements a single forward step of the RNN-cell as described in Figure (2)

    Arguments:
    xt -- your input data at timestep "t", numpy array of shape (n_x, m).
    a_prev -- Hidden state at timestep "t-1", numpy array of shape (n_a, m)
    parameters -- python dictionary containing:
                        Wax -- Weight matrix multiplying the input, numpy array of shape (n_a, n_x)                        Waa -- Weight matrix multiplying the hidden state, numpy array of shape (n_a, n_a)
                        Wya -- Weight matrix relating the hidden-state to the output, numpy array of shape (n_y, n_a)
                        ba --  Bias, numpy array of shape (n_a, 1)
                        by -- Bias relating the hidden-state to the output, numpy array of shape (n_y, 1)
    Returns:
    a_next -- next hidden state, of shape (n_a, m)
    yt_pred -- prediction at timestep "t", numpy array of shape (n_y, m)
    cache -- tuple of values needed for the backward pass, contains (a_next, a_prev, xt, parameters)
    """
    # 取計算的引數
    Wax = parameters["Wax"]
    Waa = parameters["Waa"]
    Wya = parameters["Wya"]
    ba = parameters["ba"]
    by = parameters["by"]

    # 用公式計算下一個單元的啟用值
    a_next = np.tanh(np.dot(Waa, a_prev) + np.dot(Wax, xt) + ba)
    # 計算當前cell的輸出 
    yt_pred = softmax(np.dot(Wya, a_next) + by)
    
    # 用於向後傳播的快取值 
    cache = (a_next, a_prev, xt, parameters)

    return a_next, yt_pred, cache

RNN向前傳播

一個迴圈神經網路就是不斷的重複你上面建立的rnn 單元。

如果你的輸入資料序列是10個時間步，那麼你就要重複你的rnn cell 10次。

在每個時間步中，每個單元將用2個輸入:

a<t-1>: 前一個單元的隱藏狀態。
xt: 當前時間步的輸入資料。

每個時間步有兩個輸出:

一個隱藏狀態at
一個測值y^⟨t⟩

權重和偏差 (Waa,ba,Wax,bx) 將在每個時間步中迴圈使用，它們儲存在"parameters"的變數中。

def rnn_forward(x, a0, parameters):
    """
    Implement the forward propagation of the recurrent neural network described in Figure (3).

    Arguments:
    x -- Input data for every time-step, of shape (n_x, m, T_x).
    a0 -- Initial hidden state, of shape (n_a, m)
    parameters -- python dictionary containing:
                        Waa -- Weight matrix multiplying the hidden state, numpy array of shape (n_a, n_a)
                        Wax -- Weight matrix multiplying the input, numpy array of shape (n_a, n_x)
                        Wya -- Weight matrix relating the hidden-state to the output, numpy array of shape (n_y, n_a)
                        ba --  Bias numpy array of shape (n_a, 1)
                        by -- Bias relating the hidden-state to the output, numpy array of shape (n_y, 1)

    Returns:
    a -- Hidden states for every time-step, numpy array of shape (n_a, m, T_x)
    y_pred -- Predictions for every time-step, numpy array of shape (n_y, m, T_x)
    caches -- tuple of values needed for the backward pass, contains (list of caches, x)
    """

    # 用於儲存所有cache的列表，初始化它
    caches = []

    # 取一些緯度值，用於後面初始化變數 
    n_x, m, T_x = x.shape
    n_y, n_a = parameters["Wya"].shape


    # 初始化 a 和 y_pred 
    a = np.zeros((n_a, m, T_x))
    y_pred = np.zeros((n_y, m, T_x))

    # 初始化 a_next 
    a_next = a0

    # loop over all time-steps of the input 'x' 
    for t in range(T_x):
        # Update next hidden state, compute the prediction, get the cache 
        xt = x[:,:,t] # 通過切片的方式從輸入變數x中取出當前t時間步的輸入xt
        a_next, yt_pred, cache = rnn_cell_forward(xt, a_next, parameters)
        # 儲存當前單元計算的a_next值

        a[:,:,t] = a_next
        # 儲存當前單元的預測值y

        y_pred[:,:,t] = yt_pred
        # 新增每個單元的快取值
        caches.append(cache)


    # store values needed for backward propagation in cache
    caches = (caches, x)

    return a, y_pred, caches

恭喜你(*^▽^*)，到這裡你已經能夠從0到1的構建迴圈神經網路的向前傳播過程。

在現代深度學習框架中，您僅需實現前向傳遞，而框架將處理後向傳遞，因此大多數深度學習工程師無需理會後向傳遞的細節。我就不寫向後傳播了。

用純Python實現迴圈神經網路RNN向前傳播過程(吳恩達DeepLearning.ai作業)

Google TensorFlow程式設計師點讚的文章！前言目錄: - 向量表示以及它的維度 - rnn cell - rnn 向前傳播 &nbs

吳恩達機器學習 - 神經網路的反向傳播演算法吳恩達機器學習 - 神經網路的反向傳播演算法

原吳恩達機器學習 - 神經網路的反向傳播演算法 2018年06月21日 20:59:35 離殤灬孤狼閱讀數：373

吳恩達deepLearning.ai迴圈神經網路RNN學習筆記_看圖就懂了！！！(理論篇)

前言目錄: RNN提出的背景 - 一個問題 - 為什

吳恩達deepLearning.ai迴圈神經網路RNN學習筆記_沒有複雜數學公式，看圖就懂了！！！(理論篇)

本篇文章被Google中國社群組織人轉發，評價: 條理清晰，寫的很詳細！被阿里演算法工程師點在看! 所以很值得一看! 前言目錄: RNN提出的背景 &nbs

【吳恩達deeplearning.ai】深度學習(9)：迴圈神經網路

隨深度學習技術的發展，使用迴圈神經網路（Recurrent Neural Network，RNN）建立的各種序列模型，使語音識別、機器翻譯及自然語言理解等應用成為可能。表示與型別自然語言、音訊等資料都是前後相互關聯的資料，比如理解一句話要通過一整句而

【Coursera】吳恩達 deeplearning.ai 04.卷積神經網路第二週深度卷積神經網路課程筆記

深度卷積神經網路 2.1 為什麼要進行例項化實際上，在計算機視覺任務中表現良好的神經網路框架，往往也適用於其他任務。 2.2 經典網路 LeNet-5 AlexNet VGG LeNet-5 主要針對灰度影象隨著神經網路的加深

吳恩達deeplearning.ai第四課學習心得：卷積神經網路與計算機視覺

不久前，Coursera 上放出了吳恩達 deeplearning.ai 的第四門課程《卷積神經網路》。本文是加拿大國家銀行首席分析師 Ryan Shrott 在完成該課程後所寫的學習心得，有助於大家直觀地瞭解、學習計算機視覺。我最近在 Coursera 上完成了吳恩達教授的計算機視覺課程。吳恩達

吳恩達DeepLearning.ai（神經網路和深度學習）第二週程式設計作業

轉載於：http://blog.csdn.net/Koala_Tree/article/details/78057033吳恩達Coursera課程 DeepLearning.ai 程式設計作業系列，本文為《神經網路與深度學習》部分的第二週“神經網路基礎”的課程作業（做了無用部分的刪減）。Part 1：Pyth

吳恩達deeplearning.ai課程《改善深層神經網路：超引數除錯、正則化以及優化》____學習筆記（第一週）

____tz_zs學習筆記第一週深度學習的實用層面（Practical aspects of Deep Learning）我們將學習如何有效運作神經網路（超引數調優、如何構建資料以及如何確保優化演算法快速執行）設定ML應用（Setting up your ML applic

吳恩達DeepLearning.ai筆記（1-4）-- 深層神經網路

神經網路和深度學習—深層神經網路1.深度網路中的前向傳播2. 核對矩陣的維度DNN結構示意圖如圖所示：對於第L層神經網路，單個樣本其各個引數的矩陣維度為：W[l]：(n[l],n[l−1])b[l]：(n[l],1)dW[l]：(n[l],n[l−1])db[l]：(n[l]

吳恩達DeepLearning.ai筆記（5-1）-- 迴圈序列模型

吳恩達DeepLearning.ai筆記（5-1）– 迴圈序列模型 1.一些序列資料例子 2.數學符號 x<1>x<1>輸入序列X第一個單詞，TixTxi輸入序列X的單詞個數，X（i）<t>X（i）&l

【Coursera】吳恩達 deeplearning.ai 05.序列模型第一週迴圈序列模型課程筆記

迴圈序列模型為什麼選擇序列模型在語音識別、音樂生成、情感分類、DNA序列分析、機器翻譯、視訊識別、命名實體識別等任務中，共同特點是輸入X和/或輸出Y都是序列。數學符號例如，對於命名實體識別的問題：對於輸入序列，用 x&l

莫煩python|Tensorflow筆記--什麼是迴圈神經網路RNN

我們在想象現在有一組資料序列，Data0，Data1,Data2,Data3，預測Results0的時候基於Data0，同意在預測其他結果的時候也是基於其他的數字。每次使用的神經網路都是同一個NN。如果這些資料是有關聯順序的，那麼就要遵從它們之間的順序，否則就串位了。但是

TensorFlow練手專案一：使用迴圈神經網路(RNN)實現影評情感分類

使用迴圈神經網路(RNN)實現影評情感分類作為對迴圈神經網路的實踐，我用迴圈神經網路做了個影評情感的分類，即判斷影評的感情色彩是正面的，還是負面的。選擇使用RNN來做情感分類，主要是因為影評是一段文字，是序列的，而RNN對序列的支援比較好，能夠“記憶”前

基於Tensorflow的雙層迴圈神經網路RNN(LSTM)實現(MNIST資料集)

本文使用雙層LSTM網路，實現對MNIST資料集的分類。 # -*- coding:utf-8 -*- import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_dat

tensorflow 學習筆記12 迴圈神經網路RNN LSTM結構實現MNIST手寫識別

長短時記憶網路（LSTM）就是為了解決在複雜的場景中，有用資訊的間隔有大有小、長短不一問題。LSTM是一種擁有三個門結構的特殊網路結構。 LSTM靠一些門的結構讓資訊有選擇的影響迴圈神經網路中每個時刻的狀態。所謂門的結構就是一個使用sigmoid神經網路和按位做乘法的操作

通俗易懂--迴圈神經網路(RNN)的網路結構！(TensorFlow實現)

1. 什麼是RNN 迴圈神經網路（Recurrent Neural Network, RNN）是一類以序列（sequence）資料為輸入，在序列的演進方向進行遞迴（recursion）且所有節點（迴圈單元）按鏈式連線的遞迴神經網路（recursive neural network） 1.1 RNN的應用

TensorFlow從入門到理解（四）：你的第一個迴圈神經網路RNN（分類例子）

執行程式碼： import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data # set random seed for comparing the two result calculations

TensorFlow從入門到理解（五）：你的第一個迴圈神經網路RNN（迴歸例子）

執行程式碼： import tensorflow as tf import numpy as np import matplotlib.pyplot as plt BATCH_START = 0 TIME_STEPS = 20 BATCH_SIZE = 50 INPUT_SIZE = 1 OUTP

cs231 迴圈神經網路RNN (計算圖)

cs231 迴圈神經網路RNN (計算圖) from __future__ import print_function, division from builtins import range import numpy as np """

用純Python實現迴圈神經網路RNN向前傳播過程(吳恩達DeepLearning.ai作業)

Input with nx number of units

Batches of size m

Time steps of size Tx

3D Tensor of shape (nx, m, Tx)

隱藏狀態a的維度

預測值y^的維度

相關推薦