CS231n-2017 Assignment3 RNN、LSTM、風格遷移

一、`RNN`

所需完成的步驟記錄在RNN_Captioning.ipynb檔案中。

本例中所用的資料為Microsoft於2014年釋出的COCO資料集。該資料集中和影象標註想拐的圖片包含80000張訓練圖片和40000張驗證圖片。而這些圖片的特徵已通過VGG-16網路獲得，儲存在train2014_vgg16_fc7.h5和val2014_vgg16_fc7.h5檔案中，每張圖片由一個4096維的向量表徵。為減少問題複雜度，本例還提供了經過PCA處理之後的特徵，儲存在train2014_vgg16_fc7_pca.h5和val2014_vgg16_fc7_pca.h5檔案中，特徵維度由4096維降低為512維。

圖片和其標註示例如下，其中<START>和<END>為標註的起始和結束字元，<UNK>為詞表中未出現的罕見詞，另外為保證標註的長度一致，會在較短的標註後填充<NULL>特殊字元。

圖 1. 影象標註示例

1. `RNN`的單步前向傳播

前向傳播的實現的方式，與上次作業大同小異，只不過這裡將會實現迴圈網路層的邏輯。
考慮每次網路讀入一個標註詞時，將根據此次輸入和此時的網路隱藏狀態，計算新的網路隱藏狀態。

rnn_layers.py檔案中的rnn_step_forward()函式：

def 
 rnn_step_forward(x, prev_h, Wx, Wh, b):
    
    next_h, cache = None, None
    # TODO: Implement a single forward step for the vanilla RNN. 
    next_h = tanh(np.dot(x, Wx) + np.dot(prev_h, Wh) + b)
    cache = (next_h, Wx, Wh, x, prev_h)
    return next_h, cache

其中tanh()為求取超正切值的輔助函式，一個考慮計算溢位異常的穩定版本如下：

def tanh(x):
    tmp = x.copy()
    tmp[tmp > 10] = 10
    tmp = np.exp(tmp*2)
    return (tmp - 1)/(tmp + 1)

2. `RNN`的單步反向傳播

關於超正切函式的求導：

$\tanh\, x = \frac{e^x - e^{-x}}{e^x + e^{-x}}\Rightarrow \tanh' x = 1 - \tanh^2 x$
故在rnn_layers.py檔案中實現rnn_step_backward()函式如下：

def rnn_step_backward(dnext_h, cache):
    dx, dprev_h, dWx, dWh, db = None, None, None, None, None
    # TODO: Implement the backward pass for a single step of a vanilla RNN. 
    next_h, Wx, Wh, x, prev_h = cache
    dtanh_h = dnext_h * (1 - next_h**2)
    dx = dtanh_h.dot(Wx.T)
    dprev_h = dtanh_h.dot(Wh.T)
    dWx = x.T.dot(dtanh_h)
    dWh = prev_h.T.dot(dtanh_h)
    db = np.sum(dtanh_h, axis=0)

    return dx, dprev_h, dWx, dWh, db

3. `RNN`的前向傳播

網路讀取一小批的標註資料x，(樣本數為N，每條標註的長度為T)，並使用這批標註所對應圖片的特徵作為網路的初始隱藏狀態h0，通過前向傳播過程，獲得各個樣本在每一步推進中產生的隱藏狀態h，並存儲反向傳播所需變數。
rnn_layers.py檔案中的rnn_forward()函式：

def rnn_forward(x, h0, Wx, Wh, b):
    h, cache = None, None
    # TODO: Implement forward pass for a vanilla RNN running on a sequence of input data.
    N, T, D = x.shape
    _, H = h0.shape
    h = np.zeros((N, T, H))
    prev_h = h0
    for iter_time in range(T):
        h[:, iter_time, :],_ = rnn_step_forward(x[:, iter_time, :], prev_h, Wx, Wh, b)
        prev_h = h[:, iter_time, :]

    cache = (h0, h, Wx, Wh, x)

    return h, cache

4. `RNN`的反向傳播

利用儲存的變數實現反向傳播過程。rnn_layers.py檔案中的rnn_backward()函式：

def rnn_backward(dh, cache):

    dx, dh0, dWx, dWh, db = None, None, None, None, None
    # TODO: Implement the backward pass for a vanilla RNN running an entire sequence of data.
    N, T, H = dh.shape
    h0, h, Wx, Wh, x = cache
    dh0 = np.zeros_like(h0)
    dx = np.zeros_like(x)
    dWx = np.zeros_like(Wx)
    dWh = np.zeros_like(Wh)
    db = np.zeros(H)
    h = np.concatenate((h0[:, np.newaxis, :], h), axis=1)
    
    for iter_time in range(T):
        dnext_h = dh[:, -(iter_time+1), :] + dh0
        cache = (h[:, -(iter_time+1), :], Wx, Wh, x[:, -(iter_time+1), :], h[:, -(iter_time+2), :])
        dx_step, dh0, dWx_step, dWh_step, db_step = rnn_step_backward(dnext_h, cache)
        dx[:, -(iter_time+1), :] = dx_step
        dWx += dWx_step
        dWh += dWh_step
        db  += db_step

    return dx, dh0, dWx, dWh, db

注意其中梯度值的累積，這其實就是RNN共享引數的一種體現。

5. 字詞的向量化表達

將影象標註中的詞索引x轉化為向量表達，並在後向傳播時更新字詞所對應的向量。
rnn_layers.py檔案中的word_embedding_forward()函式：

def word_embedding_forward(x, W):
    out, cache = None, None
    # TODO: Implement the forward pass for word embeddings.
    out = W[x, :]
    cache = (x, W.shape)

    return out, cache

rnn_layers.py檔案中的word_embedding_backward()函式：

def word_embedding_backward(dout, cache):
    dW = None
    # TODO: Implement the backward pass for word embeddings.
    x, shp = cache
    dW = np.zeros(shp)
    np.add.at(dW, x, dout)
    
    return dW

6. 考慮損失函式

rnn.py檔案中的loss()函式：

def loss(self, features, captions):

        captions_in = captions[:, :-1]
        captions_out = captions[:, 1:]

        # You'll need this
        mask = (captions_out != self._null)

        # Weight and bias for the affine transform from image features to initial
        # hidden state
        W_proj, b_proj = self.params['W_proj'], self.params['b_proj']

        # Word embedding matrix
        W_embed = self.params['W_embed']

        # Input-to-hidden, hidden-to-hidden, and biases for the RNN
        Wx, Wh, b = self.params['Wx'], self.params['Wh'], self.params['b']

        # Weight and bias for the hidden-to-vocab transformation.
        W_vocab, b_vocab = self.params['W_vocab'], self.params['b_vocab']

        loss, grads = 0.0, {}
        ############################################################################
        # TODO: Implement the forward and backward passes for the CaptioningRNN.
        h0, cache_affine = affine_forward(features, W_proj, b_proj)  # (1)
        captions_in_vec, cache_embed = word_embedding_forward(captions_in, W_embed)  #(2)
        if self.cell_type == "rnn":
          h, cache_rnn = rnn_forward(captions_in_vec, h0, Wx, Wh, b)  # (3)
        elif self.cell_type == "lstm":
          h, cache_lstm = lstm_forward(captions_in_vec, h0, Wx, Wh, b)
        
        scores, cache_score = temporal_affine_forward(h, W_vocab, b_vocab)  # (4)
        loss, dscores = temporal_softmax_loss(scores, captions_out, mask)  # (5)

        dh, dW_vocab, db_vocab = temporal_affine_backward(dscores, cache_score) # (4)
        if self.cell_type == "rnn":
          dcaptions_in_vec, dh0, dWx, dWh, db = rnn_backward(dh, cache_rnn)  # (3)
        elif self.cell_type == "lstm":
          dcaptions_in_vec, dh0, dWx, dWh, db = lstm_backward(dh, cache_lstm)  # (3)
        
        dW_embed = word_embedding_backward(dcaptions_in_vec, cache_embed)  # (2)
        _, dW_proj, db_proj = affine_backward(dh0, cache_affine)  # (1)

        grads = {"W_vocab": dW_vocab, "b_vocab": db_vocab, 
                 "Wx": dWx, "Wh": dWh, "b": db,
                 "W_embed": dW_embed, "W_proj": dW_proj, "b_proj": db_proj}

        return loss, grads

7. 測試過程

rnn.py檔案中的sample()函式：

def sample(self, features, max_length=30):
        N = features.shape[0]
        captions = self._null * np.ones((N, max_length), dtype=np.int32)

        # Unpack parameters
        W_proj, b_proj = self.params['W_proj'], self.params['b_proj']
        W_embed = self.params['W_embed']
        Wx, Wh, b = self.params['Wx'], self.params['Wh'], self.params['b']
        W_vocab, b_vocab = self.params['W_vocab'], self.params['b_vocab']

        # TODO: Implement test-time sampling for the model.
        c = np.zeros(b.shape[0]//4)
        h = features.dot(W_proj) + b_proj  # (1)
        captions[:, 0] = self._start


        for iter_time in range(1, max_length):
          prev_word = captions[:, iter_time-1]
          captions_in_vec, _ = word_embedding_forward(prev_word, W_embed)  #(2)
          if self.cell_type == "rnn":
            h, _ = rnn_step_forward(captions_in_vec, h, Wx, Wh, b)  # (3)
          else:
            h, c, _ = lstm_step_forward(captions_in_vec, h, c, Wx, Wh, b)  # (3)
          scores =  np.dot(h, W_vocab) + b_vocab  # (4)
          captions[:, iter_time] = np.argmax(scores, axis=1)
          
        pass

        return captions

二、`LSTM`

所需完成的步驟記錄在LSTM_Captioning.ipynb檔案中。

1. `LSTM`的單步前向傳播

rnn_layers.py檔案中的lstm_step_forward()函式：

def lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b):

    next_h, next_c, cache = None, None, None
    # TODO: Implement the forward pass for a single timestep of an LSTM.
    H = b.shape[0]
    ifog = x.dot(Wx) + prev_h.dot(Wh) + b
    ifog = getIFOG(ifog, "T")
    next_c = getIFOG(ifog, 'f')*prev_c + getIFOG(ifog,'i')*getIFOG(ifog,"g")
    next_h = getIFOG(ifog, 'o')*tanh(next_c)
    cache = (x, prev_h, prev_c, Wx, Wh, next_c, ifog)

    return next_h, next_c, cache

其中getIFOG()函式為變換並拆分四門輸出的輔助函式：

def getIFOG(ifog, which):
    H = ifog.shape[1]//4
    indx = {char:i*H for i, char in enumerate("ifog")}
    if which == "t" or which == "T":
        for char in indx:
            if char == "g":
                ifog[:, indx[char]:indx[char]+H] = tanh(ifog[:, indx[char]:indx[char]+H])
            else:
                ifog[:, indx[char]:indx[char]+H] = sigmoid(ifog[:, indx[char]:indx[char]+H])
        return ifog
    else:
        if which == "g":
            return ifog[:, indx[which]:indx[which]+H]
        else:
            return ifog[:, indx[which]:indx[which]+H]

2. `LSTM`的單步後向傳播

rnn_layers.py檔案中實現lstm_step_backward()函式：

def lstm_step_backward(dnext_h, dnext_c, cache):
    dx, dh, dc, dWx, dWh, db = None, None, None, None, None, None
    # TODO: Implement the backward pass for a single timestep of an LSTM.
    N, H = dnext_c.shape
    da = np.zeros((N, 4*H))

    x, prev_h, prev_c, Wx, Wh, next_c, ifog = cache

    tanhc_t = tanh(next_c)
    i = getIFOG(ifog, "i")
    f = getIFOG(ifog, "f")
    o = getIFOG(ifog, "o")
    g = getIFOG(ifog, "g")
    dh_c = dnext_h*o*(1-tanhc_t**2)
    setIFOG(da, "i", (dnext_c + dh_c)*g*(1-i)*i)
    setIFOG(da, "f", (dnext_c + dh_c)*prev_c*(1-f)*f)
    setIFOG(da, "o", dnext_h*tanhc_t*(1-o)*o)
    setIFOG(da, "g", (dnext_c + dh_c)*i*(1-g**2))

    dx = da.dot(Wx.T)
    dprev_h = da.dot(Wh.T)
    dprev_c = (dnext_c + dh_c) * f
    dWx = x.T.dot(da)
    dWh = prev_h.T.dot(da)
    db = np.sum(da, axis=0)
    
    return dx, dprev_h, dprev_c, dWx, dWh, db

由實現過程可見：LSTM中反饋到前一層的梯度除了dprev_h外，還包含dprev_c。其中dprev_h涉及與係數矩陣W的相乘，因此這一項在經歷多步操作時，極易出現梯度爆炸或消失。而dprev_c這一項，只涉及元素相乘，因此，緩解了上述問題。

3. `LSTM`的前向傳播

rnn_layers.py檔案中的lstm_forward()函式：

def lstm_forward(x, h0, Wx, Wh, b):
    h, cache = None, None

    # TODO: Implement the forward pass for an LSTM over an entire timeseries.
    N, T, D = x.shape
    _, H = h0.shape
    h = np 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    CS231n-2017 Assignment3 RNN、LSTM、風格遷移
       
  
  
 一、RNN 
 所需完成的步驟記錄在RNN_Captioning.ipynb檔案中。 
 本例中所用的資料為Microsoft於2014年釋出的COCO資料集。該資料集中和影象標註想拐的圖片包含80000張訓練圖片和40000張驗證圖片。而這些圖片的特徵已通過VGG-16網路獲得，儲存在tr 

  
 

    

    
    RNN、LSTM、Seq2Seq、Attention、Teacher forcing、Skip thought模型總結
      RNN 
RNN的發源： 
 
 單層的神經網路（只有一個細胞，f(wx+b)，只有輸入，沒有輸出和hidden state）  
 多個神經細胞（增加細胞個數和hidden state，hidden是f(wx+b)，但是依然沒有輸出）  這裡RNN同時和當前的輸入有關係，並且是上一層的輸出有關係。 
 初步 

  
 

    

    
    DL課程：RNN、LSTM、GRU及相關應用案例程式碼
       
 
 
 以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。 
 前面學習了CNN卷積神經網路，本文主要介紹RNN迴圈神經網路及相關升級版。 
 RNN迴圈神經網路： 
 RNN（Recurrent Neural Network）是一類用於處理序列資料的神經網路。簡單來看，把序列按時間展開結構如下：  

  
 

    

    
    CS231n-2017 Assignment1 k-近鄰方法、SVM、Softmax、兩層神經網路
       
  
  
 一、k近鄰方法 
 1. 使用兩層迴圈計算距離矩陣 
 訓練資料X_train和測試資料X中每一行是一個樣本點。距離矩陣dists中每一行為X中的一點與X_train中各個點的距離。 
 k_nearest_neighbor檔案中的compute_distances_two_loops() 

  
 

    

    
    機器學習（ML）九之GRU、LSTM、深度神經網路、雙向迴圈神經網路
      門控迴圈單元（GRU）
迴圈神經網路中的梯度計算方法。當時間步數較大或者時間步較小時，迴圈神經網路的梯度較容易出現衰減或爆炸。雖然裁剪梯度可以應對梯度爆炸，但無法解決梯度衰減的問題。通常由於這個原因，迴圈神經網路在實際中較難捕捉時間序列中時間步距離較大的依賴關係。
門控迴圈神經網路（gated recurre 

  
 

    

    
    keras RNN、LSTM對IMDB資料集進行分類
       
 
 本文介紹如何基於keras採用RNN和LSTM對IMDB資料集進行分類。 
 示例程式碼： 
 from keras.layers import SimpleRNN
from keras.models import Sequential
from keras.layers import Embedd 

  
 

    

    
    TensorFlow的序列模型程式碼解釋（RNN、LSTM）
        
1、學習單步的RNN：RNNCell、BasicRNNCell、BasicLSTMCell、LSTMCell、GRUCell 
（1）RNNCell 
如果要學習TensorFlow中的RNN，第一站應該就是去了解“RNNCell”，它是TensorFlow中實現RNN的基本單元，每個RNNC 

  
 

    

    
    RNN、GRU、LSTM
       
  
  
 版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/weixin_42432468 
 學習心得： 1、每週的視訊課程看一到兩遍 2、做筆記 
 3、做每週的作業練習，這個裡面的含金量非常高。掌握後一定要自己敲一遍，這樣以後用起來才能得心應手。  

  
 

    

    
    記憶網路RNN、LSTM與GRU
      
							
							
							




一般的神經網路輸入和輸出的維度大小都是固定的，針對序列型別（尤其是變長的序列）的輸入或輸出資料束手無策。RNN通過採用具有記憶的隱含層單元解決了序列資料的訓練問題。LSTM、GRU屬於RNN的改進，解決了RNN中梯度消失爆炸的問題，屬於序列資料訓練的常 

  
 

    

    
    CNN、RNN與LSTM（轉）
      
							
							
							神經網路技術起源於上世紀五、六十年代，當時叫感知機（perceptron），擁有輸入層、輸出層和一個隱含層。輸入的特徵向量通過隱含層變換達到輸出層，在輸出層得到分類結果。早期感知機的推動者是Rosenblatt。（扯一個不相關的：由於計算技術的落後，當時感知器傳 

  
 

    

    
    CS231n-2017 Assignment2 NN、BP、SGD、BN、CNN
       
  
  
 一、全連線神經網路 
 在上一次作業中，已經實現了兩層神經網路的架構。但該實現有個問題，即程式不夠模組化，比如在loss()函式中，同時計算了損失函式和各引數的梯度。這種耦合，使得擴充套件網路深度時，需要做大量修改。另外，神經網路的層與層的結構也類似，這意味著樸素實現的方式中存在著程式碼重複 

  
 

    

    
    深度學習：迴圈神經網路（RNN）的變體LSTM、GRU
      
							
							
							訪問請移步至，這裡有能“擊穿”平行宇宙的亂序並行位元組流…

假設我們試著去預測“I grew up in France… I speak fluent French”最後的詞French。當前的資訊建議下一個詞可能是一種語言的名字，但是如果我們需要弄清楚是什麼 

  
 

    

    
    2017年，電商、O2O項目怎樣順利拿到千萬融資？
      
	2017年，電商、O2O項目怎樣順利拿到千萬融資？


	 


	互聯網發展至今二十余年，電商領域發展最早也最風起雲湧，競爭廝殺，巨頭橫行。發展模式升級了幾個來回，依然有勇者前仆後繼的進入戰場。反觀O2O行業，誕生至今不到3年，卻也歷經了大起大落，從投資人的朱砂痣轉變為蚊子血，多少創業者的 

  
 

    

    
    IntelliJ 、Pycharm、webstorm 2017 註冊碼及註冊服務器
      fhe   出現   usr   wnlb   沒有   bag   bbc   應該   targe   jetbrains 家的東西都非常好看，但是價格貴的令人發指，所以我搭建了一個 Pycharm激活服務器，可以用來激活 Pycharm，IntelliJ IDEA，WebStorm。避免頻繁更換激活碼的 

  
 

    

    
    基於pytorch的CNN、LSTM神經網絡模型調參小結
      shu   結合   手動   ces   hid   open   ont   16px   nbsp   （Demo）

這是最近兩個月來的一個小總結，實現的demo已經上傳github，裏面包含了CNN、LSTM、BiLSTM、GRU以及CNN與LSTM、BiLSTM的結合還有多層多通道CNN、LSTM 

  
 

    

    
    2017.11.16 JavaWeb-------第八章 EL、JSTL、Ajax技術
      sco   存在   基本語法   jsp   對數   exp   att   表達   down   第八章 EL、JSTL、Ajax技術
~~ EL （expression language） 是表達式語言
~~ JSTL(JSP Standard Tag Library) 是開源的JSP標準標簽庫
~ 

  
 

    

    
    2017-12-28 3周4次課  df、 du、磁盤分區
      df   du   磁盤分區   4.1 df命令查看文件系統使用情況：[root@localhost ~]# df
文件系統          1K-塊   已用     可用 已用% 掛載點
/dev/sda3      18658304 940660 17717644    6% /
devtmpfs  

  
 

    

    
    2017-12-29 3周5次課 磁盤格式化、掛載、手動增加swap空間
      磁盤格式化   磁盤掛載   swap空間   4.5/4.6 磁盤格式化 ·linux支持的文件系統格式：[root@aming-01 ~]# cat /etc/filesystems
xfs
ext4
ext3
ext2
nodev proc
nodev devpts
iso9660
vfat
hfs
h 

  
 

    

    
    2017總結：沈澱、反思、前行
      歲月   應該   反思   一點   行業   編程   古人   會有   應用   2017如果非要概括一下的話，我想應該是沈澱，反思，前行
關於技術
猶記得2016時的自己，初入java江湖，年少輕狂，自認為自己已經登堂入室，編程江湖任我馳騁。現在想想實在可笑，自己當時不過是一個連ssh api都沒完 

  
 

    

    
    2017中國城市綜合發展指標出爐 北京、上海、深圳 冠亞季軍
      質量   保持   重慶   天津   空氣   社會   排行   教授   post   2017年，北京、上海、深圳的城市綜合發展指標不僅蟬聯綜合排名冠亞季軍，還各自蟬聯了社會、經濟、環境3個大項的全國榜首。記者23日獲悉，由國家發改委發展規劃司與雲河都市研究院共同編制的《中國城市綜合發展指標2017》

CS231n-2017 Assignment3 RNN、LSTM、風格遷移

一、`RNN`

1. `RNN`的單步前向傳播

2. `RNN`的單步反向傳播

3. `RNN`的前向傳播

4. `RNN`的反向傳播

5. 字詞的向量化表達

6. 考慮損失函式

7. 測試過程

二、`LSTM`

1. `LSTM`的單步前向傳播

2. `LSTM`的單步後向傳播

3. `LSTM`的前向傳播

CS231n-2017 Assignment3 RNN、LSTM、風格遷移

RNN、LSTM、Seq2Seq、Attention、Teacher forcing、Skip thought模型總結

DL課程：RNN、LSTM、GRU及相關應用案例程式碼

CS231n-2017 Assignment1 k-近鄰方法、SVM、Softmax、兩層神經網路

機器學習（ML）九之GRU、LSTM、深度神經網路、雙向迴圈神經網路

keras RNN、LSTM對IMDB資料集進行分類

TensorFlow的序列模型程式碼解釋（RNN、LSTM）

RNN、GRU、LSTM

記憶網路RNN、LSTM與GRU

CNN、RNN與LSTM（轉）

CS231n-2017 Assignment2 NN、BP、SGD、BN、CNN

深度學習：迴圈神經網路（RNN）的變體LSTM、GRU

2017年，電商、O2O項目怎樣順利拿到千萬融資？

IntelliJ 、Pycharm、webstorm 2017 註冊碼及註冊服務器

基於pytorch的CNN、LSTM神經網絡模型調參小結

2017.11.16 JavaWeb-------第八章 EL、JSTL、Ajax技術

2017-12-28 3周4次課 df、 du、磁盤分區

2017-12-29 3周5次課磁盤格式化、掛載、手動增加swap空間

2017總結：沈澱、反思、前行

2017中國城市綜合發展指標出爐北京、上海、深圳冠亞季軍

CS231n-2017 Assignment3 RNN、LSTM、風格遷移

一、RNN

1. RNN的單步前向傳播

2. RNN的單步反向傳播

3. RNN的前向傳播

4. RNN的反向傳播

5. 字詞的向量化表達

6. 考慮損失函式

7. 測試過程

二、LSTM

1. LSTM的單步前向傳播

2. LSTM的單步後向傳播

3. LSTM的前向傳播

相關推薦

一、`RNN`

1. `RNN`的單步前向傳播

2. `RNN`的單步反向傳播

3. `RNN`的前向傳播

4. `RNN`的反向傳播

二、`LSTM`

1. `LSTM`的單步前向傳播

2. `LSTM`的單步後向傳播

3. `LSTM`的前向傳播