cs224d 作業 problem set3 (一) 實現Recursive Nerual Net Work 遞迴神經網路

阿新 • • 發佈：2019-01-04

'''
Created on 2017年10月5日

@author: weizhen
'''
# 一個簡單的遞迴神經網路的實現，有著一個ReLU層和一個softmax層
# TODO : 必須要更新前向和後向傳遞函式
# 你可以通過執行 python rnn.py 方法來執行一個梯度檢驗
# 插入pdb.set_trace()  在你不確定將會發生什麼的地方

import numpy as np
import collections
import pdb
import tree as treeM
import pickle

class RNN:
    
    def __init__(self, wvecDim, outputDim, numWords, mbSize=30, rho=1e-4):
        self.wvecDim  
= wvecDim
        self.outputDim = outputDim
        self.numWords = numWords
        self.mbSize = mbSize
        self.defaultVec = lambda : np.zeros((wvecDim,))
        self.rho = rho
    
    def initParams(self):
        np.random.seed(12341)
        
        # Word vectors
        self.L = 0.01 * np.random.randn(self.wvecDim, self.numWords)
        
         
# Hidden layer parameters
        self.W = 0.01 * np.random.randn(self.wvecDim, 2 * self.wvecDim)
        self.b = np.zeros((self.wvecDim))
        
        # Softmax weights
        # note this is " U "in the notes and the handout...
        # there is a reason for the change in notation
        self.Ws = 0.01 * np.random.randn(self.outputDim, self.wvecDim)
        self.bs  
= np.zeros((self.outputDim))
        
        self.stack = [self.L, self.W, self.b, self.Ws, self.bs]
        
        # Gradients
        self.dW = np.empty(self.W.shape)
        self.db = np.empty((self.wvecDim))
        self.dWs = np.empty(self.Ws.shape)
        self.dbs = np.empty((self.outputDim))
        
    def costAndGrad(self, mbdata, test=False):
        """
                    每一個datum在minibatch裡邊都是一個樹
                    前向計算每一個樹,反向傳播到每一個樹
                    返回值:
            cost:
                                    梯度：w.r.t W,Ws,b,bs
                                    以上變數的梯度都是在稀疏形式儲存的
                                    或者是以測試狀態下的
            Returns:
                cost,correctArray,guessArray,total
        """
        cost = 0.0
        correct = []
        guess = []
        total = 0.0
        
        self.L, self.W, self.b, self.Ws, self.bs = self.stack
        # 初始化所有梯度都是0
        self.dW[:] = 0
        self.db[:] = 0
        self.dWs[:] = 0
        self.dbs[:] = 0
        self.dL = collections.defaultdict(self.defaultVec)
        
        # 在每一個batch中前向計算每一個tree
        for tree in mbdata:
            c, tot = self.forwardProp(tree.root, correct, guess)
            cost += c
            total += tot
        if test:
            return (1. / len(mbdata)) * cost, correct, guess, total
        
        # 在每一個batch上進行反向傳播
        for tree in mbdata:
            self.backProp(tree.root)
        
        # 通過mb的大小來計算損失和梯度
        scale = (1. / self.mbSize)
        for v in self.dL.values():
            v *= scale
        
        # 新增L2正則化項
        cost += (self.rho / 2) * np.sum(self.W ** 2)
        cost += (self.rho / 2) * np.sum(self.Ws ** 2)
        
        return scale * cost, [self.dL, scale * (self.dW + self.rho * self.W), scale * self.db, scale * (self.dWs + self.rho * self.Ws), scale * self.dbs]
    
    def forwardProp(self, node, correct=[], guess=[]):
        """損失應該是一個不斷更新的變數，總損失是我們需要用在準確率報告裡邊的資料"""
        cost = total = 0.0
        # 下面實現遞迴神經網路前向傳播的函式
        # 你應該更新 node.probs, node.hActsl,node.fprop,and cost
        # node :你當前節點是在語法樹上的
        # correct : 這是一個不斷更新的標記真值的列表
        # guess: 這是一個不斷更新的猜測我們的模型會預測為哪一個結果的列表
        #       (我們會同時使用正確的和猜測的值來構造我們的混淆矩陣)
        L = self.L
        # 隱藏層的引數
        W = self.W
        b = self.b
        
        # Softmax 權重
        Ws = self.Ws
        bs = self.bs
        
        if node.isLeaf:
            node.hActsl = L[:, node.word]
        else:
            if not node.left.fprop:
                cost_left, total_left = self.forwardProp(node.left, correct, guess)
                cost += cost_left
                total += total_left
            if not node.right.fprop:
                cost_right, total_right = self.forwardProp(node.right, correct, guess)
                cost += cost_right
                total += total_right
            
            node.hActsl = W.dot(np.hstack((node.left.hActsl, node.right.hActsl))) + b
            node.hActsl[node.hActsl < 0] = 0
        
        x = Ws.dot(node.hActsl) + bs
        x -= np.max(x)
        node.probs = np.exp(x) / np.sum(np.exp(x))
        
        correct += [node.label]
        guess += [np.argmax(node.probs)]
        
        cost -= np.log(node.probs[node.label])
        
        node.fprop = True
        
        return cost, total + 1
    
    def backProp(self, node, error=None):
        """
                    實現遞迴神經網路的反向傳播函式
                    應該更新 self.dWs, self.dbs, self.dW, self.db, and self.dL[node.word] 相關地
        node:你在語法樹種的當前節點
        error:誤差從之前一個迭代過程中傳遞進來的
        """
        # 清空節點
        node.fprop = False
        
        L = self.L
        # 隱藏節點的引數
        W = self.W
        b = self.b
        
        # Softmax層的權重
        Ws = self.Ws
        bs = self.bs
        
        error_this = node.probs
        error_this[node.label] -= 1.0
        delta = Ws.T.dot(error_this)
        
        self.dWs += np.outer(error_this, node.hActsl)
        self.dbs += error_this
        
        if error is not None:
            delta += error
        
        delta[node.hActsl == 0] = 0
        
        if node.isLeaf:
            self.dL[node.word] += delta
        else:
            self.dW += np.outer(delta, np.hstack([node.left.hActsl, node.right.hActsl]))
            self.db += delta
            
            delta = np.dot(self.W.T, delta)
            self.backProp(node.left, delta[:self.wvecDim])
            self.backProp(node.right, delta[self.wvecDim:])
    
    def updateParams(self, scale, update, log=False):
        """
                    如下這樣更新引數
                    p:=p-scale*update
                    如果log是真的，輸出根節點的均方誤差，並且更新根節點的值
        """
        if log:
            for P, dP in zip(self.stack[1:], update[1:]):
                pRMS = np.sqrt(np.mean(P ** 2))
                dpRMS = np.sqrt(np.mean((scale * dP) ** 2))
                print("weight rms=%f -- update rms=%f" % (pRMS, dpRMS))
        self.stack[1:] = [P + scale * dP for P, dP in zip(self.stack[1:], update[1:])]
        
        # 解決詞典並且進行稀疏的更新
        dL = update[0]
        for j in dL.iterkeys():
            self.L[:, j] += scale.dL[j]
    
    def toFile(self, fid):
        pickle.dump(self.stack, fid)
    
    def fromFile(self, fid):
        self.stack = pickle.load(fid)
    
    def check_grad(self, data, epsilon=1e-6):
        cost, grad = self.costAndGrad(data)
        
        err1 = 0.0
        count = 0.0
        print("Checking dW...")
        for W, dW in zip(self.stack[1:], grad[1:]):
            W = W[..., None]
            dW = dW[..., None]
            for i in range(W.shape[0]):
                for j in range(W.shape[1]):
                    W[i, j] += epsilon
                    costP, _ = self.costAndGrad(data)
                    W[i, j] -= epsilon
                    numGrad = (costP - cost) / epsilon
                    err = np.abs(dW[i, j] - numGrad)
                    err1 += err
                    count += 1
        if 0.001 > err1 / count:
            print("Grad Check Passed for dW")
        else:
            print("Grad Check Failed for dW:Sum of Error=%.9f" % (err1 / count))
        
        
        # check dL separately since dict
        dL = grad[0]
        L = self.stack[0]
        err2 = 0.0
        count = 0.0
        print("Checking dL...")
        for j in dL.keys():
            for i in range(L.shape[0]):
                L[i, j] += epsilon
                costP, _ = self.costAndGrad(data)
                L[i, j] -= epsilon
                numGrad = (costP - cost) / epsilon
                err = np.abs(dL[j][i] - numGrad)
                err2 += err
                count += 1
        if 0.001 > err2 / count:
            print("Grad Check Passed for dL")
        else:
            print("Grad Check Failed for dL: Sum of Error = %.9f" % (err2 / count))

if __name__ == '__main__':

    train = treeM.loadTrees()
    numW = len(treeM.loadWordMap())
    
    wvecDim = 10
    outputDim = 5
    
    rnn = RNN(wvecDim, outputDim, numW, mbSize=4)
    rnn.initParams()
    
    mbData = train[:4]
    print("Numerical gradient check...")
    rnn.check_grad(mbData)

cs224d 作業 problem set3 (一) 實現Recursive Nerual Net Work 遞迴神經網路

''' Created on 2017年10月5日 @author: weizhen ''' # 一個簡單的遞迴神經網路的實現，有著一個ReLU層和一個softmax層 # TODO : 必須要更新前向和後向傳遞函式 # 你可以通過執行 python rnn.py 方法來執行一個梯度檢驗 # 插入pdb.

cs224d 自然語言處理作業 problem set3 (一) 實現Recursive Nerual Net Work 遞歸神經網絡

函數 rec 合並聯系 cs224 作業 itl clas 自然語言處理 1、Recursive Nerual Networks能夠更好地體現每個詞與詞之間語法上的聯系這裏我們選取的損失函數仍然是交叉熵函數 2、整個網絡的結構如下圖所示: 每個參數的更新時的梯隊值如何計算

cs224d 作業 problem set1 (一) 主要是實現word2vector模型,SGD,CBOW,Softmax,演算法

''' Created on 2017年9月13日 @author: weizhen ''' import numpy as np def sigmoid(x): return 1 / (1 + np.exp(-x)) 首先上來的是最簡單的sigmoid激勵

NeuralTalk：一種基於Python+numpy使用語句描述影象的多模態遞迴神經網路的例程

NeuralTalk工程的流程如下： The pipeline for the project looks as follows: 輸入資料使用Amazon Mechanical Turk收集的影象和5組語句描述的資料集。 The input is a dataset of im

系統學習深度學習（五） --遞迴神經網路原理，實現及應用

但是大神們說，標準的RNN在實際使用中效果不是很好，真正起到作用的是LSTM，因此RNN只做簡單學習，不上原始碼（轉載了兩篇，第一個是簡單推導，第二個是應用介紹）。下面是簡單推導，轉自：http://blog.csdn.net/aws3217150/article/details/5076

【深度學習】6：RNN遞迴神經網路原理、與MNIST資料集實現數字識別

前言：自己學習研究完CNN卷積神經網路後，很久的一段時間因為要完成自己的畢業設計就把更新部落格給耽擱了。瞎忙了這麼久，還是要把之前留的補上來。因為“種一棵樹最好的時間是在十年前，其次就是現在！” –—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—

RNN遞迴神經網路的詳細推導及C++實現

//讓程式自己學會是否需要進位，從而學會加法 #include "iostream" #include "math.h" #include "stdlib.h" #include "time.h" #include "vector" #incl

cs224d 作業 problem set2 (二) TensorFlow 實現命名實體識別

WARNING:tensorflow:From C:\Users\weizhen\Documents\GitHub\TflinearClassifier\q2_NER.py:291: initialize_all_variables (from tensorflow.python.ops.variables

【原始碼】將一個整數的每位數分解並按逆序放入一個數組中（用遞迴演算法）(C語言實現)

幫朋友做的，好像是一個面試題。如果僅僅是考察遞迴的話，應該是夠了，程式的健壯性和通用性都很一般的說…… #include <stdio.h> #include <stdlib.h&g

演算法-一步步教你如何用c語言實現堆排序（非遞迴）

看了左神的堆排序，覺得思路很清晰，比常見的遞迴的堆排序要更容易理解，所以自己整理了一下筆記，帶大家一步步實現堆排序演算法首先介紹什麼是大根堆：每一個子樹的最大值都是子樹的頭結點，即根結點是所有結點的最大值堆排序是基於陣列和二叉樹思想實現的（二叉樹是腦補結構，實際是陣列）堆排序過程 1、陣列建

十一、Go基礎程式設計：遞迴函式、函式型別、匿名函式與閉包

1. 遞迴函式遞迴指函式可以直接或間接的呼叫自身。遞迴函式通常有相同的結構：一個跳出條件和一個遞迴體。所謂跳出條件就是根據傳入的引數判斷是否需要停止遞迴，而遞迴體則是函式自身所做的一些處理。 //通過迴圈實現1+2+3……+100 func Test01() int { i

棧實現二叉樹非遞迴先序遍歷

#include "stdio.h" #include "stdlib.h" typedef struct TreeNode *Tree; typedef char ElementType; typedef struct stack *Stack; typedef Tree

遞迴_CH0303_遞迴實現排列型列舉_遞迴演算法正確性證明範例

點此開啟題目頁面先給出AC程式碼, 然後給出程式正確性的形式化證明. //CH0303_遞迴實現排列型列舉 #include <iostream> #include <cstdio> #include <vector> using namespace

遞迴_CH0302_遞迴實現組合型列舉_遞迴演算法正確性證明範例

點此開啟題目頁面先給出AC程式碼, 然後給出程式正確性的形式化證明 //CH0302_遞迴實現組合型列舉 #include <iostream> #include <cstdio> #include <vector> using namespace

遞迴_CH0301_遞迴實現指數型列舉_遞迴演算法正確性證明範例

點此開啟題目頁面簡而言之本題要求列印集{1, 2,..., n}的所有子集(列印時每個子集中的所有元素位於同一行, 每行中的元素遞增列印, 空集對應空行) 先給出如下AC程式碼, 然後給出其正確性的形式化證明 //CH0301_遞迴實現指數型列舉 #in

一文帶你看懂卷積神經網路(CNN)讓你意想不到的10創新idea

全文摘要卷積神經網路(CNN)可以說是深度學習發展的一個縮影，特別是現在在計算機視覺方面已經得到了非常成熟的應用，在目標檢測、目標追蹤等方面也是獨領風騷，本文將講述卷積神經網路近些年來的發展歷程，以及它到底創新在什麼地方。本文略長，看完大約3

.編寫一個函式實現n^k，使用遞迴實現

int npower(int n,int k) { if (k == 0) { return 0; } else if (k == 1) { return n; } else { return n*npower(n, k - 1); } } int main

一步一步學用Tensorflow構建卷積神經網路

摘要：本文主要和大家分享如何使用Tensorflow從頭開始構建和訓練卷積神經網路。這樣就可以將這個知識作為一個構建塊來創造有趣的深度學習應用程式了。 0. 簡介在過去，我寫的主要都是“傳統類”的機器學習文章，如樸素貝葉斯分類、邏輯迴歸和Perceptron演算法。在過去的

Java遞迴發實現Fibonacci數列，尾遞迴實現Fibonacci數列，並獲取計算所需時間

遞迴法計算Fibonacci數列：它可以遞迴地定義為：第n個Fibonacci數列可遞迴地計算如下： int fibonacci(int n) { if (n <= 1) return 1; return fibon

編寫一個函式實現n^k，使用遞迴實現。

#define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> #include<stdlib.h> int my_pow(int n, int m) { int sum = 0; if (m == 0) { sum

cs224d 作業 problem set3 (一) 實現Recursive Nerual Net Work 遞迴神經網路

相關推薦