1. 程式人生 > >深度學習與自然語言處理(3)_斯坦福cs224d Lecture 3

深度學習與自然語言處理(3)_斯坦福cs224d Lecture 3

原文作者:Rohit Mundra, Richard Socher
原文翻譯:@熊傑([email protected]) && @王昱森([email protected]) && @範築軍老師( [email protected]) && @OWEN([email protected])
內容校正:寒小陽 && 龍心塵
時間:2016年6月
出處:
http://blog.csdn.net/han_xiaoyang/article/details/51711134
http://blog.csdn.net/longxinchen_ml/article/details/51711172


說明:本文為斯坦福大學CS224d課程的中文版內容筆記,已得到斯坦福大學課程@Richard Socher教授的授權翻譯與發表

課堂筆記:第3課

關鍵詞:神經網路,正向計算,反向傳播,神經元,最大化間隔損失,梯度檢驗, 引數的哈維初始化, 學習速率, ADAGRAD(自適應梯度法)

這是斯坦福CS224d深度學習與自然語言處理的第3課,這節課先會介紹單層和多層神經網路和它們在機器學習分類任務中的應用, 接著介紹如何利用反向傳播演算法來訓練這些神經網路模型(在這個方法中,我們將利用偏導數的鏈式法則來層層更新神經元引數)。在給出神經網路以及這些演算法嚴謹的數學定義後,介紹了訓練神經網路的一些實用的技巧和竅門,比如,神經元(非線性激勵),梯度檢驗,引數的Xavier初始化方法,學習速率,ADAGRAD(自適應梯度法)等。最後,我們在神經網路模型的基礎上來建立語言模型

我們發現notes最後語言模型這個部分被略去了,回頭ppt裡面扒出來補充給大家

1 神經網路:基礎

我們在前面的課程中提到,由於大部分資料並非線性可分,線性分類模型在這些資料上的分類效果略顯尷尬,而非線性的分類模型通常能取得更好的效果。 如下圖1所示,神經網路模型就是這樣一類具備非線性決策邊界的分類器。 從圖上我們可以看到神經網路生成了非線性判定邊界,來對2類樣本做分類,那咱們一起來看看,它是怎麼做到的呢。



圖 1 ︰ 在圖上可以看到神經網路產生的非線性判定邊界,更好地把2類樣本點分隔開了。這就是神經網路的強大之處(不糾結原始樣本的分佈狀況)。

一點小歷史 ︰ 神經網路是受生物學啟發的分類器,因此它也常被稱為人工神經網路(ANN),以區別於生物學上的神經網路。事實上,人類的神經網路複雜性高很多,也比ANN具有更強大的能力,所以即使名字很接近,兩者之間倒沒有那麼多的相似之處。

1.1 神經元

簡單說來,神經元其實就是一個取n個輸入,併產生單一輸出的通用計算單元。每層神經元通過不同的引數(也稱權重)產生不同的輸出結果(通常情況下同一層神經元的輸入值是相同的,只是權重不同)。比較常見的神經元(激勵函式)是”Sigmoid函式”,也叫作”二項邏輯迴歸”單元。這種神經元,對於輸入的 n維向量,通過與n維的權重向量 w和一個偏差標量b做組合運算,輸出一個標量a(咱們也把它叫做標量啟用結果),具體的運算過程如下公式所示:


a=11+exp((wTx+b))

其中w是權重,b是偏移量,x是輸入

為了運算的一致性和精簡性,我們也可以把權重向量和偏差變數寫到一個n+1維的向量裡,得到上式的一個等價形式:


a=11+exp([wTb][x1])

你們看出來了,就是把偏移量放作權重的一部分

下圖2是這種神經元的一個直觀一點的解釋:



圖 2 ︰ 這就是所謂的”二元邏輯迴歸”神經元,輸入向量 x 的各個元素被 w 中對應的權重縮放後求和,加上偏移量b(數學上可以看做對對輸入x做線性的變換)之後放進”Sigmond函式”。

一點小總結:神經元呢,可以看做神經網路的基本組成功能單元,有多種多樣功能(就是對輸入做不同非線性變換)的神經元,它們共同去幫助整個神經網路形成非線性切分的能力。

1.2 單層神經元

剛才看完1個神經元的情況了,也知道它在做的非線性變換(輸入到輸出的運算)是什麼,現在咱們拓展一下,看看對於一組輸入x,一層神經元(其實就是多個神經元)的變換和處理情況,基本的結構,就如下圖3所示。



圖 3 ︰ 傳說中神經網路的一層(多個”二元邏輯迴歸”神經元),它們的輸入是一致的,都是x。

我們分別用{w(1),,w(m)}{b1,bm}{a1,am} 來表示m個神經元的權重向量,偏移量以及激勵輸出,則有一下的結果:

a1=11+exp(w(1)Tx+b1))

am=11+exp(w(m)Tx+bm))

式子多了看著有點亂,咱們設定一下以下的數學標記,簡化簡化在神經網路中的公式:

σ(z)=11+exp(z1)11+exp(zm)
b=b1bmRm
W=w(1)Tw(m)TRm×n

其中,

z=Wx+b

這樣咱們的二元邏輯迴歸的激勵輸出就可以寫成:

a1am

相關推薦

深度學習自然語言處理(7)_斯坦福cs224d 語言模型,RNN,LSTMGRU

說明:本文為斯坦福大學CS224d課程的中文版內容筆記,已得到斯坦福大學課程@Richard Socher教授的授權翻譯與發表 1.語言模型 語言模型用於對特定序列的一系列詞彙的出現概率進行計算。一個長度為m的詞彙序列{w1,…,wm}的聯合概率被表示為

深度學習自然語言處理(8)_斯坦福cs224d RNN,MV-RNNRNTN

這篇課堂筆記將介紹不同型別的RNN(遞迴神經網路),並介紹它在NLP領域的應用和優勢。 1、遞迴神經網路 在這篇課筆記中,我們會一起學習一種新的模型,這種模型絕對是以前介紹的那種遞迴神經網路的加強版!遞迴神經網路(RNNs)十分適用於有層次的、本身就有遞

深度學習自然語言處理(3)_斯坦福cs224d Lecture 3

原文作者:Rohit Mundra, Richard Socher 原文翻譯:@熊傑([email protected]) && @王昱森([email protected]) && @範築軍老師( [

深度學習自然語言處理

這是一門關於自然語言處理的高階課程,由牛津大學和谷歌DeepMind(AlphaGo的開發機構)聯合開設,由Phil Blunsom主講,同時邀請到多位來自DeepMind和NVIDIA的業界講師來做客座講座。這是牛津大學計算機系2017年春季學期最新課程,由​大資料文摘進行

深度學習自然語言處理(一)

自然語言處理主要研究用計算機來處理、理解以及運用人類語言(又稱自然語言)的各種理論和方法,屬於人工智慧領域的一個重要研究方向,是電腦科學與語言學的交叉學科,又常被稱為計算語言學。隨著網際網路的快速發展,網路文字尤其是使用者生成的文字成爆炸式增長,為自然語言處理帶來了巨大的應用

深度學習自然語言處理(三)——深度學習運用到自然語言處理領域的成功案例

目錄 1.全連線前饋神經網路(MLP)的應用 大部分情況下,全連線前饋神經網路(MLP)能被用來替代線性學習器。這包括二分類或多分類問題,以及更復雜的結構化預測問題。網路的非線性以及易於整合預訓練詞嵌入的能力經常帶來更高的分類精度。一系列工作通過簡單地將句

斯坦福cs224d深度學習自然語言處理上的應用)Lecture 2 note2

說明:本文為斯坦福大學CS224d課程的中文版內容筆記,已得到斯坦福大學課程@Richard Socher教授的授權翻譯與發表 課堂筆記:第2部分 ——————————————————————————————————– 關鍵詞:內部任務評價(Intrinsic Evaluation)和 外部任務

車萬翔《基於深度學習自然語言處理》中英文PDF+塗銘《Python自然語言處理實戰核心技術算法》PDF及代碼

提取 實用 進行 分析 表達式 詞法 快速入門 重點 tps 自然語言處理是人工智能領域的一個重要的研究方向,是計算機科學與語言學的交叉學科。隨著互聯網的快速發展,網絡文本尤其是用戶生成的文本呈爆炸性增長,為自然語言處理帶來了巨大的應用需求。但是由於自然語言具有歧義性、動態

深度學習解決自然語言處理中的7大問題,文字分類、語言建模、機器翻譯

摘要: 本文講的是用深度學習解決自然語言處理中的7大問題,文字分類、語言建模、機器翻譯等,自然語言處理領域正在從統計學方法轉向神經網路方法。在自然語言中,仍然存在許多具有挑戰性的問題。但是,深度學習方法在某些特定的語言問題上取得了state-of-the-art的結果。 本文講的是用深度學習解決自

如何用深度學習自然語言處理?這裡有份最佳實踐清單

對於如何使用深度學習進行自然語言處理,本文作者 Sebastian Ruder 給出了一份詳細的最佳實踐清單,不僅包括與大多數 NLP 任務相關的最佳實踐,還有最常見任務的最佳實踐,尤其是分類、序列標註、自然語言生成和神經機器翻譯。作者對最佳實踐的選擇很嚴格,只有被證明在至少兩個獨立的群體中有益的實踐才

深度學習自然語言處理的應用和脈絡1-基礎

本文是聽煉數成金的黃老師機器讀心術之深度學習大戰自然語言處理的課程總結的筆記和讀後感。 NLP技術發展階段 以語言學為主要基礎的時代(過去):建立基本語言覎則使用數理邏輯迚行推理,建立模型產生戒理解語言以統計斱法為主流的時代(現在):當資料量積累到海量,本身就能析取

深度學習自然語言處理中的應用(一)

資料整理篇 經典教材 Speech and Language Processing (第1,2版內容略陳舊,第三版很入時, 但有些重要章節沒放在網上) https://web.stanford.edu

深度學習自然語言處理中的attention和memory機制

Attention機制是最近深度學習的一個趨勢。在一次採訪中,OpenAI的研究總監Ilya Sutskever說attention機制是最令人興奮的進步之一,而且已經廣為使用。聽起來激動人心吧。但attention機制究竟是什麼呢?神經網路裡的attentio

深度學習自然語言處理中的應用綜述

由於人工神經網路可以對非線性過程進行建模,因此已經成為解決諸如分類,聚類,迴歸,模式識別,維度簡化,結構化預測,機器翻譯,異常檢測,決策視覺化,計算機視覺和其他許多問題的利器。這種廣泛的能力使得人工神經網路可以應用於許多領域。在本文中,我們討論了人工神經網路在自然語言處

深度學習自然語言處理中的應用: 集智俱樂部活動筆記

自然語言處理(Natural Language Processing, NLP)是人工智慧中的一個重要分支,從人工智慧這個領域剛發展起來的時候就一直是一個重要的研究方向,到現在也發展出了很多的細分領域和非常多的方法,大致上來說,我們可以認為是在 2013 年的時候,伴隨著 word2vec 這個 word

《基於深度學習自然語言處理》中文PDF+英文PDF+學習分析

機器學習 生成 統計學 alt 依存句法分析 詞向量 tle 工程應用 互聯 我們做自然語言處理的,主要是進行文本分析,作為人工智能的領域之一,也一定會應用深度神經網絡進行處理。 近年來快速發展的深度學習技術為解決自然語言處理問題的解決提供了一種可能的思路,已成為有效推動

李巨集毅深度學習人類語言處理-introduction

**深度學習與人類語言處理(Deep learning for Human Language Processing)** 李巨集毅老師深度學習與人類語言處理課程筆記,請看正文 ----- ### 這門課會學到什麼? ![](https://img2020.cnblogs.com/blog/104328

深度學習人類語言處理-語音識別(part1)

深度學習與人類語言處理課程筆記,上節回顧[深度學習與人類語言處理-introduction](https://www.cnblogs.com/gongyanzh/p/12485587.html)。這節課將會簡單介紹語音識別的最新研究方法,請看正文 -------------- ### 語音識別該何去何從?

深度學習人類語言處理-語音識別(part2)

上節回顧[深度學習與人類語言處理-語音識別(part1)](https://www.cnblogs.com/gongyanzh/p/12496037.html),這節課我們將學習如何將seq2seq模型用在語音識別 ----- ### LAS ![](https://img2020.cnblogs.c

深度學習人類語言處理-語音識別(part3)

上節回顧[深度學習與人類語言處理-語音識別(part2)](https://www.cnblogs.com/gongyanzh/p/12515971.html),這節課我們接著看seq2seq模型怎麼做語音識別 --- ![](https://img2020.cnblogs.com/blog/104328