1. 程式人生 > >斯坦福大學-自然語言處理入門 筆記 第四課 語言模型

斯坦福大學-自然語言處理入門 筆記 第四課 語言模型

一、介紹N-grams

1、概率語言模型

對每個句子給出一個概率,用以判斷機器翻譯中哪個句子是最佳的選擇,拼寫校準中哪個句子可能出現錯誤。

  • 目標:計算句子或者是一系列單詞的概率
    P ( W )
    = P ( W 1 , W 2
    , W 3 , W 4 ,
    W 5 . . . W n ) P\left ( W \right )=P(W_{1},W_{2},W_{3},W_{4},W_{5}...W_{n})
  • 相關任務:下一個詞的概率
    P ( W 5 W 1 , W 2 , W 3 , W 4 ) P\left ( W_{5}|W_{1},W_{2},W_{3},W_{4} \right )
  • 計算上述兩者的模型就是語言模型。可能更好的叫法是語法(the grammer),但是語言模型(language model)和LM是標準的叫法。

2、如何計算P(W)

利用概率的鏈式法則來進行計算

  • 鏈式法則
    P ( x 1 , x 2 , x 3 . . . x n ) = P ( x 1 ) P ( x 2 x 1 ) P ( x 3 x 1 , x 2 ) . . . P ( x n x 1 , . . . , x n 1 ) P\left (x_{1},x_{2},x_{3}...x_{n} \right )=P\left ( x_{1} \right )P\left ( x_{2} |x_{1} \right )P\left ( x_{3} |x_{1}, x_{2}\right )...P\left ( x_{n} |x_{1},... ,x_{n-1}\right )
  • 公式為:
    在這裡插入圖片描述

3、如何估計等式右邊的概率

  • 直接統計出現的次數進行比較(如下式)是不可以的。因為我們無法統計完所有可能的句子。
    在這裡插入圖片描述
  • 所以我們採用馬爾可夫假設(Markov assumption)
    P ( t h e i t s   w a t e r   i s   s o   t r a n s p a r e n t   t h a t ) P ( t h e t h a t ) P\left (the|its\, water\, is\, so\, transparent\, that \right )\approx P\left (the|that \right )
    或者是:
    P ( t h e i t s   w a t e r   i s   s o   t r a n s p a r e n t   t h a t ) P ( t h e t r a n s p a r e n t   t h a t ) P\left (the|its\, water\, is\, so\, transparent\, that \right )\approx P\left (the| transparent\, that \right )
    也就是說我們利用前面有限個數(k個)的單詞的條件概率來估計前面所有單詞的條件概率,通用公式可以表示為:
    在這裡插入圖片描述
    在這裡插入圖片描述

    4、N-grams模型

    • 利用馬爾可夫假設最簡單的模型是一元模型(unigram model),這個模型假設單詞之間是獨立的。
      在這裡插入圖片描述
    • 二元模型(bigram model),假設單詞只與前一個單詞有關聯
      在這裡插入圖片描述
    • N元模型(N-gram model):往下拓展我們可以得到三元、四元,五元。
      • 從一般意義上而言,對語言模型而言還是不夠的,因為語言存在長距離相關性
      • 但是對於我們研究的問題而言,大部分時候是能夠解決問題的

二、估計N元(N-gram)概率

1、二元概率的估計

  • 極大似然的估計
    在這裡插入圖片描述
  • 例子
    在這裡插入圖片描述

2、句子概率的二元估計

《

3、在實際應用中我們會以對數形式運算

在這裡插入圖片描述
優點是

  • 可以防止得到的數字過小下溢(underflow)
  • 加法算起來比乘法更快

4、語言模型工具(toolkits)

三、Evaluation and Perplexity

1、N元模型的外部估計(extrinsic evaluation)

  • 比較模型A和模型B的最好估計:給AB兩個模型一樣的任務,比較A和B的任務的正確情況
  • 問題這樣的估計有的時候非常費時,所以我們的有的時候會使用內部(intrinsic)估計:perplexity。
  • perplexity不是一個好的近似,只有在測試資料和訓練資料相似的時候,才比較好。所以我們一般用在中間試驗(pilot experiment)

2、Perplexity的一種度量

  • 一個比較好的模型,應該給實際上會出現的單詞更高的概率。最好的模型,應該是在測試集上表現得最好的模型。
  • Perplexity就是在測試集上度量的概率,並且用單詞數進行標準化,等價於最大化概率。
    P P ( W ) = P ( w 1 w 2 . . . w N ) 1 N PP\left ( W \right )=P\left (w_{1}w_{2}...w_{N}\right )^{-\frac{1}{N}}

= 1 P ( w 1 w 2 . . . w N ) N =\sqrt[N]{\frac{1}{P\left (w_{1}w_{2}...w_{N}\right )}}
使用鏈式法則 = i = 1 N 1 P ( w i w 1 . . . w i 1 ) N =\sqrt[N]{\prod_{i=1}^{N}\frac{1}{P\left (w_{i}|w_{1}...w_{i-1} \right )}}
當二元模型時: = i = 1 N 1 P ( w i w i 1 ) N

相關推薦

斯坦福大學-自然語言處理入門 筆記 語言模型

一、介紹N-grams 1、概率語言模型 對每個句子給出一個概率,用以判斷機器翻譯中哪個句子是最佳的選擇,拼寫校準中哪個句子可能出現錯誤。 目標:計算句子或者是一系列單詞的概率

斯坦福大學-自然語言處理入門 筆記 十三 統計語言句法分析(prasing)

課程來源:Introduction to NLP by Chris Manning & Dan jurafsky 關於專用名詞和概念:剛接觸NLP領域,所以有些專有名詞的翻譯和專有概念可能會存在一定的偏誤,隨著學習的深入,我會隨時更新改正。 一、關於句法結構的兩種看法

斯坦福大學-自然語言處理入門 筆記 關係抽取(relation extraction)

一、簡介 關係抽取就是從文件中抽取關係,例子如下: 為什麼進行關係抽取 建立新的關係型知識庫(knowledge bases) 增強目前的知識庫(knowledge bases) 支援問題回答(question answering)

斯坦福大學-自然語言處理入門 筆記 資訊抽取(information extraction)

一、介紹 1、資訊抽取(information extraction) 資訊抽取(IE)系統 找到並理解文字中的有限的相關性 從很多的文件之中收集資訊 產生一個相關資訊的結構化的表徵 目的: 進行資

斯坦福大學-自然語言處理入門 筆記 最大熵模型與判別模型

一、生成模型與判別模型 1、引言 到目前為止,我們使用的是生成模型(generative model),但是在實際使用中我們也在大量使用判別模型(discriminative model),主要是因為它有如下的優點: 準確性很高 更容易包含很多和

斯坦福大學-自然語言處理入門 筆記 情感分析(sentiment analysis)

一、情感分析簡述 情感分析(sentiment analysis),又叫意見抽取(opinion extraction),意見挖掘(opinion mining),情感挖掘(sentiment mining)以及主觀分析(subjectivity analysis)。 情感分

斯坦福大學-自然語言處理入門 筆記 文字分類與樸素貝葉斯

一、文字分類任務概述 1、應用領域 歸類 垃圾郵件識別 作者識別 性別/年齡識別 等等 2、定義 輸入:一個文件d,一系列固定的型別C={c1,c2,…,cj} 輸出:預測類別c ∈ C 3、分類方法

斯坦福大學-自然語言處理入門 筆記 拼寫糾正與噪音通道(Noisy Channel)

一、拼寫糾正任務 1、拼寫任務 發現拼寫錯誤 糾正拼寫錯誤 自動糾正 給出糾正建議(一個詞) 給出糾正建議(一些詞) 2、拼寫錯誤的型別 拼寫出來的不是單詞(non-word spelling e

斯坦福大學-自然語言處理入門 筆記 十九 單詞含義與相似性

一、單詞含義與單詞關係 回顧:詞目(lemma)與單詞形式(wordform) 詞目:表示相同的詞根、詞性以及大致的語義 單詞形式:表示在文件中出現的具體單詞形式 一個詞目可能會含有很多含義(sense)。含義(sense)表示單

斯坦福大學-自然語言處理入門 筆記 十八 排序檢索介紹(ranked retrieval)

一、介紹 之前我們的請求都是布林型別。對於那些明確知道自己的需求並且瞭解集合體情況的使用者而言,布林型別的請求是很有效的。但是對於大部分的其他使用者而言,布林請求的問題是:大部分使用者不熟悉布林請求;布林請求比較複雜;布林請求的結果不是太多就是太少。排序檢索應運而生。 排序

斯坦福大學-自然語言處理入門 筆記 十七 資訊檢索(information retrieval)

一、介紹 資訊檢索(information retrieval)是從海量集合體(一般是儲存在計算機中的文字)中找到滿足資訊需求(information need)的材料(一般是文件) 資訊檢索的應用領域:網頁搜尋,郵件搜尋,電腦內部搜尋,法律資訊檢索等等 資訊檢索的基

斯坦福大學-自然語言處理入門 筆記 十六 依存句法分析(Dependency Parsing)

一、介紹 1、依存句法 依存句法假設:句法結構包含相互之間是雙邊不對稱關係的詞典(lexical)元素,這種不對稱的關係成為依存(dependency),在圖中的表現是單向箭頭。 箭頭通常還會打上這種語法關係的名字(主語,前置賓語等等) 箭頭一邊連線中心詞head

斯坦福大學-自然語言處理入門 筆記 十五 詞彙化(Lexicalization)的PCFGs

一、介紹 一個短語的中心詞(head word)可以很好地代表這個短語的結構和含義,在構建PCFG模型的時候,可以考慮將這部分資訊納入其中。如下圖所示加入單詞資訊可以幫助我們更好地選擇出合適的模型。 二、Charniak模型 Charniak模型是詞彙化P

斯坦福大學-自然語言處理入門 筆記 CGSs和PCFGs

一、概率上下文無關文法((Probabilistic) Context-Free Grammars) 1、上下文無關文法(Context-Free Grammars) 我們也可以稱之為片語結構語法(Phrase structure grammars) 由四個成分構成G=

斯坦福大學-自然語言處理入門 筆記 十二 詞性標註(Part-of-speech tagging)

一、詞性(part-of-speech)介紹 詞性:名詞(Nouns),動詞(Verbs),形容詞(Adjectives), 副詞(Adverbs)等等就是我們想要研究的詞性 我們可以把詞性分為開放類(open class)和閉合類(closed class)。

斯坦福大學-自然語言處理入門 筆記 十一 最大熵模型與判別模型(2)

一、最大熵模型 1、模型介紹 基本思想:我們希望資料是均勻分佈的,除非我們有其他的限制條件讓給我們相信資料不是均勻分佈的。均勻分佈代表高熵(high entropy)。所以,最大熵模型的基本思想就是我們要找的分佈是滿足我們限制條件下,同時熵最高的分佈。 熵:表示分佈的不

斯坦福大學-自然語言處理入門 筆記 第二十 問答系統(question answering)

1、什麼是問答系統 問答系統是最早的NLP任務,根據問題的依存關係,找到適合的依存關係的回答。 在現代系統中問題被分為兩類 事實問題的回答一般都是一個簡單的片語或者是命名實體 兩種問答系統的正規化 基於資訊檢索的路徑:TREC; I

[斯坦福大學2014機器學習教程筆記]章-特徵和多項式迴歸

    通過之前的學習,我們知道多變數的線性迴歸。在這節中,將介紹一些可供選擇的特徵以及如何得到不同的學習演算法。當選擇了合適的特徵後,這些演算法往往是非常有效的。另外還將介紹多項式迴歸。它使得我們能夠使用線性迴歸的方法來擬合非常複雜的函式,甚至是非線性函式。    &

斯坦福大學-自然語言處理入門 筆記 第二十一 問答系統(2)

一、問答系統中的總結(summarization) 目標:產生一個摘要文字包含那些對使用者重要和相關的資訊 總結的應用領域:任何文件的摘要和大綱,郵件摘要等等 根據總結的內容,我們可以把總結分為兩類: 單文件總結:給出一個單一文件的摘要、大綱、標題

斯坦福大學自然語言處理 語言模型(Language Modeling)筆記

一、課程介紹 斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程,由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授授課:https://class.coursera.org/nlp/ 以下是本課程的學習筆記,以課程PPT/