一、介紹N-grams

1、概率語言模型

對每個句子給出一個概率，用以判斷機器翻譯中哪個句子是最佳的選擇，拼寫校準中哪個句子可能出現錯誤。

目標：計算句子或者是一系列單詞的概率
$P\left ( W \right )=P(W_{1},W_{2},W_{3},W_{4},W_{5}...W_{n})$
相關任務：下一個詞的概率
$P\left ( W_{5}|W_{1},W_{2},W_{3},W_{4} \right )$
計算上述兩者的模型就是語言模型。可能更好的叫法是語法（the grammer)，但是語言模型（language model）和LM是標準的叫法。

2、如何計算P(W)

利用概率的鏈式法則來進行計算

鏈式法則
$P\left (x_{1},x_{2},x_{3}...x_{n} \right )=P\left ( x_{1} \right )P\left ( x_{2} |x_{1} \right )P\left ( x_{3} |x_{1}, x_{2}\right )...P\left ( x_{n} |x_{1},... ,x_{n-1}\right )$
公式為：

3、如何估計等式右邊的概率

直接統計出現的次數進行比較（如下式）是不可以的。因為我們無法統計完所有可能的句子。
所以我們採用馬爾可夫假設（Markov assumption）
$P\left (the|its\, water\, is\, so\, transparent\, that \right )\approx P\left (the|that \right )$
或者是：
$P\left (the|its\, water\, is\, so\, transparent\, that \right )\approx P\left (the| transparent\, that \right )$
也就是說我們利用前面有限個數（k個）的單詞的條件概率來估計前面所有單詞的條件概率，通用公式可以表示為：

4、N-grams模型
- 利用馬爾可夫假設最簡單的模型是一元模型（unigram model），這個模型假設單詞之間是獨立的。
- 二元模型（bigram model），假設單詞只與前一個單詞有關聯
- N元模型（N-gram model）：往下拓展我們可以得到三元、四元，五元。
  - 從一般意義上而言，對語言模型而言還是不夠的，因為語言存在長距離相關性
  - 但是對於我們研究的問題而言,大部分時候是能夠解決問題的

二、估計N元（N-gram）概率

1、二元概率的估計

極大似然的估計
例子

2、句子概率的二元估計

3、在實際應用中我們會以對數形式運算

在這裡插入圖片描述
優點是

可以防止得到的數字過小下溢（underflow）
加法算起來比乘法更快

4、語言模型工具（toolkits）

SRILM　http://www.speech.sri.com/projects/srilm
Google N-Gram Release (2006年八月）http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html
Google book N-grams http://ngrams.googlelabs.com/

三、Evaluation and Perplexity

1、N元模型的外部估計（extrinsic evaluation）

比較模型A和模型B的最好估計：給AB兩個模型一樣的任務，比較A和B的任務的正確情況
問題這樣的估計有的時候非常費時，所以我們的有的時候會使用內部（intrinsic）估計：perplexity。
perplexity不是一個好的近似，只有在測試資料和訓練資料相似的時候，才比較好。所以我們一般用在中間試驗（pilot experiment）

2、Perplexity的一種度量

一個比較好的模型，應該給實際上會出現的單詞更高的概率。最好的模型，應該是在測試集上表現得最好的模型。
Perplexity就是在測試集上度量的概率，並且用單詞數進行標準化，等價於最大化概率。
$PP\left ( W \right )=P\left (w_{1}w_{2}...w_{N}\right )^{-\frac{1}{N}}$

$=\sqrt[N]{\frac{1}{P\left (w_{1}w_{2}...w_{N}\right )}}$
使用鏈式法則 $=\sqrt[N]{\prod_{i=1}^{N}\frac{1}{P\left (w_{i}|w_{1}...w_{i-1} \right )}}$
當二元模型時： $= \sqrt[N]{\prod_{i = 1}^{N} \frac{1}{P (w_{i} ∣ w_{i - 1})}}$

斯坦福大學-自然語言處理入門筆記第四課語言模型

一、介紹N-grams 1、概率語言模型對每個句子給出一個概率，用以判斷機器翻譯中哪個句子是最佳的選擇，拼寫校準中哪個句子可能出現錯誤。目標：計算句子或者是一系列單詞的概率

斯坦福大學-自然語言處理入門筆記第十三課統計語言句法分析（prasing）

課程來源：Introduction to NLP by Chris Manning & Dan jurafsky 關於專用名詞和概念：剛接觸NLP領域，所以有些專有名詞的翻譯和專有概念可能會存在一定的偏誤，隨著學習的深入，我會隨時更新改正。一、關於句法結構的兩種看法

斯坦福大學-自然語言處理入門筆記第十課關係抽取（relation extraction）

一、簡介關係抽取就是從文件中抽取關係，例子如下：為什麼進行關係抽取建立新的關係型知識庫（knowledge bases）增強目前的知識庫（knowledge bases）支援問題回答（question answering）

斯坦福大學-自然語言處理入門筆記第九課資訊抽取（information extraction）

一、介紹 1、資訊抽取（information extraction）資訊抽取（IE）系統找到並理解文字中的有限的相關性從很多的文件之中收集資訊產生一個相關資訊的結構化的表徵目的：進行資

斯坦福大學-自然語言處理入門筆記第八課最大熵模型與判別模型

一、生成模型與判別模型 1、引言到目前為止，我們使用的是生成模型（generative model)，但是在實際使用中我們也在大量使用判別模型（discriminative model)，主要是因為它有如下的優點：準確性很高更容易包含很多和

斯坦福大學-自然語言處理入門筆記第七課情感分析（sentiment analysis）

一、情感分析簡述情感分析（sentiment analysis），又叫意見抽取（opinion extraction），意見挖掘（opinion mining）,情感挖掘（sentiment mining）以及主觀分析（subjectivity analysis）。情感分

斯坦福大學-自然語言處理入門筆記第六課文字分類與樸素貝葉斯

一、文字分類任務概述 1、應用領域歸類垃圾郵件識別作者識別性別/年齡識別等等 2、定義輸入：一個文件d，一系列固定的型別C={c1,c2,…,cj} 輸出：預測類別c ∈ C 3、分類方法

斯坦福大學-自然語言處理入門筆記第五課拼寫糾正與噪音通道（Noisy Channel）

一、拼寫糾正任務 1、拼寫任務發現拼寫錯誤糾正拼寫錯誤自動糾正給出糾正建議（一個詞）給出糾正建議（一些詞） 2、拼寫錯誤的型別拼寫出來的不是單詞（non-word spelling e

斯坦福大學-自然語言處理入門筆記第十九課單詞含義與相似性

一、單詞含義與單詞關係回顧：詞目（lemma）與單詞形式（wordform）詞目：表示相同的詞根、詞性以及大致的語義單詞形式：表示在文件中出現的具體單詞形式一個詞目可能會含有很多含義（sense）。含義（sense）表示單

斯坦福大學-自然語言處理入門筆記第十八課排序檢索介紹（ranked retrieval）

一、介紹之前我們的請求都是布林型別。對於那些明確知道自己的需求並且瞭解集合體情況的使用者而言，布林型別的請求是很有效的。但是對於大部分的其他使用者而言，布林請求的問題是：大部分使用者不熟悉布林請求；布林請求比較複雜；布林請求的結果不是太多就是太少。排序檢索應運而生。排序

斯坦福大學-自然語言處理入門筆記第十七課資訊檢索（information retrieval）

一、介紹資訊檢索（information retrieval）是從海量集合體（一般是儲存在計算機中的文字）中找到滿足資訊需求（information need）的材料（一般是文件）資訊檢索的應用領域：網頁搜尋，郵件搜尋，電腦內部搜尋，法律資訊檢索等等資訊檢索的基

斯坦福大學-自然語言處理入門筆記第十六課依存句法分析（Dependency Parsing）

一、介紹 1、依存句法依存句法假設：句法結構包含相互之間是雙邊不對稱關係的詞典（lexical）元素，這種不對稱的關係成為依存（dependency），在圖中的表現是單向箭頭。箭頭通常還會打上這種語法關係的名字（主語，前置賓語等等）箭頭一邊連線中心詞head

斯坦福大學-自然語言處理入門筆記第十五課詞彙化（Lexicalization）的PCFGs

一、介紹一個短語的中心詞（head word）可以很好地代表這個短語的結構和含義，在構建PCFG模型的時候，可以考慮將這部分資訊納入其中。如下圖所示加入單詞資訊可以幫助我們更好地選擇出合適的模型。二、Charniak模型 Charniak模型是詞彙化P

斯坦福大學-自然語言處理入門筆記第十四課 CGSs和PCFGs

一、概率上下文無關文法（(Probabilistic) Context-Free Grammars） 1、上下文無關文法（Context-Free Grammars）我們也可以稱之為片語結構語法(Phrase structure grammars) 由四個成分構成G=

斯坦福大學-自然語言處理入門筆記第十二課詞性標註（Part-of-speech tagging）

一、詞性（part-of-speech)介紹詞性：名詞（Nouns)，動詞（Verbs)，形容詞（Adjectives），副詞（Adverbs)等等就是我們想要研究的詞性我們可以把詞性分為開放類（open class）和閉合類（closed class）。

斯坦福大學-自然語言處理入門筆記第十一課最大熵模型與判別模型（2）

一、最大熵模型 1、模型介紹基本思想：我們希望資料是均勻分佈的，除非我們有其他的限制條件讓給我們相信資料不是均勻分佈的。均勻分佈代表高熵（high entropy）。所以，最大熵模型的基本思想就是我們要找的分佈是滿足我們限制條件下，同時熵最高的分佈。熵：表示分佈的不

斯坦福大學-自然語言處理入門筆記第二十課問答系統（question answering）

1、什麼是問答系統問答系統是最早的NLP任務，根據問題的依存關係，找到適合的依存關係的回答。在現代系統中問題被分為兩類事實問題的回答一般都是一個簡單的片語或者是命名實體兩種問答系統的正規化基於資訊檢索的路徑：TREC; I

[斯坦福大學2014機器學習教程筆記]第四章-特徵和多項式迴歸

通過之前的學習，我們知道多變數的線性迴歸。在這節中，將介紹一些可供選擇的特徵以及如何得到不同的學習演算法。當選擇了合適的特徵後，這些演算法往往是非常有效的。另外還將介紹多項式迴歸。它使得我們能夠使用線性迴歸的方法來擬合非常複雜的函式，甚至是非線性函式。 &

斯坦福大學-自然語言處理入門筆記第二十一課問答系統（2）

一、問答系統中的總結（summarization）目標：產生一個摘要文字包含那些對使用者重要和相關的資訊總結的應用領域：任何文件的摘要和大綱，郵件摘要等等根據總結的內容，我們可以把總結分為兩類：單文件總結：給出一個單一文件的摘要、大綱、標題

斯坦福大學自然語言處理第四課語言模型（Language Modeling）筆記

一、課程介紹斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程，由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授授課：https://class.coursera.org/nlp/ 以下是本課程的學習筆記，以課程PPT/

斯坦福大學-自然語言處理入門 筆記 第四課 語言模型