Introduction to NLP by Chris & Dan翻譯第十四課 CGSs和PCFGs

阿新 • • 發佈：2018-12-17

一、概率上下文無關文法（(Probabilistic) Context-Free Grammars）

1、上下文無關文法（Context-Free Grammars）

我們也可以稱之為片語結構語法(Phrase structure grammars)
由四個成分構成G=（T，N，S，R）
- T表示最終端（terminal），如下圖粉色部分的子節點
- N表示非最終端（nonpreterminal），如下圖粉色部分的中間節點
- S表示開始（S∈N），如下圖粉色部分的根節點
- R表示一系列的規則，格式為X→γ，其中X∈N，γ∈（N∪T），例子如下圖左邊的規則

2、NLP的上下文無關文法（Context-Free Grammars）

在NLP的背景下，我們對上下文無關文法的定義進行了一定的修改
由六個成分組成G=（T，C，N，S，L，R）
- T表示最終端（terminal），如上圖粉色部分的子節點，和上面定義一致
- C表示次終端（preterminal），如上圖粉色部分的子節點的父節點
- N表示非最終端（nonpreterminal），如上圖粉色部分的中間節點，和上面定義一致
- S表示開始（S∈N），如上圖粉色部分的根節點，和上面定義一致
- L表示字典（lexicon），格式為X→x，其中X∈C並且x∈T，如上圖中間的規則
- R表示一系列的語法規則，格式為X→γ，其中X∈N，γ∈（N∪C），如上圖左邊的規則
按照慣例，S表示開始。但是，在統計自然語言中，我們在最開始還會使用另外一個節點（ROOT，TOP）

對空序列，我們會用e來表示

3、概率上下文無關文法（Probabilistic/stochastic Context-Free Grammars

概率上下文無關文法是上下文無關文法的拓展，在原來的四個元素上增加了一個元素P
由五個成分構成G=（T，N，S，R，P）
- T表示最終端（terminal），如下圖粉色部分的子節點
- N表示非最終端（nonpreterminal），如下圖粉色部分的中間節點
- S表示開始（S∈N），如下圖粉色部分的根節點
- R表示一系列的規則，格式為X→γ，其中X∈N，γ∈（N∪T），例子如下圖左邊的規則
- P表示概率函式，P的範圍是[0,1]，並且和為1，公式如下：
文法規則表示如下（增加了概率）：
概率計算
- 句法結構樹的概率P(t)計算：生成它的規則的概率的乘積
- 字串的概率P(s)計算: 有這個字串的句法結構樹的和
- 例子：同一個句子的兩個不同的句法結構樹第一顆樹是動詞附屬（verb attach），概率計算是0.0008232，第二顆樹是名詞附屬(noun attach)，概率計算是0.00024696。字串的概率是兩者之和0.00107016

二、語法轉化

1、Chomsky Normal Form

我們可以把上下文無關文法（Context-Free Grammars）轉化為Chomsky Normal Form的形式。這種形式不會改變語言本身，但是呈現出的句法結構樹可能會有所不同。可以使得句法分析更加高效。
在這種形式中，所有的規則可以轉化為兩種形式：X→Y Z或者是X→w，其中X，Y，Z∈N，w∈T
為了實現這種形式，空和一對一的規則（X→Y）會被遞迴地消除
一對N的規則（N>2）則會被拆解成新的非終端項（nonterminals）

2、一個轉化的例子

初始的上下文無關文法（Context-Free Grammars）
第一步：消除空（e），由於NP→e，要把這一條刪除同時保留下這一條的資訊，我們可以把左邊規則中箭頭右側出現NP的規則做兩種假設，比如S→NP VP可以改進為兩條規則：S→NP VP和S→VP
第二步：消除一對一的規則（X→Y）。把一對一的規則轉化為字典形式放在字典（lexicon）中。具體如VP→V，則和字典（lexicon）中V在左側的規則一起生成新規則，如VP→people。並進行迭代消除。
第三步：一對N的規則拆成一對二的規則，比如VP→V NP PP拆成兩個規則VP → V @VP_V，@VP_V →NP PP
在實踐中，完整的Chomsky Normal Form轉換是很痛苦的，一對N的規則拆分是很容易的，但是空（e）和一對一規則的消除非常麻煩。對於上下文無關文法（CFG）句法分析而言，一對N的規則拆分可以幫助建立二叉樹，可以有效降低複雜度。而其他操作不是必要的，充其量就是會使得演算法更乾淨更快而已。下圖右邊就是一對N的規則拆分的句法分析樹。下圖有顏色的部分表示了同一個短語的不同的四個句法結構樹，第一個是初始，第二個是去掉了空，第三個是去掉了一對一保留了最高的父節點，第四個是去掉了一對一保留了最低的父節點（三四比起來我們更傾向於四，因為可以保留完整的字典）

三、CKY演算法

1、演算法介紹

我們採用CKY演算法來進行句法分析的時間複雜度是在O（N³）
大致來說，計算方法是一個動態規劃的方法。如下圖，從最底層開始，最底層的每一格代表對應的一個單詞，其中包含若干種可能以及對應的概率。次底層的每一格代表的是次終端（preterminal），包含左下角和右下角兩個底層的格子對應的單詞構成的成分（constituency）。
舉例而言：下面的例子中有兩個詞people fish，根據字典（lexicon），people對應三種成分（NP，V，N），fish對應四種成分（VP，NP，V，N）。接下來，計算的是兩個單詞組合的成分。根據規則NP→ NP NP，people fish的成分是NP的時候概率是=P(NP→people)*P(NP→fish)*P(NP→ NP NP)=0.350.140.1=0.0049。當有兩種組合的結果成分是相同的時候，我們選取最大的概率放入對應的格子中。

2、演算法拓展

一對一規則：可以整合進演算法。雖然可能會使得演算法比較混亂，但是不會影響到演算法的複雜度
空：可以使用fencepost整合進演算法，並且不會影響演算法的複雜度。例子如下，假設有n個單詞，底層構建的時候選用0-n位置，在每個整數位都可以插入空，在整數之間的位置則是單詞。
二分化，即去掉一對N規則是很有必要的。這是使得演算法複雜度降低從指數級到O（N³）的關鍵，所以在進行CKY演算法之前，一定要進行二分化。

3、程式碼

function CKY(words, grammar) returns [most_probable_parse,prob]
  score = new double[#(words)+1][#(words)+1][#(nonterms)]  //儲存格子中所有可能成分和對應的概率
  back = new Pair[#(words)+1][#(words)+1][#nonterms]] //指標，指出最佳的成分
  
  ****接下來主要處理字典lexicon*****
  for i=0; i<#(words); i++ 對每個單詞
    for A in nonterms 對每個非終端
      if A -> words[i] in grammar 如果A指向對應的單詞的話，就在score中儲存
        score[i][i+1][A] = P(A -> words[i])
    //handle unaries 下面部分處理一對一規則
    boolean added = true
    while added 
      added = false
      for A, B in nonterms
        if score[i][i+1][B] > 0 && A->B in grammar 一對一規則搜尋
          prob = P(A->B)*score[i][i+1][B]
          if prob > score[i][i+1][A] 判斷一對一的概率是否會比原來的大，如果是的話就覆蓋原來的概率
            score[i][i+1][A] = prob
            back[i][i+1][A] = B
            added = true
            
   ****接下來主要處理語法規則*****
	for span = 2 to #(words)
	  for begin = 0 to #(words)- span
	    end = begin + span
	    for split = begin+1 to end-1 對一串語句而言，選擇二分的節點
	      for A,B,C in nonterms
	            prob=score[begin][split][B]*score[split][end][C]*P(A->BC) 計算對應的概率
	        if prob > score[begin][end][A] 如果概率大於原來的概率就覆蓋，修改back指標
	          score[begin]end][A] = prob
	          back[begin][end][A] = new Triple(split,B,C)
	    //handle unaries  下面部分處理一對一規則
	    boolean added = true
	    while added
	      added = false
	      for A, B in nonterms
	        prob = P(A->B)*score[begin][end][B];
	        if prob > score[begin][end][A]  判斷一對一的概率是否會比原來的大，如果是的話就覆蓋原來的概率
	          score[begin][end][A] = prob
	          back[begin][end][A] = B
	          added = true
return buildTree(score, back)

四、例子

沒有空（e）的規則
socre陣列，行數和列數都是單詞數
第一步：利用lexicon在score中寫入規則：以0-1的fish為例，對應的lexicon是N→fish 0.2和V→fish 0.6（下面每一步的結構都在下一步的圖中給出）
第二步：處理字典部分的一對一規則。以0-1的fish為例，已有的lexicon是N→fish 0.2和V→fish 0.6。可以找到一對一語法規則VP→V（概率是0.60.1），NP→N（概率是0.70.2），因為原來的概率是0，所以對其直接進行覆蓋。對一共四個的語法規則再迭代，可以找到一對一的語法規則S→VP（概率為0.60.10.1）
第三步：處理語法規則。計算次底層的概率，以fish和people為例
- NP -> NP NP : P(NP->N)*P(NP->N)*P(NP -> NP NP)=0.14*0.35*0.1
- VP ->V NP: P(V->fish)*P(NP->N)*P(VP ->V NP)=0.6*0.35*0.5
- S->NP VP: P(NP->N)*P(VP->V)*P(S->NP VP)=0.14*0.01*0.9=0.00126
第四步：處理一對一語法規則。以fish和people為例，S->VP:P(VP ->V NP)*P(S->VP)=0.6*0.35*0.5*0.1=0.0105，比之前算出的概率大，覆蓋S的概率
第五步，計算第三層的語法規則。以fish people fish為例，可能存在兩種可能：二元分割點在1，二元分割點在2。分別計算可能的概率，並進行一對一規則的處理。
第六步：計算最後一層。
結果

五、成分句法分析評估方法

計算方法：對每一格單詞間隔進行索引，將每個巢狀的成分，從上到小從左到右用索引表示出來。比如下面的句法分析，第一層的S是0-11，接下來NP是0-2，VP是2-9。基於上面的成分索引，計算對應的precision和recall。標註評價是另外給出的一個正確率。
PCFGs模型的優點

Introduction to NLP by Chris & Dan翻譯第十四課 CGSs和PCFGs

一、概率上下文無關文法（(Probabilistic) Context-Free Grammars） 1、上下文無關文法（Context-Free Grammars）我們也可以稱之為片語結構語法(Phrase structure grammars) 由四個成

Introduction to NLP by Chris & Dan翻譯第十九課單詞含義與相似性

回顧：詞目（lemma）與單詞形式（wordform）詞目：表示相同的詞根、詞性以及大致的語義單詞形式：表示在文件中出現的具體單詞形式一個詞目可能會含有很多含義（sense）。含義（sense）表示單詞意思的一個方面的表現。比如說bank就有兩個含義。 …a bank can hold th

斯坦福大學-自然語言處理入門筆記第十四課 CGSs和PCFGs

一、概率上下文無關文法（(Probabilistic) Context-Free Grammars） 1、上下文無關文法（Context-Free Grammars）我們也可以稱之為片語結構語法(Phrase structure grammars) 由四個成分構成G=

AGG第三十四課 stroke_aa和outline_aa渲染線段效率對比

agg outline_aa stroke1 渲染代碼 void TestStrokeAAPerformance() { agg::rendering_buffer &rbuf = rbuf_window(); agg::pixfmt_bgr24 pixf(rbuf); typedef

C++筆記第十四課進階面向物件（下）---狄泰學院

如果在閱讀過程中發現有錯誤，望評論指正，希望大家一起學習，一起進步。學習C++編譯環境：Linux 第十四課進階面向物件（下） 1.面向物件基本概念類之間的基本關係繼承從已存在類細分出來的類和原類之間具有繼承關係（is-a）繼承的類（子類）擁有原類（父類）的所有屬

CLR via C#學習筆記-第十四章-字元和字串

14.1 字元 Char結構 Char結構提供的欄位每個字元都是System.Char結構的例項，Char型別提供了兩個公共只讀常量欄位：MinValue('\0')和MaxValue('\uffff\)。 Char例項能呼叫的方法為Char的例項呼叫靜態GetUnicodeCategory方法

【問鏈-EOS公開課】第十四課 EOS從單簽名到多簽名

一、基本知識賬戶：是儲存在區塊鏈上的人們可識別的ID。許可權：每個事務都有，它是由已配置許可的賬戶所評估的。閾值：每個被命名的許可權都有一個有效範圍，必須滿足是在許可下的一個簽名事務，將被視為有效。簽名：事務的簽名是通過利用一個客戶端來執行，該客戶端擁有一個已載入並已解鎖的錢包。

第十四課如何在DAPP應用實現自帶錢包轉賬功能？

#1，為什麼DAPP生態需要自帶錢包功能？區塊鏈是一個偉大的發明，它改變了生產關係。很多生態，有了區塊鏈技術，可以由全公司員工的"全員合夥人"變成了全平臺的”全體合夥人”了，是真正的共享經濟模式。什麼意思呢？舉例來說，現在很多網際網路平臺，比如淘寶，普通消

C語言筆記第十四課單引號和雙引號

第十四課單引號和雙引號 C語言中的單引號用來表示字元字面量 C語言中的雙引號用來表示字串字面量下面的程式片段合法嗎？三條語句都合法，1、2語句有警告 char* p1 = 1; //數字1 char* p2 = ‘1’; //字元1 char* p3 = “1”; //

javaweb基礎第十四課：ServletConfig介面

這節課我們來講ServletConfig介面在講ServletConfig之前我們先來說下Servlet，來看看HttpServlet類 public abstract class HttpServlet extends GenericServ

Android 第十四課使用LitePal新增資料（更新資料）

我們注意到當你登入一個app，是不是需要先註冊呢？，所謂註冊，簡單地來理解是不是就是把輸入框中地資料傳入資料庫中呢？這裡我們設定簡單一點，註冊的資訊只包括兩項，一項是使用者名稱，另一項是密碼。我們乾脆建立一個表Driveruser。在Android Studio 中新建一個j

第十四課功能鍵之取反——C#計算器程式設計教學

為了實現取反，影響的面很大，但也不得不硬著頭皮弄啊。根據程式設計原則，先要進行分析。算式中出現負數很正常對吧，出現負數怎麼個樣子呢？比如-8，它在算式裡是怎麼表示的？是“(-8)”。大家有沒有想到，其中這個“-”，我們在前面的程式裡是不是一個運算子？當然是的，所以首先一個，SetOp方法要修改。其次，你們有沒

第十四課主機防火牆（上）

目錄防火牆簡介 iptables 與 firewalld iptables 基礎 3.1 鏈的概念 3.2 表的概念 3.3 鏈與表的關係 3.4 資料通過的流程 iptables 語法 ipta

第十六課更新和刪除資料

第十六課、更新和刪除資料預習與回顧：第十五課學習如何將行插入到資料庫表中；第十六課講學習UPDATE和DELETE進一步操作表資料。 16.1、更新資料 UPDATE更新表中的特定行；更新表中的所有行。!!不要省略

python第十四課--排序及自定義函數之案例一：選擇排序

空間循環列表 pri 使用次數選擇 pre 第十四案例一：選擇排序使用選擇排序的思想實現列表數據的升序排序 lt=[45,12,56,-32,-3,44,75,-22,100] length=len(lt) # print(‘排序前：‘+str(lt)) 使用

python第十四課--排序及自定義函數

變參兩種參數否則存在 turn 調用維護兩層 1.排序特點：1).升序：從小到大2).降序：從大到小課堂實現選擇排序：參看老郭選擇排序.py文件2.函數：(方法/method)自定義函數：概念：它表示一段作用範圍(作用域)，當中封裝了一段業務邏輯代碼，此範圍有名

python第十四課--排序及自定義函數之案例二：冒泡排序

實現 int python 一個 str -- 排序冒泡排序 pri 案例二：冒泡排序 lt1=[45,12,56,-32,-3,44,75,-22,100] print(‘排序前：‘+str(lt1)) 自定義函數：實現冒泡排序（升序）原則：1).有沒有形參？有，接

北大AI公開課第十一課--語言智慧的進展by微軟亞洲研究院周明

想做的事情很多，但是時間卻很有限。所以我們更應當在開始任何事情之前，做好足夠的計劃和準備，這樣才能在有限的時間裡做出最恰當的選擇，為自己真正值得做的事爭取出更多時間。之所以有這個感悟是因為最近太多事情要做，但是卻一團糟，所以突然發現，或許應當做一個更為嚴密的計劃！第十一講

Gradle 1.12 翻譯——第十六章. 使用檔案

有關其他已翻譯的章節請關注Github上的專案：https://github.com/msdx/gradledoc/tree/1.12，或訪問：http://gradledoc.qiniudn.com/1.12/userguide/userguide.html

第十四章 pandas官方文件0.22中文教程---Tutorials（lessons 3 ），個人渣翻譯

Lesson 3 建立函式，從EXCEL讀取，匯出到EXCEL - 異常值 - Lambda函式-切片和切塊資料。 import pandas as pd import numpy.random as np import matplotlib.p

Introduction to NLP by Chris & Dan翻譯 第十四課 CGSs和PCFGs

一、概率上下文無關文法（(Probabilistic) Context-Free Grammars）

1、上下文無關文法（Context-Free Grammars）

2、NLP的上下文無關文法（Context-Free Grammars）

3、概率上下文無關文法（Probabilistic/stochastic Context-Free Grammars

二、語法轉化

1、Chomsky Normal Form

2、一個轉化的例子

三、CKY演算法

1、演算法介紹

2、演算法拓展

3、程式碼

四、例子

五、成分句法分析評估方法

相關推薦

Introduction to NLP by Chris & Dan翻譯第十四課 CGSs和PCFGs