1. 程式人生 > >自然語言處理期末複習(3)-(5)模型與句法分析

自然語言處理期末複習(3)-(5)模型與句法分析

第三部分 隱馬爾科夫模型與詞類標註

1.定義:如果給定一個觀察序列(不同顏色的小球序列),不能直接確定狀態轉換序列(罈子的序列),因為狀態轉移過程被隱藏起來了。所以這類隨機過程被稱為隱馬爾科夫過程。


2.詞類標註的方法:

(1)基於規則的詞類標註:查字典,給詞標記所有可能,逐步刪除錯誤的可能

(2)基於隱馬爾科夫模型的詞類標註:詞代表小球,標註代表罈子,相當於給了小球,求罈子

(3)改進隱馬爾科夫模型:bigram:某詞類的出現至於其前面出現的詞有關

(4)基於轉換的詞類標註:將規則與統計結合,採用機器學習的方法,對詞類進行標註

第四部分:模型

一、      最大熵模型

根據已知的約束,做出不偏不倚的選擇

二、      條件馬爾可夫模型——圖模型

有向圖模型:

 圖模型用圖結構描述隨機變數之間的依賴關係 

無向圖模型:

無向圖模型以團為單位將聯合概率分佈分 解為勢函式的乘積

條件馬爾可夫模型:

觀察序列在因子中作為條件出現,使得建模特徵無需考慮特徵間的獨立性 

三、      條件隨機場模型——圖模型

用於解決標記偏執問題

四、      深度語言處理模型

0. 神經網路表達能力強,但是表達能力強 != 成功 神經元數量,區域性最優

   特徵表示分層,底層特徵:簡單概念,高層特徵:自動學習,深度表示為特徵的層次性

1. 前饋神經網路

   每一層都與下層節點相連

2. 卷積神經網路:每一層都與有限個點連線

 1)稀疏連線 2)引數共享 3)寬連線,窄連線

      卷積操作有利於發現與位置無關的區域性特徵

       池化操作可以將任意長度的序列轉換為固定長度的序列

3. 迴圈神經網路:將每一層的隱藏節點也加了進來

1)面向序列結構的建模工具

2)RNN的變種,多層RNN、雙向RNN

3)LSTM

   緩解梯度消失 / 爆炸 問題

   輸入門,輸出門,遺忘門

4)GRU

   緩解梯度消失 / 爆炸 問題

   更新門,重置門



第五部分:句法分析——構建句法樹

一、      CFG

分為自頂向下演算法和自底向上演算法

(1)  earley演算法:用點來記錄操作。

(2)  LR演算法:動作表與轉移表

(3) 廣義LR演算法:ACTION表中可包含多個操作

二、      PCFG

CKY演算法:自底向上分析

概率上下文無關文法,CFG的一種擴充套件。

尋找最佳分析樹:韋位元演算法

樹庫:樹庫(Treebank),是標記了句法樹結構的語料庫。

三、      依存句法分析的主要方法

(1)基於圖的依存分析(Graph-based dependency parsing)

可被視作根據有向圖,求解最大分析樹。

cky演算法

Eisner演算法:一堆三角的組合

(2)基於轉移的依存分析(Transition-based dependency parsing)

arc-standard分析演算法

arc-eager分析演算法

總:基於轉移的依存分析有錯誤積累的問題、具有高效的優勢

Eisner演算法沒有錯誤積累的問題,效率較低

最後記住一點:

1)文件是話題的混合分佈 2)話題是詞的混合分佈