自然語言處理期末複習(3)-(5)模型與句法分析
第三部分 隱馬爾科夫模型與詞類標註
1.定義:如果給定一個觀察序列(不同顏色的小球序列),不能直接確定狀態轉換序列(罈子的序列),因為狀態轉移過程被隱藏起來了。所以這類隨機過程被稱為隱馬爾科夫過程。
2.詞類標註的方法:
(1)基於規則的詞類標註:查字典,給詞標記所有可能,逐步刪除錯誤的可能
(2)基於隱馬爾科夫模型的詞類標註:詞代表小球,標註代表罈子,相當於給了小球,求罈子
(3)改進隱馬爾科夫模型:bigram:某詞類的出現至於其前面出現的詞有關
(4)基於轉換的詞類標註:將規則與統計結合,採用機器學習的方法,對詞類進行標註
第四部分:模型
一、 最大熵模型
根據已知的約束,做出不偏不倚的選擇
二、 條件馬爾可夫模型——圖模型
有向圖模型:
圖模型用圖結構描述隨機變數之間的依賴關係
無向圖模型:
無向圖模型以團為單位將聯合概率分佈分 解為勢函式的乘積
條件馬爾可夫模型:
觀察序列在因子中作為條件出現,使得建模特徵無需考慮特徵間的獨立性
三、 條件隨機場模型——圖模型
用於解決標記偏執問題
四、 深度語言處理模型
0. 神經網路表達能力強,但是表達能力強 != 成功 神經元數量,區域性最優
特徵表示分層,底層特徵:簡單概念,高層特徵:自動學習,深度表示為特徵的層次性
1. 前饋神經網路
每一層都與下層節點相連
2. 卷積神經網路:每一層都與有限個點連線
1)稀疏連線 2)引數共享 3)寬連線,窄連線
卷積操作有利於發現與位置無關的區域性特徵
池化操作可以將任意長度的序列轉換為固定長度的序列
3. 迴圈神經網路:將每一層的隱藏節點也加了進來
1)面向序列結構的建模工具
2)RNN的變種,多層RNN、雙向RNN
3)LSTM
緩解梯度消失 / 爆炸 問題
輸入門,輸出門,遺忘門
4)GRU
緩解梯度消失 / 爆炸 問題
更新門,重置門
第五部分:句法分析——構建句法樹
一、 CFG
分為自頂向下演算法和自底向上演算法
(1) earley演算法:用點來記錄操作。
(2) LR演算法:動作表與轉移表
(3) 廣義LR演算法:ACTION表中可包含多個操作
二、 PCFG
CKY演算法:自底向上分析
概率上下文無關文法,CFG的一種擴充套件。
尋找最佳分析樹:韋位元演算法
樹庫:樹庫(Treebank),是標記了句法樹結構的語料庫。
三、 依存句法分析的主要方法
(1)基於圖的依存分析(Graph-based dependency parsing)
可被視作根據有向圖,求解最大分析樹。
cky演算法
Eisner演算法:一堆三角的組合
(2)基於轉移的依存分析(Transition-based dependency parsing)
arc-standard分析演算法
arc-eager分析演算法
總:基於轉移的依存分析有錯誤積累的問題、具有高效的優勢
Eisner演算法沒有錯誤積累的問題,效率較低
最後記住一點:
1)文件是話題的混合分佈 2)話題是詞的混合分佈