1. 程式人生 > >NLP--自然語言處理與機器學習會議

NLP--自然語言處理與機器學習會議

整理至11月中旬在重慶參加的自然語言處理與機器學習會議,第一講為自然語言處理。

由基本理論到實際運用,整理了基本的框架。

1.      自然語言處理基礎

詞性標註(POS):

為句子中的每個詞語標註詞性,可看做是句法分析的關鍵任務,也可以看做是句法分析的最低層次.對後續句法分析,語義消歧等任務非常有用.

POS集合,也就是基本詞性規則:

常用的是PennTreebank set,包好45個tags

基本方法:

基於規則:人工基於詞彙與其他語言知識構造標註規則

基於學習:基於人工語料進行訓練

       統計模型:HMM,Maximum EntropyMarkov(MEMM),conditional random field(CRF)

       規則學習:transformation basedlearning(TBL)

序列POS:

POS問題可以看做最一個序列進行POS的問題.

基於分類的序列標註:

把每個詞看做上下文的一個特徵,如相鄰的詞,用分類演算法來解決.

如:John saw thefish and decided to take it to the table.

Saw可以看成john + saw +fish的一個特徵,用分類演算法來POS.

缺點:

1.不容易整合來自左右兩個方向上的詞語標記資訊.

2.難以表達與傳遞詞語標籤半段的不確定性,難以為序列中所有詞語統一確定最可能的聯合標籤判斷.

具體的演算法有前向分類與後向分類.

基於概率的序列標註:概率序列標註模型允許整合序列中多個相互依賴的個體分類的不確定性,統一確定最可能的全域性標籤判斷.

典型模型:HMM,MEMM,CRF

其中,HMM可使用監督學習與無監督學習,半監督學習等等.其中使用viterbi動態規劃演算法.

中文語法分析效果

總體F值為95%

主要錯誤為新詞;命名實體識別效果偏低,效果跟文字型別有關.總體水品超過90%.

句法分析(句子結構)

型別:句法分析與依存關係分析;完全分析與淺層分析.

涉及知識:組塊分析(chunking),Chomsky語法層次,Context Free Grammars(CFG)上下文無關語法,句法樹(parsing)等.

句法結構分析(parsing):

1.給定一串終結符號和一個CFG,確定該符號是否能夠被CFG所生成,同時為該符號串返回句法樹.

2.搜尋以獲取句法樹的推導

Top-down parsing:從初始符開始

Bottom-up parsing:從符號串中的終結符開始

3.      動態規劃parsing方法

CKY(cocke-kasami-younger)演算法;基於自底向上分析,需要對句法進行規範化

Enrley parser:自頂向下分析,不需要句法規範化,但更加複雜

Chart parser:融合自頂向下與自底向上搜尋

統計句法分析

使用句法概率模型為每顆句法樹計算概率值;允許使用有監督學習和無監督學習得到句法分析模型.

Probabilistic context freegrammar(PCFG):CFG的概率形式;以及概率話的CKY等.

已訓練得到的樹庫:

見wiki:Treebank

中文句法分析效果:

短語結構總體水平F值>=80%,依存關係為90%

2.      網際網路語義計算與資訊總結

語義分析(句子含義):

獲取語言單元的意義:不同層次,詞彙級,句子級,篇章級

句法驅動的句子級語義分析:句子的語義分析由其組成成分的語義組合而得到.基於詞彙和語法資訊獲取句子意義表達.

1.運用句法樹生成一階邏輯表示式.

2.語法角色標註:施事,受事,來源,目的,工具等.

語法分析效果:深層語義分析很困難,目前沒有成熟的技術和系統;語義角色標註的總體水平(F值)在70%

篇章分析(discourseparsing)

篇章是一組連貫且具有結構的句子,如獨白,對話.

主要任務:篇章分割(分段)句間關係識別,指代消解.

理想情況下需要深層文字理解技術來應對以上任務,但目前為止主要採用淺層分析方法.

1.篇章分割:

將文件分割成子話題的線性序列.如科技文章可分為:摘要,簡介,方法,結果,結論等等.

應用:文件摘要:每個段落分別摘要;資訊檢索與資訊抽取:在合適的段落上進行

相關任務:對於語音識別文字的段落分割.

方法:基於凝聚性的方法(Cohesion-based approach)

將文旦分割成子話題,每個子話題中的段落/句子之間相互凝聚子話題邊界處的凝聚性較差

TextTiling演算法.

2.篇章結構(discoursestructure):

基於連貫關係的篇章層次結構,類似於句法樹的結構.樹節點表示句子之間的連貫關係:discourse segment(notlinear)

應用:文摘系統:可以忽略或合併被elaboration關係連線的單元;問答系統:利用explanation關係進行回答;資訊抽取系統:不需要對從沒有連貫關係的單元上抽取的資訊融合.

3.篇章解析

指代消除(referenceresolution):確定哪個實體被哪個語言表達所意指.

分類:

coreference resolution(共指消解):發現指向相同實體的指稱表示式,也就是尋找共指鏈,如:{Mr.Obama,The president,he}

pronominal Anaphora Resolution(人稱代詞消解):如下一句的he指向Mr.Obama.

詞彙語義計算

我想扁你->Ithink flat you.

研究意義:怎樣表達詞語的意義?詞語之間是怎樣關聯的?同義詞,反義詞,上位詞,下位詞,相似不相似等等.

名詞:詞義(word senses):

一個詞語的特定意義

一個詞語可以有多個詞義

一個詞義能被一個註釋所描述.如apple:水果,紅色,黃色或者綠色,甜味.

詞彙相似度(wordsimilarity)

同義詞/反義詞等二值關係

更寬鬆的準則:詞彙相似度/詞義距離(Word similarity or word semantic distance)

兩種計算方法:

基於語義詞典的方法(Thesaurus-based):構造一個wordnet,判斷在wordnet中的關係

基於語料統計的方法(Distributional/Statisticalalgorithm):比較詞語在語料庫中的上下文.

基於Wordnet的詞義相似度:

著名的英文詞義關係計算資源,同義詞庫。

基本單元為一個synet,也就是一個同義詞集合。

每個詞條包含多個synet,用來註解。

不同的synets之間通過不同的詞義關係相連。

語義詞典方法的缺點:

許多語言沒有好用的語義詞典。許多新詞不被包含。限於名詞,對於形容詞和動詞並不完善。

基於語料統計的詞彙相似度:

比如根據許多句話以及上下文,我們可以推斷某個未知的英文單詞的含義。語料統計也是相似的過程。通過網際網路的語料,來統計某個詞的語義。或者有機遇wiki百科的語義分析等。

詞義消歧

計算完語義後,就可以通過語義來消歧。

網際網路資訊摘要

對海量的內容進行提煉與總結,以簡潔,直觀的摘要來概括使用者所關注的主要內容。比如微博圖譜,新聞摘要等等,是自然語言處理與篇章分析的一個主要運用。