斯坦福大學-自然語言處理入門筆記第九課資訊抽取（information extraction）

阿新 • • 發佈：2018-11-06

一、介紹

1、資訊抽取（information extraction）

資訊抽取（IE）系統
- 找到並理解文字中的有限的相關性
- 從很多的文件之中收集資訊
- 產生一個相關資訊的結構化的表徵
- 目的：
  - 進行資訊的組織使之對人有用
  - 以相對精確的語義形式存放資訊方便計算機演算法後續的查詢
資訊抽取（IE）系統一般會抽取清晰的實際的資訊（誰對誰做了什麼在什麼時候）
低程度的資訊抽取
- 一般被用在蘋果或者是谷歌的郵件上，或者是web索引。通常是基於正則表達和名字列表。

2、命名實體識別（named entity recognition）

這是在資訊抽取中十分重要的一個分支：找到並識別文件中的名字
主要用途：
- 命名實體的索引（index）和連結(link off）
- 分析情感指向的公司或者產品
- 很多資訊抽取的關係都是和命名實體相關
- 在問題回答（question answer）領域，答案往往是命名實體。

二、命名實體識別的評估

正確識別一個命名實體，需要包含兩個方面，一方面需要找到表示命名實體的片語，另一方面對命名實體正確歸類，如果下圖所示：
對命名實體識別（NER）或者資訊抽取（IE）而言，用之前介紹的recall和precision來進行評估會存在一個問題：沒有辦法定義邊界錯誤（boundary error）。舉例子而言：
對於句子：First Bank of Chicago announced earnings…而言，機器識別Bank of Chicago作為實體，但實際First Bank of Chicago才是命名實體。對於這樣的錯誤，我們在歸類的時候即可以歸到FN也可以歸到FP。所以，基於這樣的度量標準，實際上邊界錯誤比無法識別（只會歸類到FN）更嚴重。
其他度量，比如MUC得分會好一些

三、命名實體識別的序列模型（sequence model）

1、命名實體識別（NER）的機器學習序列模型

訓練
- 收集一系列有代表性的訓練文件
- 給每個token標註它的類別，如果不是命名實體的話就標註other（O)
- 設計適合文件和類別的特徵抽取機制
- 訓練一個序列分類來預測資料的類別
測試
- 一系列的測試文件
- 執行序列模型來給每個token進行標註
- 輸出識別出的實體

2、對序列標註進行類別編碼

這裡有兩種可以使用的編碼方式：

IO編碼，只標記每個詞的類別。這裡需要的標註個數是C＋１。
IOB編碼，除了標記每個詞的類別之外，標記還會表示出這個類別的開始和結束，如下圖B－PER表示Person類別的開始，I－PER表示person類別的結束。這樣的話，當幾個相同的命名實體是連在一起的時候，我們可以區分出有幾個命名實體。這裡需要的標註個數是２C＋１。
在實際應用中，IO編碼效果可能會更好。（在Stanford的姓名粗識別中使用IO編碼）
- 一方面是IO編碼的速度更快，標註數量更少
- 另一方面，幾個相同的命名實體是連在一起的情況很少，而且在這個情況下IOB編碼也很難正確識別出命名實體的開始和結束。

3、序列標記的特徵

單詞
- 目前的單詞
- 前一個/後一個單詞（上下文）
其他推論型的語言分類
- 詞類標記
上下文的標籤（label）
- 前一個（或者後一個）詞的標籤
單詞的子字串：我們可以利用單詞中的某些字元來進行判別，比如含有oxa子字串的單詞都是drug。
單詞的形狀：包括單詞的長度、大小寫、是否含有數字、是否含有希臘字母、連詞符。利用下面的規則，我們將其抽取成特徵。
- A，B，C…→X
- a,b,c→x
- 1，2，3…→d
- - → -
- . → .
- 對於長過四個字母的單詞，我們取前兩個和後兩個；如果單詞小於四個的話，我們就按照原來的長度轉化。
- 例子如下：

四、最大熵馬爾可夫模型（MEMMs）/條件馬爾可夫模型

很多在NLP領域的問題的資料都是序列資料（單詞序列，方塊字序列，行序列，句子序列等等）。而我們的任務則是對每一項都進行標註。
在這裡插入圖片描述

1、最大熵馬爾可夫模型（MEMMs）/條件馬爾可夫模型

最大熵馬爾可夫模型（MEMMs）/條件馬爾可夫模型，這兩個分類器都是每次做一個決定，基於目前的觀測和過去的決定（decision）。
每一次進行分類，目的是對目前的單詞進行標註，該分類器的計算和標準分類器是類似的。
所使用的特徵包括單詞（之前，目前，之後），標註（之前的單詞），還有其他的單詞特徵（單詞型別、字尾、-等等）
整體的推斷系統如下

2、三種推斷

貪婪推斷（greedy inference）
- 從左邊開始，用分類器依次給每個位置標記（label），分類器可以依靠之前的標記結果以及觀測資料。
- 優點：
  - 快，沒有額外的空間儲存要求
  - 非常容易實施
  - 當特徵很多的時候效果很好
- 缺點
  - 因為使用的是貪婪演算法，所以可能會發生標記錯誤
束推斷（beam inference）
- 這個方法不會簡單標記每個單詞，相反它會保留下一些可能，在每個位置都保持前k個序列（束），每次完成一個標記就滑動前進一個序列。
- 優點
  - 快，3-5個單詞的束就可以得到比較好的效果
  - 很容易實施（不需要進行動態規劃）
- 缺點
  - 對有些標記而言，可能在表現出比較好的概率之前，就已經離開波束了
維特比推斷（Viterbi Inference）
- 動態規劃，需要關於狀態影響的滑動視窗（比如，過去的兩個狀態是相關的）
- 優點：精確
- 缺點：對長距離的單詞與單詞之間的影響很難應用（束推斷也不允許長距離的序列）。

3、條件隨機場（CRFs)

這也是一個整個序列的條件模型，而不是鏈式的模型（local model）。模型形如下圖，只不過c和d是序列。但是如果特徵f是當前（local）的，條件序列似然可以用動態規劃來計算。
在這裡插入圖片描述

條件隨機場的訓練是很慢的，但是可以避免causal-competition偏誤
有一些比較先進的方法都在被廣泛的應用：比如a variant using a max margin criterion

斯坦福大學-自然語言處理入門筆記第九課資訊抽取（information extraction）

一、介紹 1、資訊抽取（information extraction）資訊抽取（IE）系統找到並理解文字中的有限的相關性從很多的文件之中收集資訊產生一個相關資訊的結構化的表徵目的：進行資

斯坦福大學-自然語言處理入門筆記第十課關係抽取（relation extraction）

一、簡介關係抽取就是從文件中抽取關係，例子如下：為什麼進行關係抽取建立新的關係型知識庫（knowledge bases）增強目前的知識庫（knowledge bases）支援問題回答（question answering）

斯坦福大學-自然語言處理入門筆記第七課情感分析（sentiment analysis）

一、情感分析簡述情感分析（sentiment analysis），又叫意見抽取（opinion extraction），意見挖掘（opinion mining）,情感挖掘（sentiment mining）以及主觀分析（subjectivity analysis）。情感分

斯坦福大學-自然語言處理入門筆記第二十課問答系統（question answering）

1、什麼是問答系統問答系統是最早的NLP任務，根據問題的依存關係，找到適合的依存關係的回答。在現代系統中問題被分為兩類事實問題的回答一般都是一個簡單的片語或者是命名實體兩種問答系統的正規化基於資訊檢索的路徑：TREC; I

斯坦福大學-自然語言處理入門筆記第十三課統計語言句法分析（prasing）

課程來源：Introduction to NLP by Chris Manning & Dan jurafsky 關於專用名詞和概念：剛接觸NLP領域，所以有些專有名詞的翻譯和專有概念可能會存在一定的偏誤，隨著學習的深入，我會隨時更新改正。一、關於句法結構的兩種看法

斯坦福大學-自然語言處理入門筆記第八課最大熵模型與判別模型

一、生成模型與判別模型 1、引言到目前為止，我們使用的是生成模型（generative model)，但是在實際使用中我們也在大量使用判別模型（discriminative model)，主要是因為它有如下的優點：準確性很高更容易包含很多和

斯坦福大學-自然語言處理入門筆記第六課文字分類與樸素貝葉斯

一、文字分類任務概述 1、應用領域歸類垃圾郵件識別作者識別性別/年齡識別等等 2、定義輸入：一個文件d，一系列固定的型別C={c1,c2,…,cj} 輸出：預測類別c ∈ C 3、分類方法

斯坦福大學-自然語言處理入門筆記第五課拼寫糾正與噪音通道（Noisy Channel）

一、拼寫糾正任務 1、拼寫任務發現拼寫錯誤糾正拼寫錯誤自動糾正給出糾正建議（一個詞）給出糾正建議（一些詞） 2、拼寫錯誤的型別拼寫出來的不是單詞（non-word spelling e

斯坦福大學-自然語言處理入門筆記第四課語言模型

一、介紹N-grams 1、概率語言模型對每個句子給出一個概率，用以判斷機器翻譯中哪個句子是最佳的選擇，拼寫校準中哪個句子可能出現錯誤。目標：計算句子或者是一系列單詞的概率

斯坦福大學-自然語言處理入門筆記第十九課單詞含義與相似性

一、單詞含義與單詞關係回顧：詞目（lemma）與單詞形式（wordform）詞目：表示相同的詞根、詞性以及大致的語義單詞形式：表示在文件中出現的具體單詞形式一個詞目可能會含有很多含義（sense）。含義（sense）表示單

斯坦福大學-自然語言處理入門筆記第十八課排序檢索介紹（ranked retrieval）

一、介紹之前我們的請求都是布林型別。對於那些明確知道自己的需求並且瞭解集合體情況的使用者而言，布林型別的請求是很有效的。但是對於大部分的其他使用者而言，布林請求的問題是：大部分使用者不熟悉布林請求；布林請求比較複雜；布林請求的結果不是太多就是太少。排序檢索應運而生。排序

斯坦福大學-自然語言處理入門筆記第十七課資訊檢索（information retrieval）

一、介紹資訊檢索（information retrieval）是從海量集合體（一般是儲存在計算機中的文字）中找到滿足資訊需求（information need）的材料（一般是文件）資訊檢索的應用領域：網頁搜尋，郵件搜尋，電腦內部搜尋，法律資訊檢索等等資訊檢索的基

斯坦福大學-自然語言處理入門筆記第十六課依存句法分析（Dependency Parsing）

一、介紹 1、依存句法依存句法假設：句法結構包含相互之間是雙邊不對稱關係的詞典（lexical）元素，這種不對稱的關係成為依存（dependency），在圖中的表現是單向箭頭。箭頭通常還會打上這種語法關係的名字（主語，前置賓語等等）箭頭一邊連線中心詞head

斯坦福大學-自然語言處理入門筆記第十五課詞彙化（Lexicalization）的PCFGs

一、介紹一個短語的中心詞（head word）可以很好地代表這個短語的結構和含義，在構建PCFG模型的時候，可以考慮將這部分資訊納入其中。如下圖所示加入單詞資訊可以幫助我們更好地選擇出合適的模型。二、Charniak模型 Charniak模型是詞彙化P

斯坦福大學-自然語言處理入門筆記第十四課 CGSs和PCFGs

一、概率上下文無關文法（(Probabilistic) Context-Free Grammars） 1、上下文無關文法（Context-Free Grammars）我們也可以稱之為片語結構語法(Phrase structure grammars) 由四個成分構成G=

斯坦福大學-自然語言處理入門筆記第十二課詞性標註（Part-of-speech tagging）

一、詞性（part-of-speech)介紹詞性：名詞（Nouns)，動詞（Verbs)，形容詞（Adjectives），副詞（Adverbs)等等就是我們想要研究的詞性我們可以把詞性分為開放類（open class）和閉合類（closed class）。

斯坦福大學-自然語言處理入門筆記第十一課最大熵模型與判別模型（2）

一、最大熵模型 1、模型介紹基本思想：我們希望資料是均勻分佈的，除非我們有其他的限制條件讓給我們相信資料不是均勻分佈的。均勻分佈代表高熵（high entropy）。所以，最大熵模型的基本思想就是我們要找的分佈是滿足我們限制條件下，同時熵最高的分佈。熵：表示分佈的不

斯坦福大學-自然語言處理入門筆記第二十一課問答系統（2）

一、問答系統中的總結（summarization）目標：產生一個摘要文字包含那些對使用者重要和相關的資訊總結的應用領域：任何文件的摘要和大綱，郵件摘要等等根據總結的內容，我們可以把總結分為兩類：單文件總結：給出一個單一文件的摘要、大綱、標題

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第三課詞向量（2）

一、word2vec 1、回顧：skip-grams word2vec的主要步驟是遍歷整個語料庫，利用每個視窗的中心詞來預測上下文的單詞，然後對每個這樣的視窗利用SGD來進行引數的更新。對於每一個視窗而言，我們只有2m+1個單詞（其中m表示視窗的半徑），因此我們計算出來的梯度向量是

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第八課迴圈神經網路

課程概要 1、傳統語言模型 2、迴圈神經網路 3、例項（python） 4、RNN處理的一些技巧 5、針對其他任務的序列模型 6、總結一、傳統語言模型語言模型可以計算一些系列的單詞的概率P（w1，…,wT) 可以用來進行機器翻譯單詞順序：p(the

斯坦福大學-自然語言處理入門 筆記 第九課 資訊抽取（information extraction）

一、介紹

1、資訊抽取（information extraction）

2、命名實體識別（named entity recognition）

二、命名實體識別的評估

三、命名實體識別的序列模型（sequence model）

1、命名實體識別（NER）的機器學習序列模型

2、對序列標註進行類別編碼

3、序列標記的特徵

四、最大熵馬爾可夫模型（MEMMs）/條件馬爾可夫模型

1、最大熵馬爾可夫模型（MEMMs）/條件馬爾可夫模型

2、三種推斷

3、條件隨機場（CRFs)

相關推薦

斯坦福大學-自然語言處理入門筆記第九課資訊抽取（information extraction）