1. 程式人生 > >《Speech and Language Processing》讀書筆記之資訊抽取IE

《Speech and Language Processing》讀書筆記之資訊抽取IE

Information Extraction 資訊抽取
一、概述 1.1 IE 資訊抽取就是從文字中抽取有限的幾種語義內容,是將非結構化的文字轉換為結構化資料的過程,有限的幾種語義內容主要包括:實體抽取、關係抽取、事件抽取、時序表達、模板填充等。 1.2命名實體識別(named entity recognition, NER) IE任務大都以NER開始,也就是識別文字中的命名實體並進行類別的標註,以達到實體間連結、實體聚類、向real-world對映的目的。 1.3關係抽取 在文字中抽取實體間的各種關係,並對這些關係進行分類。 1.4事件抽取 在文字中發現由實體參與的事件,理清各事件之間的指代關係(可能幾個事件指代的是同一個事件,只是不同的表達) 1.5時序表達
時間的抽取以及歸一化,主要用於對事件的描述。 1.6模板填充(Template Filling) 文字中描述的很多事件都是經常性的、典型的,針對這些事件建立模板,再用從文字中抽取相應的材料對模板進行填充,如下圖 二、命名實體抽取 定義、目的前面已給 NER的任務和困難是實體邊界的識別和型別指定(有時一個實體同時擁有多個類別,比如下圖) 2.1 序列標註 2.1.1標註 The standard algorithm for named entity recognition is as a word-by-word sequence  labeling task, in which the assigned tags capture both the boundary and the type.典型的MEMM or CRF模型。輸入為標註序列,經過訓練後,輸出也為標註序列。
[ORG American Airlines], a unit of [ORG AMR Corp.], immediately matched the move, spokesman [PER Tim Wagner] said. 計算過程中一般使用BIO或者IO標註方法,如下 2.1.2特徵選取 常用特徵 特別地: 詞形word shape: DC10-30 would map to XXdd-dd  適合:English newswire texts 不適合:text by automatic speech recognition,Chinese 詞表gazetteer: 作為訓練的輸入
2.2NER的評價 The familiar metrics ofrecall,precision, andF1 measure are used to evaluate NER systems.  2.3實踐  commercial approaches to NER are often based on pragmatic combinations of lists, rules,  and supervised machine learning。  比如:利用迭代思想,首先使用基於規則的方法精確識別命名實體(召回率會很低),在文字中匹配已識別命名實體的子字串,根據具體應用name lists識別出可能的新命名實體,以以上所有命名實體作為輸入,再利用統計的方法進行下一輪識別。