1. 程式人生 > >資訊抽取:關鍵詞自動標註與自動摘要

資訊抽取:關鍵詞自動標註與自動摘要

一、關鍵詞自動標註

1、關鍵詞

關鍵詞是指能夠反映文字語料主題的詞語或短語,是快速瞭解文件內容、把握主題的重要方式。

2、概述

關鍵詞自動標註大概可以分為兩大類,一為關鍵詞分配,另一個為關鍵詞提取。
關鍵詞分配是從一個預先構建好的受控詞表中推薦若干個詞或者短語分配給文件作為關鍵詞。
關鍵詞提取是從文件內容中尋找並推薦關鍵詞,而沒有指定的詞庫。

3、關鍵詞提取

關鍵詞提取一般分為兩個步驟,一是生成關鍵詞候選表,二是採用演算法選擇關鍵詞。

(1)生成關鍵詞候選表

1)去除停用詞
2)只提取指定詞性的詞,如,名詞、形容詞、動詞等
3)其他規則篩選等

(2)演算法選用

現有的演算法根據是否依賴外部知識庫,大致可以分為兩大類:一是依賴外部知識庫,如:TF-IDF等;二是不依賴外部知識庫,如:Textrank等。
此外還有監督方法,將關鍵詞抽取轉為序列標註,或基於神經網路的方法等。

4、TF-IDF

TF-IDF是一種統計方法,用以評估一字詞對於一個檔案集或者或一個語料庫中的其中一份檔案的重要程度。
字詞的重要隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。

(1)原理

詞頻,即TF,指的是某一個給定的詞語在該檔案中出現的次數,通常進行歸一化。
逆向文件頻率,即IDF,是一個詞語普遍重要性的度量,通常由總檔案數目除以包含該詞語的檔案數目得到的商取對數得到。
實際上可以將IDF看成一個重要性的調整引數,在詞頻的基礎上,對每一個詞分配一個重要性度量,最常見的詞給與小權重,而最不常見的詞給與大的權重,最後將詞頻與權重相乘得到某個詞對文章的重要性度量。

5、TextRank

TextRank演算法是基於GOOGLE的提出的pageRank演算法改進而來,詳細可以參考我的另一篇博文:pageRank

(1)原理

TextRank與pageRank不同之處,在於權重係數的增加:
這裡寫圖片描述

(2)權重係數

在經過處理構造出候選關鍵詞後,得到候選關鍵詞表T = [C1, C2, C3…CN]
對於關鍵詞表構建長度為K的視窗,當兩個詞A和B在該視窗中同時出現時,認為當前兩個節點有關聯,在pageRank中就是兩個網頁間有超連結跳轉,對所有的詞進行統計之後歸一化,就得到權重係數,這也稱為共現關係。
之後進行迭代計算,就得到關鍵詞選項了。

二、自動摘要

自動摘要與關鍵詞自動標註類似,是從文章中自動抽取出關鍵句。

1、概述

自動摘要主要分為兩大類,一種是抽取式,即直接從文章存在的句子中抽取出最重要的幾句作為關鍵句;另一種是生成式,這種方法在實現難度上遠高於前者,在理解文章語義的基礎上重新概括生成文字。
一般採用的都是抽取式方法進行自動摘要。

2、應用

自動文摘與關鍵詞自動標註一樣可以採用TextRank進行抽取,唯一不同的是權值的計算方式,這裡可以用句子之間的相似性進行替代。
在自動摘要中,對文件進行斷句,分詞等預處理後,得到每個句子的詞列表。之後可以使用文件相似度演算法,如BM25等進行計算,得出的相似度作為權值進行迭代計算,最後得到評分最高的句子。

關於TF-IDF和TextRank演算法,在python的jieba包中都有演算法實現。