利用資訊熵提取文章關鍵詞

阿新 • • 發佈：2019-01-12

目前，對於文章中提取關鍵詞最常用的方法莫過於TF-IDF，但是這樣提取出來的關鍵詞並不一定準確。

舉個最簡單的例子來說，在新聞中最前面出現“記者李元芳報道”，分詞後的結果是“記者、李元芳、報道”，對於這三個詞，“記者”和“報道”的經常出現，idf值一般來說可能會很低，而“李元芳”這個剛出道不久名不見經傳的無名小輩可能對google免疫，造成的結果是idf值極高。儘管“李元芳”在文章中僅出現這一次，但足以奠定它是關鍵詞老大的地位。

顯然如果把“李元芳”作為文章關鍵詞是錯誤的，至少也不應該排在前五位。於是有人想到可以用詞頻的方法來幹掉“李元芳”，文中出現一次的統統不考慮，這樣的方法在一些情況下有效，但是當文章很短，幾乎每個詞都僅出現一次的時候就提取不到任何關鍵詞了。另一種方法是幹掉idf

值很高的，但是值多高才是高這又是一個問題。

細細分析來看，之所以出現這樣的局面完全是idf在作怪。其實在求解idf的時候，需要得到每個詞詞頻，而這又需要語料來統計。顯然，語料是越多越好，無奈現實中我們得不到這麼多的語料，所以只能從特殊到一般，這雖然有道理，但是不是很準確就難說了。

為了徹底解決這個問題，應該要做到不需要使用詞頻進行關鍵詞提取。於是，聰明人士引入了資訊熵的概念，具體可以看這裡：

前面都是鋪墊，下面就說說如何在文章中利用資訊熵提取關鍵詞：

首先我們需要明確一點，一個詞之所以能稱為關鍵詞，原因就在於這個詞左右能搭配的詞很豐富，於是我們可以定義一個詞的資訊熵：

W代表該詞，

p代表該詞左右出現的不同詞的數目。

比如現在某篇文章中出現了兩次 A W C，一次B W D

那麼W的左側資訊熵為:

2/3表示片語A在3次中出現了2次，B只出現了一次，故為1/3.

W右側的資訊熵也是一樣的。如果是A W C, B W C

那麼W右側就是0，因為是 -1log(1)。

對所有的詞計算左右資訊熵，如果某個詞的左右資訊熵都很大，那這個詞就很可能是關鍵詞。

拿文章一開始提到的反例來說，“李元芳”只在開頭出現了一次，於是資訊熵為0，肯定不會是關鍵詞了。

最後考慮一種特殊情況，如果某個詞左側的資訊熵很大，右側資訊熵很小，而他右側的詞左側資訊熵很小，右側資訊熵很大。形象描述為 X B C Y

，B與C經常一同出現，但是X和Y經常變化，於是可以把B和C組合起來當成一個關鍵詞，我們常常見到“智慧手機”作為一個關鍵詞出現就是這個道理。這也涉及到NLP中另一個很有意思的研究方向-新詞發現。

最後感謝曉陽童鞋解釋

利用資訊熵提取文章關鍵詞

利用資訊熵提取文章關鍵詞

TF-IDF提取文章關鍵詞演算法

設置WordPress文章關鍵詞自動獲取，文章所屬分類名稱，描述自動獲取文章內容，給文章的圖片自動加上AlT標簽

通俗講清楚為什麼使用資訊熵增益比而不是資訊熵增益？

Python計算資訊熵程式碼

影象資訊熵計算的OpenCV程式碼

熵、資訊量、資訊熵、交叉熵-個人小結

機器學習-9（資訊熵的簡單介紹）

機器學習資訊熵

資訊理論複習筆記（1）：資訊熵、條件熵，聯合熵，互資訊、交叉熵，相對熵

西瓜書課後習題4.3 基於資訊熵決策樹，連續和離散屬性，並驗證模型

Matplotlib畫圖----資訊熵函式影象

基於資訊熵的無字典分詞演算法

機器學習--資訊資訊熵資訊增益

【機器學習】資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結

基於itchat庫對微信好友資訊的提取以及群發訊息

Python 資訊熵條件資訊熵互資訊（資訊增益）的理解以及計算程式碼

java提取文章摘要內容

資訊熵相關知識總結

資訊熵，資訊增益

利用資訊熵提取文章關鍵詞

相關推薦