1. 程式人生 > >關鍵詞提取方法學習總結(TF-IDF、Topic-model、RAKE)

關鍵詞提取方法學習總結(TF-IDF、Topic-model、RAKE)

關鍵詞是一篇文件中表達的主要話題,處理文件或句子時,提取關鍵詞是最重要的工作之一,這在NLP中也是一個十分有用的task。

常見的關鍵詞提取方法有:TF-IDF關鍵詞提取方法、Topic-model關鍵詞提取方法和RAKE關鍵詞提取。

TF-IDF:

使用TF-IDF提取關鍵詞的方法十分好理解,TF衡量了一個詞在文件中出現的頻率,一個文件中多次出現的詞總是有一定的特殊意義,但是並不是所有多次出現的詞就都是有意義的,如果一個詞在所有的文件中都多次出現,那麼這個詞就沒有什麼價值了。

TF-IDF就很好地衡量了這些因素:TF= (詞在文件中出現的次數)/ (文章總詞數),IDF= log(語料庫中文件綜述/(包含該詞的文件數+1))

TF-IDF= TF* IDF

TF-IDF值越大,則這個詞成為一個關鍵詞的概率就越大。

Topic-model:

使用主題模型提取關鍵詞的關鍵思想是認為文章是由主題組成的,而文章中的詞是以一定概率從主題中選取的,即文章與詞之間存在一個主題集合。不同的主題下,詞出現的概率分佈是不同的。

根據LDA主題模型的學習可以獲取文件的主題詞集合。

RAKE關鍵詞提取:

RAKE(Rapid Automatic Keyword Extraction)演算法的原作者是Alyona Medelyan,RAKE的更新版本就是她完成的,muai indexer也是她的傑作,她的GitHub上有很多關鍵字提取的專案。

RAKE提取的關鍵詞並不是單一的單詞,有可能是一個短語。

每個短語的得分有組成短語的詞累加得到,而詞的得分與詞的度與詞頻有關:score = degree / freq

其中,當與一個詞共現的詞越多,則該詞的度就越大。

相關推薦

關鍵詞提取方法學習總結TF-IDFTopic-modelRAKE

關鍵詞是一篇文件中表達的主要話題,處理文件或句子時,提取關鍵詞是最重要的工作之一,這在NLP中也是一個十分有用的task。 常見的關鍵詞提取方法有:TF-IDF關鍵詞提取方法、Topic-model關鍵詞提取方法和RAKE關鍵詞提取。 TF-IDF: 使用TF-IDF提取

特徵提取方法: one-hot 和 TF-IDF

one-hot 和 TF-IDF是目前最為常見的用於提取文字特徵的方法,本文主要介紹兩種方法的思想以及優缺點。 1. one-hot 1.1 one-hot編碼   什麼是one-hot編碼?one-hot編碼,又稱獨熱編碼、一位有效編碼。其方法是使用N位狀態暫存器來對N個狀態進行編碼,每個狀態都有它獨立的暫

特徵提取方法 one-hot和TF-IDF

one-hot 和 TF-IDF是目前最為常見的用於提取文字特徵的方法,本文主要介紹兩種方法的思想以及優缺點。 1. one-hot 1.1 one-hot編碼   什麼是one-hot編碼?one-hot編碼,又稱獨熱編碼、一位有效編碼。其方法是使用N位狀態暫存器來對

[MySQL] 行列轉換變化各種方法實現總結行變列報表統計列變行資料記錄統計等

前言:mysql行列變化,最難的就是將多個列變成多行,使用的比較多的是統計學中行變列,列變行,沒有找到現成的函式或者語句,所以自己寫了儲存過程,使用動態sql來實現,應用業務場景,使用者每個月都有使用記錄數錄入一張表,一個月一個欄位,所以表的欄位是動態增長的,現在需要實時統計

[MySQL] 行列轉換變化各種方法實現總結行變列報表統計列變行資料記錄統計等

前言: mysql行列變化,最難的就是將多個列變成多行,使用的比較多的是統計學中行變列,列變行,沒有找到現成的函式或者語句,所以自己寫了儲存過程,使用動態sql來實現,應用業務場景,使用者每個月都有使用記錄數錄入一張表,一個月一個欄位,所以表的欄位是動態增長的,

TF-IDF關鍵詞提取方法學習

首先引用一下百度百科裡的解釋: TF-IDF(term frequency–inverse document frequency)是一種用於資訊檢索與資料探勘的常用加權技術。TF意思是詞頻(Term Frequency),IDF意思是逆向檔案頻率(Inverse Document Frequ

文本分類學習 特征權重TF/IDF和特征提取

才會 有用 卡方檢驗 改變 其中 關於 思想 意義 bsp 上一篇中,主要說的就是詞袋模型。回顧一下,在進行文本分類之前,我們需要把待分類文本先用詞袋模型進行文本表示。首先是將訓練集中的所有單詞經過去停用詞之後組合成一個詞袋,或者叫做字典,實際上一個維度很大的向量。這樣每個

springMVC學習總結路徑映射和請求方法限定

根路徑 後臺 mapping oca log alt public mes cti springMVC學習總結(二)路徑映射和請求方法限定 一、路徑映射 無參數的訪問路徑 對springmvc項目的訪問路徑,是由根路徑和子路徑組成;在註解式開發中,根路徑標註在類名之上,子

java基礎學習總結:Cloneable介面和Object的clone()方法

為什麼要克隆 為什麼要使用克隆,這其實反映的是一個很現實的問題,假如我們有一個物件: public class SimpleObject implements Cloneable { private String str; public SimpleObject()

【NLP】【三】jieba原始碼分析之關鍵字提取TF-IDF/TextRank

【一】綜述 利用jieba進行關鍵字提取時,有兩種介面。一個基於TF-IDF演算法,一個基於TextRank演算法。TF-IDF演算法,完全基於詞頻統計來計算詞的權重,然後排序,在返回TopK個詞作為關鍵字。TextRank相對於TF-IDF,基本思路一致,也是基於統計的思想,只不過其計算詞的權

設計模式學習總結1簡單工廠模式工廠方法模式抽象工廠模式

設計模式學習 做了幾個專案,發現設計模式的好處還是很多的,這東西就是隻有你真正用到的時候才知道他的好處,否則學了也不知道所以然。所以設計模式學習我認為可以在先進行幾個專案後,再來學習,這樣學習的效果和感受才是最好的。 這次是做一個學習的筆記,內容還是主要以我看的兩本書《大

三種文字特徵提取TF-IDF/Word2Vec/CountVectorizer

另一類最近比較流行的模型是把每一個單詞表示成一個向量。這些模型一般是基於某種文字中與單詞共現相關的統計量來構造。一旦向量表示算出,就可以像使用TF-IDF向量一樣使用這些模型(例如使用它們作為機器學習的特徵)。一個比較通用的例子是使用單詞的向量表示基於單詞的含義計算兩個單詞的相似度。Word2Vec就是這些

VMWare學習總結1——Centos7安裝完畢後無法聯網的解決方法

在VmWare 上安裝Centos7時,裝好vmware後還是連不上網,通過查詢資料原來是因為有線網絡卡沒有啟用,預設centos和redhat7都是不啟用有線網絡卡的,要麼手動開啟,要麼安裝時直接

機器學習——文字分類TF-IDF

首先,文字資料屬於非結構化資料,一般要轉換成結構化的資料,一般是將文字轉換成“文件-詞頻矩陣”,矩陣中的元素使用詞頻或者TF-IDF。 TF-IDF的主要思想是:如果某一個詞或短語在一篇文章中出現的頻率高,並且在其他文章中很少出現,則認為此詞或短語具有很好的類別區分能力,適

Linux學習總結6——CenterOS7安裝mysql5.5的方法

首先centos7 已經不支援mysql,因為收費了你懂得,所以內部集成了mariadb,而安裝mysql的話會和mariadb的檔案衝突,所以需要先解除安裝掉mariadb,以下為解除安裝mari

C++學習總結十 五——類的型別裝換方法

類與類間的資料型別轉換方法有兩種一.通過類的建構函式進行類與類間的資料型別裝換二.使用轉換函式進行資料型別的裝換。X::operator T(){return T;}將X型別的物件裝換為T型別的物件,裝換函式沒有引數,沒有返回型別,但是必須用return 返回T型別物件,且該

敏捷開發系列學習總結9——10大流行程式設計方法

過去,幾乎所有的軟體開發專案都採用瀑布模型。這種程式設計方法酷似工廠裝配線,要求開發人員完成一個開發階段,之後才能進入到下一個階段。這種方法高度結構化,但是專案需求有變化時,它就不適用了。 近些年來

設計模式學習總結策略模式(Strategy)

isp 筆記本 override div ont 角色 write stat 通過   策略模式,主要是針對不同的情況采用不同的處理方式。如商場的打折季,不同種類的商品的打折幅度不一,所以針對不同的商品我們就要采用不同的計算方式即策略來進行處理。   一、示例展示:   以

設計模式學習總結適配器模式(Adapter)

實現接口 國外 手機 額外 sed ges program ebe 通過   適配器模式主要是通過適配器來實現接口的統一,如要實現國內手機在國外充電,則需要在不同的國家采用不同的適配器來進行兼容!   一、示例展示:   以下例子主要通過給筆記本電腦添加類似手機打電話和發短

近一個月的學習總結4.8—5.12

line spa java泛型 思想 習題 cti mysql 數組 對象 Java-se基礎知識的學習已經告一段落,對自己這一個月的知識體系做一個大致的總結: 1.Java語言基礎(基礎完成) 2.面向對象基礎(封裝、繼承、多態)(基礎完成) 3.抽象類、接口(基礎完成)