1. 程式人生 > >文字關鍵詞提取小結

文字關鍵詞提取小結

網上看到一篇文章總結了幾個關鍵詞抽取的演算法(如何做好文字關鍵詞提取?從達觀資料應用的三種演算法說起),想到這是一個很重要的課題還是有必要小結一下的,有不足之處大家可以討論討論

還有幾個比較好的連結供大家參考

大體上關鍵詞抽取演算法分三種:有監督(二分類問題,需提供大量標註好的訓練資料),半監督(提供少量的有標註的訓練資料作為種子資料構建模型),無監督(一些方法自動發現關鍵詞)

有監督的方法需要大量的標註資料,這一點比較耗費人工,所以還是能無監督就無監督

對英語來說可以直接考慮以詞語為單位,但是漢語處理還需要先經過分詞處理,分詞的準確率影響後來的演算法準確率,分詞的package包括jieba(github上有很多),NLTK,standford的分詞器,清華大學,哈爾濱工業大學,中科院計算所都有各自的分詞工具等等,不一而足,當然也可以自己嘗試使用HMM,CRF等模型自己寫一個分詞工具

基於統計的關鍵詞抽取

利用文件中的詞語統計資訊抽取,比如基於詞性,詞頻,逆文字頻率等,還可以依據詞在文件中出現的位置提取

詞性:現在的關鍵詞絕大多數為名詞或動名詞,因為這些結構有比較大的,不容易產生歧義的資訊量,可與其他指標結合

詞頻:一般來說一個詞在文件中出現的次數越多越重要,但是由於一些常用的沒有意義的詞也會出現多次,所以我們需要一個停用詞(stop word)表在統計詞頻時先過濾掉停用詞

詞位置:不同的詞在不同位置有不同的重要性,對維基百科來說,第一段是總結性內容所以其中的詞比較能概括全文,靠後的詞會細化某一方面的情況,不太反應整體的情況

TF-IDF:TF-IDF是一個在自然語言處理和資訊檢索領域常用的一個指標,用來數值化,連續化一個詞在一個文件集中的統計特徵,為避免分母出現零的情況往往需要做平滑處理

互資訊:資訊理論中的一個概念,表示變數間相互依賴的度量,I(X;Y)

詞跨度:詞首次出現與最後一次出現的距離

基於複雜網路的關鍵詞抽取

首先要建立文件的語言網路圖,然後對圖進行分析找到重要的短語或詞

有了圖模型後就可以使用graph的各種-ness特徵對詞語的重要性進行排序選擇

基於圖模型的關鍵詞抽取

PageRank和TextRank:TextRank基於PageRank的思想提出,PageRank認為如果一個網頁被連結的次數越多那麼這個網頁越重要,如果這個網頁被一個很重要的網頁連結了當然這個網頁權值更大,最後經過一系列的證明可以得出多次迭代過後的PR值是一定收斂的,也就是說我們對一個網頁有且只有一個PR值,唯一性由PR值計算過程的Markov性保證;TextRank則是取文件中的一個視窗,如果共現則視為有效

基於Topic Model的關鍵詞抽取

LDA主題模型:LDA是用來抽取文件中的主題分佈,需要對文件進行LSA(latent semantic analysis),在文章中不論是主題的分佈還是單詞的分佈都滿足Drichlet Distribution,對每篇文章假設有多個主題而不是一個,LDA的運算中剛快速使用了EM演算法,後來使用效果更好的Gibbs Sampling;候選的關鍵詞與抽取的主題計算相似度並進行排序,得到最終的關鍵詞

最後,當然在實際應用中只考慮一種方法是不夠的,借鑑整合學習(ensemble learning)的思想,我們可以同時使用多個關鍵詞抽取演算法的結果然後進行整合,再選取最合適的關鍵詞

相關推薦

文字關鍵詞提取小結

網上看到一篇文章總結了幾個關鍵詞抽取的演算法(如何做好文字關鍵詞提取?從達觀資料應用的三種演算法說起),想到這是一個很重要的課題還是有必要小結一下的,有不足之處大家可以討論討論還有幾個比較好的連結供大家參考大體上關鍵詞抽取演算法分三種:有監督(二分類問題,需提供大量標註好的訓

文字關鍵詞提取演算法

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

文字關鍵詞提取二三事

基於此,我想說的是,雖然關鍵詞提取的演算法很多,也很花哨,但是思路比較簡單,應當在寫Paper之前,或者開發技術應用之前,做好技術定位。另外,幾乎沒有論文回答最基礎的一個問題,什麼是關鍵詞?為什麼某些詞應當被提取出來給閱讀者看而另外一些詞應當忽略?哪些詞應當展示給使用者看?太多研究關注演算法的精度和

2、 python文字關鍵詞提取實現(案例)

第一、理論準備 1交叉計數函式 pivot_table(value,index,columns,aggfunc,fill_value) # 引數說明 values:資料透視表中的值 index:資料透視表中的行(索引) columns;資料透視表中的列 aggfunc:統計函式 fi

如何做好文字關鍵詞提取?從三種演算法說起

在自然語言處理領域,處理海量的文字檔案最關鍵的是要把使用者最關心的問題提取出來。而無論是對於長文字還是短文字,往往可以通過幾個關鍵詞窺探整個文字的主題思想。與此同時,不管是基於文字的推薦還是基於文字的搜尋,對於文字關鍵詞的依賴也很大,關鍵詞提取的準確程度直接關係到推薦系統或者搜尋系統的最終

文字關鍵詞提取方法綜述

一、提取過程 總共分兩步,第一步對文章分詞、去停用詞、pos tag 之後,得到候選關鍵詞列表L;第二步,使用關鍵詞提取演算法提取關鍵詞。 最後得到的關鍵詞應滿足以下三個條件: 1·、Understandable. The keyphrases are understandable to

技術乾貨 | 如何做好文字關鍵詞提取?從三種演算法說起

【資料猿導讀】 不管是基於文字的推薦還是基於文字的搜尋,對於文字關鍵詞的依賴也很大,關鍵詞提取的

python資料探勘實戰筆記——文字分析(6):關鍵詞提取

緊接上篇的文件,這節學習關鍵字的提取,關鍵詞——keyword,是人們快速瞭解文件內容,把握主題的重要內容。 #匯入需要的模組 import os import codecs import pandas import jieba import jieba.ana

解析TF-IDF演算法原理:關鍵詞提取,自動摘要,文字相似度計算

Abstract:TF-IDF演算法是一種常用的詞頻統計方法,常被用於關鍵詞提取、文字摘要、文章相似度計算等。 TF-IDF的演算法思路 TF詞頻(Text Frequency):統計出現次數最多的詞 IDF逆文件頻率(Inverse Document Frequ

自然語言處理--TF-IDF(關鍵詞提取

png -m word req bsp xmlns idt 區分 適合 TF-IDF算法 TF-IDF(詞頻-逆文檔頻率)算法是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在

python 基於TF-IDF演算法的關鍵詞提取

import jiaba.analyse jieba.analyse.extract_tags(content, topK=20, withWeight=False, allowPOS=()) content:為輸入的文字 topK:為返回tf-itf權重最大的關鍵詞,預設值為20個詞 wit

關鍵詞提取演算法—TF/IDF演算法

關鍵詞提取演算法一般可分為有監督學習和無監督學習兩類。 有監督的關鍵詞提取方法可以通過分類的方式進行,通過構建一個較為完善的詞表,然後判斷每個文件與詞表中的每個詞的匹配程度,以類似打標籤的方式,達到關鍵詞提取的效果。優點是可以獲得較高的精度,缺點是需要大批量的標註資料,並且要對詞表進行人

基於java版jieba分詞實現的tfidf關鍵詞提取

基於java版jieba分詞實現的tfidf關鍵詞提取 文章目錄 基於java版jieba分詞實現的tfidf關鍵詞提取 為了改善我的 個性化新聞推薦系統的基於內容相似度的推薦演算法效果,我嘗試找尋關鍵詞提取效果可能優於本來使用的ansj的tfi

HanLP 關鍵詞提取演算法分析詳解

  參考論文:《TextRank: Bringing Order into Texts》 TextRank演算法提取關鍵詞的Java實現 TextRank演算法自動摘要的Java實現這篇文章中作者大概解釋了一下TextRank公式 1. 論文 In thi

使用OCR文字識別軟體將圖中文字識別提取出來的方法

  有時候我們上網看見了一些文字圖片,上面的內容自己很喜歡,想要將文字儲存下來,但是大家都知道圖片上面的文字是不可以直接進行復制貼上的,那這時候就需要識別提取圖中文字了,具體怎樣去操作呢?下面小編將在文字識別軟體中為大家講解下具體的操作方法。   使用工具:迅捷OCR文字識別軟體   步驟一、首先需要將文

使用OCR文字識別軟件將圖中文字識別提取出來的方法

RoCE 分享 方便 圖片保存 自己 上網 步驟 ffffff 右下角 有時候我們上網看見了一些文字圖片,上面的內容自己很喜歡,想要將文字保存下來,但是大家都知道圖片上面的文字是不可以直接進行復制粘貼的,那這時候就需要識別提取圖中文字了,具體怎樣去操作呢?下面小編將在文字識

Java實現從Html文字提取文字

1、應用場景:從一份html檔案中或從String(是html內容)中提取純文字,去掉網頁標籤; 2、程式碼一:replaceAll搞定 //從html中提取純文字 public static String StripHT(String strHt

關鍵詞提取/關鍵字提取之TF-IDF演算法

TF-IDF(term frequency–inverse document frequency)是一種用於資訊檢索與資訊探勘的常用加權技術。TF的意思是詞頻(Term - frequency),  IDF的意思是逆向檔案頻率(inverse Document frequency)。TF-IDF是一

文字特徵提取方法研究

一、課題背景概述 文字挖掘是一門交叉性學科,涉及資料探勘、機器學習、模式識別、人工智慧、統計學、計算機語言學、計算機網路技術、資訊學等多個領域。文字挖掘就是從大量的文件中發現隱含知識和模式的一種方法和工具,它從資料探勘發展而來,但與傳統的資料探勘又有許多不同。文字挖掘的物件

機器學習-2.特徵工程和文字特徵提取

1. 資料集的組成 前面講了,機器學習是從歷史資料當中獲得規律,那這些歷史資料的組成是個什麼格式?大都儲存在哪裡? – 在機器學習裡大多數資料不會存在資料庫中,大都存在檔案中(比如csv檔案) – 不存在資料庫原因:1. 讀取速度導致存在效能瓶頸。2. 儲存的格式不太符合機器學習