Python的jieba分詞及TF-IDF和TextRank 演算法提取關鍵字

阿新 • • 發佈：2018-12-09

參考文章：Github上的專案———jieba

中文分詞

對於NLP（自然語言處理）來說，分詞是一步重要的工作，市面上也有各種分詞庫，11款開放中文分詞系統比較。

1.基於詞典：基於字典、詞庫匹配的分詞方法；（字串匹配、機械分詞法）
2.基於統計：基於詞頻度統計的分詞方法；
3.基於規則：基於知識理解的分詞方法。

第一類方法應用詞典匹配、漢語詞法或其它漢語語言知識進行分詞，如：最大匹配法、最小分詞方法等。這類方法簡單、分詞效率較高,但漢語語言現象複雜豐富，詞典的完備性、規則的一致性等問題使其難以適應開放的大規模文字的分詞處理。
第二類基於統計的分詞方法則基於字和詞的統計資訊，如把相鄰字間的資訊、詞頻及相應的共現資訊等應用於分詞，由於這些資訊是通過調查真實語料而取得的，因而基於統計的分詞方法具有較好的實用性。

jieba分詞，完全開源，有整合的python庫，簡單易用。
jieba分詞是基於字首詞典實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG)，動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合

安裝jieba

在安裝有python3 和 pip 的機子上，安裝jieba庫很簡單，使用pip即可：

pip install jieba

這裡寫圖片描述

jieba分詞特性

支援三種分詞模式：
- 精確模式，試圖將句子最精確地切開，適合文字分析；
- 全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；
- 搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞。
支援繁體分詞
支援自定義詞典
MIT 授權協議

主要功能

分詞

jieba.cut ：方法接受三個輸入引數: 需要分詞的字串；cut_all 引數用來控制是否採用全模式；HMM 引數用來控制是否使用 HMM 模型

jieba.cut_for_search ：方法接受兩個引數：需要分詞的字串；是否使用 HMM 模型。該方法適合用於搜尋引擎構建倒排索引的分詞，粒度比較細

待分詞的字串可以是 unicode 或 UTF-8 字串、GBK 字串。注意：不建議直接輸入 GBK 字串，可能無法預料地錯誤解碼成 UTF-8

jieba.cut 以及 jieba.cut_for_search 返回的結構都是一個可迭代的 generator，可以使用 for 迴圈來獲得分詞後得到的每一個詞語(unicode)，或者用jieba.lcut 以及jieba.lcut_for_search 直接返回 list

jieba.Tokenizer(dictionary=DEFAULT_DICT) ：新建自定義分詞器，可用於同時使用不同詞典。jieba.dt 為預設分詞器，所有全域性分詞相關函式都是該分詞器的對映。

# 官方例程

# encoding=utf-8
import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("他來到了網易杭研大廈")  # 預設是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所，後在日本京都大學深造")  # 搜尋引擎模式
print(", ".join(seg_list))

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學
【精確模式】: 我/ 來到/ 北京/ 清華大學
【新詞識別】：他, 來到, 了, 網易, 杭研, 大廈 (此處，“杭研”並沒有在詞典中，但是也被Viterbi演算法識別出來了)
【搜尋引擎模式】：小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

關鍵詞提取

基於 TF-IDF（term frequency–inverse document frequency）演算法的關鍵詞抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence ：為待提取的文字
topK：為返回幾個 TF/IDF 權重最大的關鍵詞，預設值為 20
withWeight ：為是否一併返回關鍵詞權重值，預設值為 False
allowPOS ：僅包括指定詞性的詞，預設值為空，即不篩選

# 基於TF-IDF演算法的關鍵詞抽取

import jieba
import jieba.analyse

sentence = '全國港澳研究會會長徐澤在會上發言指出，學習系列重要講話要深刻領會 主席關於香港迴歸後的憲制基礎和憲制秩序的論述，這是過去20年特別是中共十八大以來"一國兩制"在香港實踐取得成功的根本經驗。首先，要在夯實 香港的憲制基礎、鞏固香港的憲制秩序上著力。只有牢牢確立起"一國兩制"的憲制秩序，才能保證"一國兩制"實踐不走樣 、不變形。其次，要在完善基本法實施的制度和機制上用功。中央直接行使的權力和特區高度自治權的結合是特區憲制秩 序不可或缺的兩個方面，同時必須切實建立以行政長官為核心的行政主導體制。第三，要切實加強香港社會特別是針對公 職人員和青少年的憲法、基本法宣傳，牢固樹立"一國"意識，堅守"一國"原則。第四，要努力在全社會形成聚焦發展、抵 制泛政治化的氛圍和勢能，全面準確理解和落實基本法有關經濟事務的規定，使香港繼續在國家發展中發揮獨特作用並由 此讓最廣大民眾獲得更實在的利益。'

keywords = jieba.analyse.extract_tags(sentence, topK=20, withWeight=True, allowPOS=('n','nr','ns'))

# print(type(keywords))
# <class 'list'>

for item in keywords:
    print(item[0],item[1])

執行結果：
這裡寫圖片描述

基於 TextRank 演算法的關鍵詞抽取

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 直接使用，介面相同，注意預設過濾詞性。
jieba.analyse.TextRank() 新建自定義 TextRank 例項

基本思想：

將待抽取關鍵詞的文字進行分詞
以固定視窗大小(預設為5，通過span屬性調整)，詞之間的共現關係，構建圖
計算圖中節點的PageRank，注意是無向帶權圖

# 基於TextRank演算法的關鍵詞抽取

keywords = jieba.analyse.extract_tags(sentence, topK=20, withWeight=True, allowPOS=('n','nr','ns'))

# type(keywords)
# <class 'list'>

for item in keywords:
    print(item[0],item[1])

執行結果：

這裡寫圖片描述

詞性標註

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定義分詞器，tokenizer 引數可指定內部使用的 jieba.Tokenizer 分詞器。jieba.posseg.dt 為預設詞性標註分詞器。

標註句子分詞後每個詞的詞性，採用和 ictclas 相容的標記法。

# 官方例程
import jieba.posseg as pseg

words = pseg.cut("我愛北京天安門")
# words類別為：generator

for word, flag in words:
    print('%s %s' % (word, flag))

執行結果：

我 r
愛 v
北京 ns
天安門 ns

詞性對照表

名詞 (1個一類，7個二類，5個三類)
名詞分為以下子類：
n 名詞
nr 人名
nr1 漢語姓氏
nr2 漢語名字
nrj 日語人名
nrf 音譯人名
ns 地名
nsf 音譯地名
nt 機構團體名
nz 其它專名
nl 名詞性慣用語
ng 名詞性語素
時間詞(1個一類，1個二類)
t 時間詞
tg 時間詞性語素
處所詞(1個一類)
s 處所詞
方位詞(1個一類)
f 方位詞
動詞(1個一類，9個二類)
v 動詞
vd 副動詞
vn 名動詞
vshi 動詞“是”
vyou 動詞“有”
vf 趨向動詞
vx 形式動詞
vi 不及物動詞（內動詞）
vl 動詞性慣用語
vg 動詞性語素
形容詞(1個一類，4個二類)
a 形容詞
ad 副形詞
an 名形詞
ag 形容詞性語素
al 形容詞性慣用語
區別詞(1個一類，2個二類)
b 區別詞
bl 區別詞性慣用語
狀態詞(1個一類)
z 狀態詞
代詞(1個一類，4個二類，6個三類)
r 代詞
rr 人稱代詞
rz 指示代詞
rzt 時間指示代詞
rzs 處所指示代詞
rzv 謂詞性指示代詞
ry 疑問代詞
ryt 時間疑問代詞
rys 處所疑問代詞
ryv 謂詞性疑問代詞
rg 代詞性語素
數詞(1個一類，1個二類)
m 數詞
mq 數量詞
量詞(1個一類，2個二類)
q 量詞
qv 動量詞
qt 時量詞
副詞(1個一類)
d 副詞
介詞(1個一類，2個二類)
p 介詞
pba 介詞“把”
pbei 介詞“被”
連詞(1個一類，1個二類)
c 連詞
cc 並列連詞
助詞(1個一類，15個二類)
u 助詞
uzhe 著
ule 了嘍
uguo 過
ude1 的底
ude2 地
ude3 得
usuo 所
udeng 等等等云云
uyy 一樣一般似的般
udh 的話
uls 來講來說而言說來
uzhi 之
ulian 連（“連小學生都會”）
嘆詞(1個一類)
e 嘆詞
語氣詞(1個一類)
y 語氣詞(delete yg)
擬聲詞(1個一類)
o 擬聲詞
字首(1個一類)
h 字首
字尾(1個一類)
k 字尾
字串(1個一類，2個二類)
x 字串
xx 非語素字
xu 網址URL
標點符號(1個一類，16個二類)
w 標點符號
wkz 左括號，全形：（〔［｛《【〖〈半形：( [ { <
wky 右括號，全形：）〕］｝》】〗〉半形： ) ] { >
wyz 左引號，全形：“ ‘ 『
wyy 右引號，全形：” ’ 』
wj 句號，全形：。
ww 問號，全形：？半形：?
wt 歎號，全形：！半形：!
wd 逗號，全形：，半形：,
wf 分號，全形：；半形： ;
wn 頓號，全形：、
wm 冒號，全形：：半形： :
ws 省略號，全形：…… …
wp 破折號，全形：—— －－ ——－半形：— —-
wb 百分號千分號，全形：％ ‰ 半形：%
wh 單位符號，全形：￥＄￡ ° ℃ 半形：$

轉自https://blog.csdn.net/sinat_34022298/article/details/75943272 侵請聯刪

Python的jieba分詞及TF-IDF和TextRank 演算法提取關鍵字

參考文章：Github上的專案———jieba 中文分詞對於NLP（自然語言處理）來說，分詞是一步重要的工作，市面上也有各種分詞庫，11款開放中文分詞系統比較。 1.基於詞典：基於字典、詞庫匹配的分詞方法；（字串匹配、機械分詞法） 2.基於統計：基於詞頻度統計的分詞方法；&n

關鍵詞抽取演算法介紹：TF-IDF和TextRank

一、前言關鍵詞抽取就是從文本里面把跟這篇文件意義最相關的一些詞抽取出來。這個可以追溯到文獻檢索初期，當時還不支援全文搜尋的時候，關鍵詞就可以作為搜尋這篇論文的詞語。因此，目前依然可以在論文中看到關鍵詞這一項。除了這些，關鍵詞還可以在文字聚類、分類、自動摘要等領域中有著重要的作用。

計算jieba分詞的Tf-idf值

TF-IDF（termfrequency–inverse document frequency）是一種用於資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法，用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨

用 TF-IDF 和詞袋錶示文件特徵

使用 CounterVectorizer 和 TfidfTransformer 計算 TF-IDF import jieba from sklearn.feature_extraction.text import CountVectorizer, TfidfTr

最大概率法分詞及性能測試

初始化 and ifs push 復位 enc prev 特殊字符 mat 最大概率分詞是一種最主要的統計方法分詞。一個待切割的字符串有多種分詞結果，最大概率分詞的原則是將當中概率最大的那個作為該字符串的分詞結果。第一部分理論基礎

分詞及詞雲圖設計

display als return color pos d+ resource div 更改１.jieba的基本使用 1 import jieba 2 3 4 s1 = ‘我喜歡廣州小蠻腰‘ 5 s2 = "我喜歡上海東方明珠" 6 #jieba,c

英文文章分詞及已知單詞位置計算單詞在文章中起始下標

###英文文章分詞及已知單詞位置計算單詞在文章中起始下標 ####背景 1.由於最近專案中需要，要實現類似文章跟讀的效果，但已知的只有每個單詞在文章中的位置下標（即每個單詞在文章中是在第幾個單詞），那麼要實現跟讀效果就必須根據每個單詞在文章中的位置計算出每個單詞在整個文章中的具體下標。比

中文分詞及繪製詞雲

文字分析一直以來是資料分析的一塊重要內容，隨著語言識別技術，大資料分析技術的發展，文字分析越來越受到關注和重視。比如要快速地提取某論壇中某個熱點新聞主要觀點，我們需要先對這些評論進行文字分析。分詞是將一句完整的語句切分成若干一個一個的詞語。在現實文字分析中分詞處

分詞及詞雲圖繪製-R語言

分詞的方法模型很多種，最大概率法(mp)、隱式馬爾可夫模型(hmm)、索引模型(query)以及混合模型(mix)等，字典的型別也分為很多種，混合模型的結果一般情況下效果較優，下面利用R語言簡單繪製雲圖

TF, IDF和TF-IDF

在相似文字的推薦中，可以用TF-IDF來衡量文章之間的相似性。一、TF（Term Frequency） TF的含義很明顯，就是詞出現的頻率。公式：在算文字相似性的時候，可以採用這個思路，如果兩篇文章高頻詞很相似，那麼就可以認定兩片文章很相似。二、IDF（I

solr5.5整合IK分詞及mysql定時資料同步的開發記錄

目錄 1.前言 2.java環境 2.1 安裝jdk 2.1.1 64位安裝 2.1.2 32位安裝 2.1.3 環境變數 2.1.4 重新整理許可權 2.1.5 確認安裝 3 安裝tomcat8 3.1 修改埠號 3.2 設定tomcat-user

安裝ik分詞器以及版本和ES版本的相容性

一.檢視自己ES的版本號與之對應的IK分詞器版本 https://github.com/medcl/elasticsearch-analysis-ik/blob/master/README.md 二.下載與之對應的版本 https://github.com/medcl/elasticse

搜尋引擎solr7.2.1+Jetty 分詞及自定義擴充套件詞庫的配置

分詞我理解的是，輸入的一句話，按照它自己定義的規則分為常用詞語。首先，Solr有自己基本的型別，string、int、date、long等等。對於string型別，比如在你的core/conf/manage-schema檔案中，配置一個欄位型別為string型別，如果查詢

【資料彙編】結巴中文分詞官方文件和原始碼分析系列文章

作者：白寧超 2016年11月23日16:49:36 摘要：結巴中文分詞的特點如下：支援三種分詞模式：（精確模式，試圖將句子最精確地切開，適合文字分析；全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合

Lucene使用單字分詞及短語查詢實現類似全模糊查詢效果

Lucene使用全模糊查詢效率慢，現通過單字分詞，及短語查詢的方式達到類似效果，並極大的提高效率。預期分詞效果：中華人員共和國Chinese，Come On——>中/華/人/民/共/和/國/C/h/i/n/e/s/e/，/C/o/m/e/

[python] 使用Jieba工具中文分詞及文字聚類概念

一. Selenium爬取百度百科摘要簡單給出Selenium爬取百度百科5A級景區的程式碼： # coding=utf-8 """ Created on 2015-12-10 @author: Eastmount """ impo

jieba分詞及詞性標註

# ============================================================================= # jieba分詞 #import jieba # f1 =open("weibo.txt") # f2 =

Lucene基礎（三）-- 中文分詞及高亮顯示

Lucene分詞器及高亮分詞器在lucene中我們按照分詞方式把文件進行索引，不同的分詞器索引的效果不太一樣，之前的例子使用的都是標準分詞器，對於英文的效果很好，但是中文分詞效果就不怎麼樣，他會按照漢字的字直接分詞，沒有詞語的概念。使用分詞的地方

中文分詞的逆向最大匹配演算法(2016年)

逆向最大匹配演算法，中文分詞機械化分詞中最基本的演算法，也是入門級別的演算法。但是，在機械化分詞方面的效果，表現卻很好。尤其是在大文字的時候，一次取較多詞語進行匹配，因為大文字匹配成詞的概率遠遠高於小文字，所以會有很好的表現。下面的程式碼，來自IK分詞的一部分原始碼包，201

中文分詞之正向最大匹配演算法

中文分詞目前可以分為“規則分詞”，“統計分詞”，“混合分詞（規則+統計）”這三個主要流派。這次介紹下基於規則的分詞，其是一種機械的分詞方法，主要通過維護詞典，在切分語句時，將語句的每個字串與詞表中的詞逐一進行匹配，找到則切分，否則不予切分。正向最大匹配演算法

Python的jieba分詞及TF-IDF和TextRank 演算法提取關鍵字

中文分詞

安裝jieba

jieba分詞特性

主要功能

分詞

關鍵詞提取

基於 TF-IDF（term frequency–inverse document frequency） 演算法的關鍵詞抽取

基於 TextRank 演算法的關鍵詞抽取

詞性標註

詞性對照表

相關推薦

基於 TF-IDF（term frequency–inverse document frequency）演算法的關鍵詞抽取