python 結巴分詞學習

阿新 • • 發佈：2019-01-07

結巴分詞（自然語言處理之中文分詞器）

　　jieba分詞演算法使用了基於字首詞典實現高效的詞圖掃描，生成句子中漢字所有可能生成詞情況所構成的有向無環圖(DAG), 再採用了動態規劃查詢最大概率路徑，找出基於詞頻的最大切分組合，對於未登入詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi演算法。

jieba分詞支援三種分詞模式：

　　1. 精確模式, 試圖將句子最精確地切開，適合文字分析：

　　2. 全模式，把句子中所有的可以成詞的詞語都掃描出來，速度非常快，但是不能解決歧義；

　　3. 搜尋引擎模式，在精確模式的基礎上，對長詞再詞切分，提高召回率，適合用於搜尋引擎分詞。

一結巴分詞的安裝

pip3 install jieba

二結巴分詞的主要功能

1. jieba.cut：該方法接受三個輸入引數：
　　引數1：需要分詞的字串; 
　　引數2：cut_all引數用來控制是否採用全模式，預設為精確模式；
          cut_all=True 全模式
          cut_all=false 精確（預設）模式
　　引數3：HMM引數用來控制是否適用HMM模型

2. jieba.cut_for_search：該方法接受兩個引數：
　　引數1：需要分詞的字串；
　　引數2：是否使用HMM模型，
該方法適用於搜尋引擎構建倒排索引的分詞，粒度比較細。

3. jieba.cut 以及jieba.cut_for_search
返回的結構都是可以得到的generator(生成器)

4. jieb.lcut 以及 jieba.lcut_for_search 
直接返回list

5.jieba.Tokenizer(dictionary=DEFUALT_DICT)
新建自定義分詞器，
可用於同時使用不同字典，
jieba.dt為預設分詞器，所有全域性分詞相關函式都是該分詞器的對映。

三結巴分詞的三種模式

import  jieba

text='趙麗穎主演的正午陽光劇,知否知否應是綠肥紅瘦'

1 全模式 cut_all=True

seq_list=jieba.cut(text,cut_all=True)
print(seq_list) #<generator object Tokenizer.cut at 0x0000026EB6F0CD58>
print(list(seq_list))
'''
['趙', '麗', '穎', '主演', '的', '正午', '陽光', '劇', '', '', '知', '否', '知', '否', '應', '是', '綠肥', '綠肥紅瘦']
'''

2 精確模式（預設模式） cut_all =False

# 02精確模式
seq_list=jieba.cut(text,cut_all=False)
print(list(seq_list))
'''
['趙麗穎', '主演', '的', '正午', '陽光', '劇', ',', '知否', '知否', '應', '是', '綠肥紅瘦']
'''

3 搜尋引擎模式 cut_for_search

seq_list=jieba.cut_for_search(text,)
print(list(seq_list))
'''
['趙麗穎', '主演', '的', '正午', '陽光', '劇', ',', '知否', '知否', '應', '是', '綠肥', '綠肥紅瘦']
'''

四自定義分詞器(jieba.Tokenizer)

1　建立詞典內容的格式

一個詞語佔一行(分三部分)
格式: 詞語 詞頻 詞性
如:張三  5
    李四  10 eng

2 自定義詞典的匯入(load_userdict)

text='趙麗穎主演的正午陽光劇,知否知否應是綠肥紅瘦'

# 自定義詞典
jieba.load_userdict('自定義詞典.txt')
sep_list=jieba.lcut(text)
print('userdict>>>',sep_list)

userdict>>> ['趙麗穎', '主演', '的', '正午', '陽光劇', ',', '知否', '知否', '應是', '綠肥紅瘦']

五利用jieba 進行關鍵詞的抽取

1 基於TF－IDF演算法的關鍵詞抽取

　　詳解自然語言處理之TF-IDF模型和python實現

2 python 實現關鍵提取

jieba.analyse.extract_tags(text,topK=20,withWeight=False,allowPOS=())
'''
    text:為待提取的文字;
    topK:返回幾個TF/IDF權重最大的關鍵字,預設值為20;
    withWeight:是否一併返回關鍵詞權重值,預設False;
'''
jieba.analyse.TFIDF(idf_path=None) #新建tf-idf例項,idf_path為IDF例項

五使用結巴的詞雲實例

1 資料準備

文件:

死了都要愛.txt

dream ispossible.txt

圖片:(紅心.jpg)

# 資料獲取
with open('死了都要愛.txt','r',encoding='utf8')as f:
    text=f.read()

# with open('dream is possible.txt','r',encoding='utf8')as f:
#     text=f.read()
#圖片獲取
mask=np.array(Image.open('紅心.jpg'))

2 資料清洗

遮蔽不需要的資料和分詞

# 資料清洗
# 遮蔽死了都要愛
STOPWORDS.add('死了都要愛')

sep_list=jieba.lcut(text,cut_all=False)
sep_list=" ".join(sep_list) #轉為字串

自定義畫布

wc=WordCloud(
    font_path=font,#使用的字型庫
    margin=2,
    mask=mask,#背景圖片
    background_color='white', #背景顏色
    max_font_size=25,
    max_words=200,
    stopwords=STOPWORDS, #遮蔽的內容
)

生成詞語,儲存圖片

wc.generate(text) #製作詞雲
wc.to_file('新增圖片.jpg') #儲存到當地檔案

3 資料展示

plt.imshow(wc,interpolation='bilinear')
plt.axis('off')
plt.show()

完整程式碼和效果展示

from wordcloud import WordCloud
import matplotlib.pyplot as plt

import numpy as np
from PIL import Image

import jieba

# 資料獲取
with open('死了都要愛.txt','r',encoding='utf8')as f:
    text=f.read()

# with open('dream is possible.txt','r',encoding='utf8')as f:
#     text=f.read()
#圖片獲取
mask=np.array(Image.open('關羽.jpg'))

# 資料清洗
# 遮蔽死了都要愛
# STOPWORDS.add('死了都要愛')

font=r'C:\Windows\Fonts\simhei.ttf'
sep_list=jieba.lcut(text,cut_all=False)
sep_list=" ".join(sep_list)
wc=WordCloud(
    font_path=font,#使用的字型庫
    margin=2,
    mask=mask,#背景圖片
    background_color='white', #背景顏色
    max_font_size=200,
    # min_font_size=1,
    max_words=200,
    # stopwords=STOPWORDS, #遮蔽的內容
)

wc.generate(sep_list) #製作詞雲
wc.to_file('關羽新增.jpg') #儲存到當地檔案

# 圖片展示
plt.imshow(wc,interpolation='bilinear')
plt.axis('off')
plt.show()

圖片一(未分詞):

圖片二(分詞效果)

鄭州正規不孕不育醫院

鄭州專業婦科醫院

鄭州人流醫院

python 結巴分詞學習

結巴分詞（自然語言處理之中文分詞器）　　jieba分詞演算法使用了基於字首詞典實現高效的詞圖掃描，生成句子中漢字所有可能生成詞情況所構成的有向無環圖(DAG), 再採用了動態規劃查詢最大概率路徑，找出基於詞頻的最大切分組合，對於未登入詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi

python 結巴分詞(jieba)學習

原始碼下載的地址：https://github.com/fxsjy/jieba 演示地址：http://jiebademo.ap01.aws.af.cm/ 特點 1，支援三種分詞模式： a,精確模式，試圖將句子最精確地切開，適合文字分析； b,全

Python 結巴分詞關鍵詞抽取分析

等於範圍分類問題 urn post bre 依然信息檢索有意關鍵詞抽取就是從文本裏面把跟這篇文檔意義最相關的一些詞抽取出來。這個可以追溯到文獻檢索初期，當時還不支持全文搜索的時候，關鍵詞就可以作為搜索這篇論文的詞語。因此，目前依然可以在論文中看到關鍵詞這一項。

python 結巴分詞(jieba)詳解

【轉自：https://www.cnblogs.com/jackchen-Net/p/8207009.html】 “結巴”中文分詞：做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation:

Python---結巴分詞介紹

結巴分詞介紹現在開源的中文分詞工具，有IK、MMseg4j、THULAC、Ansj、Jieba、HanLP等，其中最近還在更新並維護的，也是目前分詞效果比較優秀的要屬於Ansj、Jieba、HanLP了。之前我寫過Ansj分詞器的介紹說明部落格，現在細談一下Jieba分詞的詳細思路及其實現過程。結巴分

python結巴分詞器的使用說明

特點 1，支援三種分詞模式： a,精確模式，試圖將句子最精確地切開，適合文字分析； b,全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義； c,搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合

python—結巴分詞的原理理解，Hmm中的轉移概率矩陣和混淆矩陣。

結巴分詞的準備工作開發者首先根據大量的人民日報訓練了得到了字典庫、和Hmm中的轉移概率矩陣和混淆矩陣。 1. 載入字典, 生成trie樹為什麼要載入字典樹呢，是因為如果沒有字典樹，

Python中結巴分詞使用手記

img 3年方法封裝 python token sys.path 裝飾 arp mage 結巴分詞方法封裝類 from __future__ import unicode_literals import sys sys.path.append("../")

python中文分詞，使用結巴分詞對python進行分詞

php 分詞在采集美女站時,需要對關鍵詞進行分詞,最終采用的是python的結巴分詞方法.中文分詞是中文文本處理的一個基礎性工作，結巴分詞利用進行中文分詞。其基本實現原理有三點：基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)采用了動態規劃查找最大概率

學習筆記--中文分詞之結巴分詞(二)

結巴中文分詞簡介 1）支援三種分詞模式：精確模式：將句子最精確的分開，適合文字分析全模式：句子中所有可以成詞的詞語都掃描出來，速度快，不能解決歧義搜尋引擎模式：在精確的基礎上，對長詞再次切分，提高召回 2）支援繁體分詞 3）支援自定義詞典

使用結巴分詞（jieba）對自然語言進行特徵預處理（Python、Java 實現）

一、前言之前使用基於 Python 語言的 Spark 進行機器學習，程式設計起來是十分簡單。 ① 但是演算法部署到雲伺服器上，是一個障礙。 ② 得藉助 Flask/Django 等 Python W

使用python中的結巴分詞作詞雲圖，對微信功能點進行輔助分析

工作室任務：基於知乎評論，分析微信功能點，做一次分享會。一、原料和準備 1.從網上爬蟲的文件，儲存為txt文件，本例來源https://www.zhihu.com/question/23178234？from=groupmessage&isappinstalled

深度學習----NLP結巴分詞詞性大全

jieba為自然語言語言中常用工具包，jieba具有對分詞的詞性進行標註的功能，詞性類別如下: 格式詞性解釋 Ag 形語素形容詞性語素。形容詞程式碼為 a，語素程式碼

深度學習----NLP結巴分詞基礎

文章目錄 jieba中文分詞簡介中文分詞的原理 1 基於規則 2 基於統計 3 jieba的原理安裝結巴jieba jieba三

python jieba分詞(結巴分詞)、提取詞，載入詞，修改詞頻，定義詞庫

轉載請註明出處歡迎加入Python快速進階QQ群：867300100 “結巴”中文分詞：做最好的 Python 中文分片語件,分詞模組jieba，它是python比較好用的分詞模組, 支援中文簡體，繁體分詞，還支援自定義詞庫。 jieba的分詞，提取關鍵詞，

python 去除停用詞結巴分詞

#coding:gbk import jieba #stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword.txt') ]) stopwords = {}.fromkeys(['的', '附近']) segs =

對Python中文分詞模組結巴分詞演算法過程的理解和分析

結巴分詞是國內程式設計師用python開發的一箇中文分詞模組, 原始碼已託管在github, 地址在: https://github.com/fxsjy/jieba 作者的文件寫的不是很全, 只寫了怎麼用, 有一些細節的文件沒有寫. 以下是作者說明檔案中提到的結巴分

python中文分詞工具：結巴分詞jieba

結巴分詞jieba特點支援三種分詞模式：精確模式，試圖將句子最精確地切開，適合文字分析；全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提

Python利用結巴分詞進行中文分詞

利用結巴分詞進行中文分詞，選擇全模式，建立詞倒排索引，並實現一般多詞查詢和短語查詢 # -*- coding: utf-8 -*- import jieba ''' Created on 2015-11-23 ''' def word_split(text): "

jieba（結巴）—— Python 中文分詞

學術界著名的分詞器：中科院的 ICTCLAS，程式碼並不十分好讀哈工大的 ltp，東北大學的 NIU Parser，另外，中文 NLP 和英文 NLP 不太一致的地方還在於，中文首先需要分詞，針對中文的分詞問題，有兩種基本的解決思路：啟發式（He

python 結巴分詞學習

結巴分詞（自然語言處理之中文分詞器）

一 結巴分詞的安裝

二 結巴分詞的主要功能

三 結巴分詞的三種模式

四 自定義分詞器(jieba.Tokenizer)

五 利用jieba 進行關鍵詞的抽取

五 使用結巴的詞雲實例

相關推薦

一結巴分詞的安裝

二結巴分詞的主要功能

三結巴分詞的三種模式

四自定義分詞器(jieba.Tokenizer)

五利用jieba 進行關鍵詞的抽取

五使用結巴的詞雲實例