Python基於jieba的中文詞雲

阿新 • • 發佈：2018-12-13

今日學習了python的詞雲技術

from os import path
from wordcloud import WordCloud
import matplotlib.pyplot as plt

d=path.dirname(__file__)
text=open(path.join(d,"data//constitution.txt")).read()

# 步驟3-2：設定一張詞雲圖物件
wordcloud = WordCloud(background_color="white", max_font_size=40).generate(text)

# 步驟4-1：建立一個圖表畫布
plt.figure()
# 步驟4-2：設定圖片
plt.imshow(wordcloud, interpolation="bilinear")
# 步驟4-3：取消圖表x、y軸
plt.axis("off")
# 顯示圖片
plt.show()

結果如下：這是沒有背景圖的詞雲

接下來這個是愛麗絲漫遊小說的詞雲

from os import path
from PIL import Image
import numpy as np
from wordcloud import WordCloud
import matplotlib.pyplot as plt

d=path.dirname(__file__)
text=open(path.join(d,"data//alice.txt")).read()
alice_mask = np.array(Image.open(path.join(d, "data/alice_mask.png")))

wordcloud=WordCloud(background_color="white",max_words=2000,mask=alice_mask)
wordcloud.generate(text)

wordcloud.to_file(path.join(d,"images//alice_word.png"))

用英文做詞雲很簡單，不需要很麻煩的分詞技術，用wordcloud模組就可以簡單實現

執行結果如下

背景圖：

最後是中文詞雲，中文詞雲就比較麻煩了，得用到jieba模組的分詞技術，還得篩選

import jieba
from os import path  #用來獲取文件的路徑

#詞雲
from PIL import Image
import numpy as  np
import matplotlib.pyplot as plt
#詞雲生成工具
from wordcloud import WordCloud,ImageColorGenerator
#需要對中文進行處理
import matplotlib.font_manager as fm

#背景圖
bg=np.array(Image.open("data/4.jpg"))

#獲取當前的專案檔案加的路徑
d=path.dirname(__file__)
#讀取停用詞表
stopwords_path='data/alice.txt'
#新增需要自定以的分詞
jieba.add_word("侯亮平")


#讀取要分析的文字
text_path="data//sanguo.txt"
#讀取要分析的文字，讀取格式
text=open(path.join(d,text_path),encoding="utf8").read()

#定義個函式式用於分詞
def jiebaclearText(text):
    #定義一個空的列表，將去除的停用詞的分詞儲存
    mywordList=[]
    #進行分詞
    seg_list=jieba.cut(text,cut_all=False)
    #將一個generator的內容用/連線
    listStr='/'.join(seg_list)
    #開啟停用詞表
    f_stop=open(stopwords_path,encoding="utf8")
    #讀取
    try:
        f_stop_text=f_stop.read()
    finally:
        f_stop.close()#關閉資源
    #將停用詞格式化，用\n分開，返回一個列表
    f_stop_seg_list=f_stop_text.split("\n")
    #對預設模式分詞的進行遍歷，去除停用詞
    for myword in listStr.split('/'):
        #去除停用詞
        if not(myword.split()) in f_stop_seg_list and len(myword.strip())>1:
            mywordList.append(myword)
    return ' '.join(mywordList)
text1=jiebaclearText(text)

#生成
wc=WordCloud(
    background_color="white",
    max_words=150,
    mask=bg,            #設定圖片的背景
    max_font_size=60,
    random_state=42,
    font_path='C:/Windows/Fonts/simkai.ttf'   #中文處理，用系統自帶的字型
    ).generate(text1)
#為圖片設定字型
my_font=fm.FontProperties(fname='C:/Windows/Fonts/simkai.ttf')
#產生背景圖片，基於彩色影象的顏色生成器
image_colors=ImageColorGenerator(bg)
#開始畫圖
plt.imshow(wc,interpolation="bilinear")
#為雲圖去掉座標軸
plt.axis("off")
#畫雲圖，顯示
#plt.figure()
plt.show()
#為背景圖去掉座標軸
plt.axis("off")
plt.imshow(bg,cmap=plt.cm.gray)
#plt.show()

#儲存雲圖
wc.to_file("data/sanguo.png")

執行結果：

可以看出，三國前20回裡，呂布，曹操，玄德等詞出現的最多

Python基於jieba的中文詞雲

今日學習了python的詞雲技術 from os import path from wordcloud import WordCloud import matplotlib.pyplot as plt d=path.dirname(__file__) text=open(path.join(d

基於python的wordcloud庫生成中文詞雲

安裝 pip install wordcloud -i https://mirrors.aliyun.com/pypi/simple/ wordcloud中主要有三個類： WordCloud([font_path, width, height, …])

【Python】Windows下用Jieba分詞和WordCloud庫生成中文詞雲

一、開啟Anaconda Prompt，用activate命令啟用環境二、從清華映象下載所需庫： jieba分詞庫 wordcloud繪製詞雲庫 numpy常用於處理陣列 PIL為影象處理標準庫 pip install jieba -i https://pypi

[Python] 基於 jieba 的中文分詞總結

[TOC] ## 模組安裝 ``` pip install jieba ``` jieba分詞器支援4種分詞模式: 1. 精確模式該模式會試圖將句子最精確地切分開，適合在文字分析時使用。 2. 全模式該模式會將句子中所有可以成詞的詞語都掃描出來，速度也非常快，缺點是不能解決歧義問題，有歧義的詞語也會被掃描出來

python安裝Jieba中文分詞組件並測試

圖片 class pypi setup.py bubuko for 中文 users mage python安裝Jieba中文分詞組件 1、下載http://pypi.python.org/pypi/jieba/ 2、解壓到解壓到python目錄下： 3、

Python 生成中文詞雲

images nag 塑造中國國情基礎如果 jieba 和諧進入豆子無意中發現Python有個現成的模塊 word cloud可以根據文本文件生成詞雲，很好很強大，簡單地玩了一把。寫代碼之前，首先需要安裝3個依賴的Python模塊，分別是matplotlib,

python（wordcloud）實現中文詞雲

bold pytho 作圖 back 垂直背景數值內置顯示 # 這是一個處理圖像的函數from scipy.misc import imreadfrom wordcloud import WordCloud,STOPWORDS,ImageColorGenerat

[python] 詞雲：wordcloud包的安裝、使用、原理（源碼分析）、中文詞雲生成、代碼重寫

possible 渲染 alias com 表達問題 compute ural pty 詞雲，又稱文字雲、標簽雲，是對文本數據中出現頻率較高的“關鍵詞”在視覺上的突出呈現，形成關鍵詞的渲染形成類似雲一樣的彩色圖片，從而一眼就可以領略文本數據的主要表

python 微信生成詞雲(itchat,jieba,wordcloud)

完整程式碼： import itchat import re#正則匹配 # 先登入，掃二維碼登入微信 itchat.login() #獲取好友列表，返回的是json資訊 friends = itchat.get_friends(update=True)[0:] #列印好

Python 自然語言處理（基於jieba分詞和NLTK）

----------歡迎加入學習交流QQ群：657341423 自然語言處理是人工智慧的類別之一。自然語言處理主要有那些功能？我們以百度AI為例從上述的例子可以看到，自然語言處理最基本的功能是詞法分析，詞法分析的功能主要有：分詞分句詞語標註詞法時態

利用Python將已有TXT文件生成中文詞雲

Python學習心得之一近期剛上手學習Python，在學習完一些基礎教程後，開始動手做一些小專案。之後也會不定期更新一些學習心得…… 準備階段本人的開發環境採用Python2.7+cmd命令視窗的形式，安裝方法可以參考網上一些教程。操作

python結巴(jieba)分詞

pytho 最大的 parallel img 權重模型 python 應用 port python結巴(jieba)分詞一、特點 1、支持三種分詞模式：　　(1)精確模式：試圖將句子最精確的切開，適合文本分析。　　(2)全模式：把句子中所有可以成詞的詞語都掃描出來

python生成職業要求詞雲

經驗 asc matplot plot 數據如圖所示 [] show print 接著上篇的說的，爬取了大數據相關的職位信息，http://www.17bigdata.com/jobs/。 # -*- coding: utf-8 -*- """ Created on T

python 制作wordcloud詞雲

ont ima plot 完成 .com span 文件 help 來源 pip install wordcloud 需要用到numpy pillow matplotlib 安裝完成以後 wordcloud_cli --text in.txt --imagefile

python的jieba分詞

str lov clas true read .py 日本 pri 技術 # 官方例程 # encoding=utf-8 import jieba seg_list = jieba.cut("我來到北京清華大學", cut_all=True) print("Full

Python數據挖掘-詞雲

pen agg val nump columns 背景 sort wordcloud 分享圖片詞雲繪制 1、語料庫的搭建、分詞來源、移除停用詞、詞頻統計使用方法：os.path.join(path,name) #連接目錄與文件名或目錄結果為path/name

Python數據挖掘-詞雲美化

round edge ner hit 數據 odin fit segments content 1、語料庫構建由於不像之前是對很多個文件進行詞頻統計，所以不需要使用os.walk()方法遍歷每一個文件；只需使用codecs.open()打開相應的文件，(記得close)

用Wordcloud生成中文詞雲時遇到的問題

用Wordcloud生成中文詞雲時遇到的問題 import jieba import wordcloud f= open ('ciyun.txt',encoding='utf-8') t=f.read() f.close() ls=jieba.lcut(t) txt=" ".join(

利用Python把圖片生成詞雲！很秀很裝逼！其實非常簡單，不信你看

前言今天教大家用wrodcloud模組來生成詞雲，我讀取了一篇小說並生成了詞雲，先看一下效果圖：效果圖一：進群：548377875 即可獲取數十套PDF哦！效果圖二：

Python的jieba分詞及TF-IDF和TextRank 演算法提取關鍵字

參考文章：Github上的專案———jieba 中文分詞對於NLP（自然語言處理）來說，分詞是一步重要的工作，市面上也有各種分詞庫，11款開放中文分詞系統比較。 1.基於詞典：基於字典、詞庫匹配的分詞方法；（字串匹配、機械分詞法） 2.基於統計：基於詞頻度統計的分詞方法；&n

Python基於jieba的中文詞雲

相關推薦