1. 程式人生 > >wordcloud詞雲分析及詞頻統計繪圖

wordcloud詞雲分析及詞頻統計繪圖

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date    : 2017-10-18 17:52:25
# @Author  : awakeljw ([email protected])
# @Link    : http://blog.csdn.net/awakeljw/
# @Version : $Id$


from wordcloud import WordCloud
import jieba
import PIL
import matplotlib.pyplot as plt
import numpy as np
from collections import
Counter import matplotlib from pylab import mpl mpl.rcParams['font.sans-serif'] = ['SentyTang'] # 指定預設字型 mpl.rcParams['axes.unicode_minus'] = False matplotlib.rc('xtick', labelsize=14) matplotlib.rc('ytick', labelsize=14) def wordcloudplot(txt): path='字型檔案' # path=unicode(path, 'utf8').encode('gb18030')
alice_mask = np.array(PIL.Image.open('圖片檔案')) wordcloud = WordCloud(font_path=path, background_color="white", margin=5, width=1800, height=800,mask=alice_mask,max_words=2000,max_font_size=60,random_state=42) wordcloud = wordcloud.generate(txt) wordcloud.to_file('輸出檔案'
) plt.imshow(wordcloud) plt.axis("off") plt.show() rem = [',','、','。','的','和','\u3000','圖','串','“','”',' ','與','是','端','在','中','了','\n'] def main(): a=[] f=open(r'I:\tensorflow\ciyun\paper.txt','r',encoding='gb18030').read() words=list(jieba.cut(f)) tongji = Counter(words).most_common(20) d = {key: value for (key, value) in tongji} for i in list(d.keys()): if i in rem: d.pop(i) print (d) label = list(d.keys()) y = list(d.values()) idx = np.arange(len(y)) plt.barh(idx,y) plt.yticks(idx+0.4,label) plt.xlabel('出現次數',fontsize = 20,labelpad = 5) plt.ylabel('關鍵詞',fontsize= 20,labelpad = 5) plt.title('渦流發生器對激波串振盪的控制',fontsize= 25) plt.savefig('輸出詞頻圖示') #plt.show() #繪製pie chart on polar axis N = len(d) theta = np.arange(0.0, 2*np.pi,2*np.pi/N) radii = y width = np.pi/6 ax = plt.subplot(111,projection='polar') bars = ax.bar(theta, radii, width = width, bottom = 0.0) plt.xticks(theta+np.pi/12,label) for r, bar in zip(radii, bars): bar.set_facecolor(plt.cm.viridis(r / 10.)) bar.set_alpha(0.5) plt.savefig('輸出pie極座標圖') plt.show() for word in words: if len(word)>1: a.append(word) txt=r' '.join(a) wordcloudplot(txt)#輸出詞雲 if __name__=='__main__': main()

1.安裝wordcloud,jieba
http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下載對應的python版本,在cmd中輸入pip install I:/wordcloud-1.3.2-cp35-cp35m-win_amd64.whl安裝即可
jieba:pip install jieba
2.修改字型檔案
找到python安裝位置:C:\Anaconda3\Lib\site-packages\matplotlib\mpl-data\fonts\ttf新增自己下載的中文字型,
刪除個人使用者下的.matplotlib檔案
3.新增字型檔案和圖片
4.更改程式碼中的檔案和圖片路徑
5.執行除錯

結果展示

這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述

相關推薦

wordcloud分析詞頻統計繪圖

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-10-18 17:52:25 # @Author : awakeljw ([email protected]) # @Li

python資料探勘課程 十三.WordCloud配置過程詞頻分析

一. 安裝WordCloud         在使用WordCloud詞雲之前,需要使用pip安裝相應的包。        pip install WordCloud         pip install jieba         其中WordCloud是詞雲,ji

python爬蟲——京東評論、jieba分wordcloud統計

nbsp cnblogs code utf-8 col type callback 結果 處理 接上一章,抓取京東評論區內容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetc

Ubuntu的中文是哪種字型?python的分析和 三國演義人物出場統計

Ubuntu的預設中文是哪種呢? fc-list :lang=zh 用這個命令查看出來 NotoSerifCJK-Bold.ttc 為什麼要知道這個呢? 來看一塊python3程式碼 import jieba import wordcloud f = op

[Python微信開發] 一.itchat入門知識微信自動回覆、微信簽名分析

轉自: https://blog.csdn.net/Eastmount/article/details/79618039 最近準備學習微信小程式開發,偶然間看到了python與微信互動的介面itchat,簡單學習了下,感覺還挺有意思的,故寫了篇基礎文章供大家學習。it

Python 分析周傑倫《晴天》

保存 ron 語言 痛徹心扉 分析 near spa sim img 一、前言滿天星辰的夜晚,他們相遇了、、、夏天的時候,她慢慢的接近他,關心他,為他付出一切;秋天的時候,兩個人終於如願的在一起,分享一切快樂的時光但終究是快樂時光短暫,因為傑倫必須出國深造,兩人面臨了要分隔

python 制作wordcloud

ont ima plot 完成 .com span 文件 help 來源 pip install wordcloud 需要用到numpy pillow matplotlib 安裝完成以後 wordcloud_cli --text in.txt --imagefile

分析《天龍八部》人物出現次數

出現次數 標題 http 春秋 mar -s pen image 背景圖片 一.需要的三方庫 1.安裝詞雲:   pip install wordcloud 2.安裝結巴   pip install jieba 3.安裝matplotlib   pip install ma

分析的進一步理解

豆瓣電影 豆瓣評論分析: 1). 獲取豆瓣最新上映的所有電影的前10頁評論資訊; 2). 清洗資料; 3). 分析每個電影評論資訊分析繪製成詞雲, 儲存為png圖片,檔名為: 電影名.png; import requests from bs4 import Beautifu

電影評論分析

需求:將豆瓣電影的評論爬取出來,用詞雲的方式對其進行分析 步驟分析: 1). 分析網站的原始碼 2). 通過url獲取電影名和電影id 3). 獲取指定的電影的評論 4). 資料的清洗,去除一些不需要的資訊 5). 進行詞雲的分析 分析網站的原始碼 通過原始碼分析,豆瓣電影是靠

wordcloud(

問題:我們在爬取文字文字,如:爬取彈幕展示,需要展示在一張圖片上時,可以運用詞雲模組來實現 from wordcloud import WordCloud from scipy.misc import imread # 初始化詞雲 color_mask = imread("backgroun.

Spark環境安裝部署詞頻統計例項

Spark是一個高效能的分散式計算框架,由於是在記憶體中進行操作,效能比MapReduce要高出很多. 具體的我就不介紹了,直接開始安裝部署並進行例項測試 首先在官網下載http://spark.ap

加深分析

豆瓣評論分析: 1). 獲取豆瓣最新上映的所有電影的前10頁評論資訊; 2). 清洗資料; 3). 分析每個電影評論資訊分析繪製成詞雲, 儲存為png圖片,檔名為: 電影名.png; import requests from bs4 import Beautif

Python入門之電影分析

需求:將豆瓣電影的評論爬取出來,用詞雲的方式對其進行分析 步驟分析: 1). 分析網站的原始碼 2). 通過url獲取電影名和電影id 3). 獲取指定的電影的評論 4). 資料的清洗,去除一些不需要的資訊 5). 進行詞雲的分析 分析網站的原始碼 通過原始碼分

Python 資料視覺化:WordCloud 的構建

WordCloud 官方文件:https://amueller.github.io/word_cloud/index.html WordCloud GitHub 地址:https://github.com/amueller/word_cloud Python非常重要的一個視覺化庫,wordclou

分析之英文

from pyecharts import WordCloud import jieba import re import nltk with open(r'F:\演算法\others\merry.txt', 'r', encoding='utf-8') as f: text = f.r

python 爬取豆瓣電影評論,並進行展示出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神 短評 第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

Python爬取豆瓣電影的短評資料並進行分析處理

前言 對於爬蟲很不陌生,而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了,今天小編就介紹一下如果爬取豆瓣上面電影影評,以《我不是藥神》為例。 基本環境配置 版本:Python3.6 系統:Windows 本人對於Python學習建立了一個小小的學習圈子,為各位提供了

NO.16——Pathon爬取楊超越新浪微博資料做分析

      看到網上充斥著很多詞雲分析的資料,今天心血來潮,也嘗試下詞雲分析。最近熱火的《創造101》,楊超越小姐姐一直在風口浪尖,因此這裡借用小姐姐的微博資料做分析。一、準備工具      作詞雲分析主要用到兩個工具:   jieba,俗稱結巴,中文分詞工具;wordclo

從安卓手機ROOT提取微信聊天記錄到利用Python進行分析全過程

剛剛來到了2018年,正值女票生日將近。想想這一年來我倆的聊天記錄也不少(匯出後一看十個月的微信文字聊天記錄將近8萬條 ^-^),於是就有了將我們的聊天記錄匯出來製作成詞雲,或者分析一下她說的最多的一句話是什麼?還打算做個預測模型,輸入一個句子然後讓模型預測下是她說的還是我說的,哈哈,想想還有點小激