關於爬取json內容生成詞雲（瘋狂踩坑）

阿新 • • 發佈：2018-04-30

.sh 動態 cnblogs google 插件 save result json數據 keys

本文爬取了掘金上關於前端前n頁的標題。將文章的標題進行分析，可以看出人們對前端關註的點或者近來的熱點。

導入庫

import requests
import re
from bs4 import BeautifulSoup
import json
import urllib
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import numpy as np
import xlwt
import jieba.analyse
from PIL import Image,ImageSequence

爬取json

#動態網頁json爬取
response=urllib.request.urlopen(ajaxUrl)
ajaxres=response.read().decode(‘utf-8‘)
json_str = json.dumps(ajaxres) #編碼
strdata = json.loads(json_str)  # 解碼
data=eval(strdata)

循環輸出title內容，並寫入文件

for i in range(0,25):
    ajaxUrl = ajaxUrlBegin + str(i) + ajaxUrlLast;
    for 
 i in range(0,19):
        result=[]
        result=data[‘d‘][i][‘title‘]
        print(result+‘\n‘)
        f = open(‘finally.txt‘, ‘a‘, encoding=‘utf-8‘)
        f.write(result)
        f.close()

生成詞雲

#詞頻統計
f = open(‘finally.txt‘, ‘r‘, encoding=‘utf-8‘)
str = f.read()
stringList = list(jieba.cut(str))
symbol  
= {"/", "(", ")", " ", "；", "！", "、", "：","+","?"," ","）","（","？","，","之","你","了","嗎","】","【"}
stringSet = set(stringList) - symbol
title_dict = {}
for i in stringSet:
    title_dict[i] = stringList.count(i)
print(title_dict)

#導入excel
di = title_dict
wbk = xlwt.Workbook(encoding=‘utf-8‘)
sheet = wbk.add_sheet("wordCount")  # Excel單元格名字
k = 0
for i in di.items():
    sheet.write(k, 0, label=i[0])
    sheet.write(k, 1, label=i[1])
    k = k + 1
wbk.save(‘前端數據.xls‘)  # 保存為 wordCount.xls文件　　

font = r‘C:\Windows\Fonts\simhei.ttf‘
content = ‘ ‘.join(title_dict.keys())
# 根據圖片生成詞雲
image = np.array(Image.open(‘cool.jpg‘))
wordcloud = WordCloud(background_color=‘white‘, font_path=font, mask=image, width=1000, height=860, margin=2).generate(content)
# 顯示生成的詞雲圖片
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
wordcloud.to_file(‘c-cool.jpg‘)

一個項目n個坑，一個坑踩一萬年

獲取動態網頁的具體內容

　　　爬取動態網頁時標題並不能在html裏直接找到，需要通過開發者工具裏的Network去尋找。尋找到的是ajax發出的json數據。技術分享圖片

獲取json裏面的具體某個數據

　　　　我們獲取到json數據之後（通過url獲取）發現它。。

技術分享圖片

（wtf，啥玩意啊這是？？？）

這時我們可以用一個Google插件JSONview，用了之後發現他說人話了終於！

技術分享圖片

接下來就是wordCloud的安裝

　　　這個我就不說了（說了之後只是網上那批沒用的答案+1.）。想知道怎麽解決的出門右轉隔壁的隔壁的隔壁老黃的博客。（芬達牛比）

總體代碼

import requests
import re
from bs4 import BeautifulSoup
import json
import urllib
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import numpy as np
import xlwt
import jieba.analyse
from PIL import Image,ImageSequence

url=‘https://juejin.im/search?query=前端‘
res = requests.get(url)
res.encoding = "utf-8"
soup = BeautifulSoup(res.text,"html.parser")


#遍歷n次
ajaxUrlBegin=‘https://search-merger-ms.juejin.im/v1/search?query=%E5%89%8D%E7%AB%AF&page=‘
ajaxUrlLast=‘&raw_result=false&src=web‘
for i in range(0,25):
    ajaxUrl=ajaxUrlBegin+str(i)+ajaxUrlLast;

#動態網頁json爬取
response=urllib.request.urlopen(ajaxUrl)
ajaxres=response.read().decode(‘utf-8‘)
json_str = json.dumps(ajaxres) #編碼
strdata = json.loads(json_str)  # 解碼
data=eval(strdata) #str轉換為dict

for i in range(0,25):
    ajaxUrl = ajaxUrlBegin + str(i) + ajaxUrlLast;
    for i in range(0,19):
        result=[]
        result=data[‘d‘][i][‘title‘]
        print(result+‘\n‘)
        f = open(‘finally.txt‘, ‘a‘, encoding=‘utf-8‘)
        f.write(result)
        f.close()

#詞頻統計
f = open(‘finally.txt‘, ‘r‘, encoding=‘utf-8‘)
str = f.read()
stringList = list(jieba.cut(str))
symbol = {"/", "(", ")", " ", "；", "！", "、", "：","+","?"," ","）","（","？","，","之","你","了","嗎","】","【"}
stringSet = set(stringList) - symbol
title_dict = {}
for i in stringSet:
    title_dict[i] = stringList.count(i)
print(title_dict)

#導入excel
di = title_dict
wbk = xlwt.Workbook(encoding=‘utf-8‘)
sheet = wbk.add_sheet("wordCount")  # Excel單元格名字
k = 0
for i in di.items():
    sheet.write(k, 0, label=i[0])
    sheet.write(k, 1, label=i[1])
    k = k + 1
wbk.save(‘前端數據.xls‘)  # 保存為 wordCount.xls文件　　

font = r‘C:\Windows\Fonts\simhei.ttf‘
content = ‘ ‘.join(title_dict.keys())
# 根據圖片生成詞雲
image = np.array(Image.open(‘cool.jpg‘))
wordcloud = WordCloud(background_color=‘white‘, font_path=font, mask=image, width=1000, height=860, margin=2).generate(content)
# 顯示生成的詞雲圖片
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
wordcloud.to_file(‘c-cool.jpg‘)

技術分享圖片

技術分享圖片（詞雲圖）

關於爬取json內容生成詞雲（瘋狂踩坑）

.sh 動態 cnblogs google 插件 save result json數據 keys 本文爬取了掘金上關於前端前n頁的標題。將文章的標題進行分析，可以看出人們對前端關註的點或者近來的熱點。導入庫 import requests import re from

抓取網易雲音樂歌曲熱門評論生成詞雲（轉）

非原創作品，轉載自：http://blog.csdn.net/marksinoberg/article/details/70809830 前言網易雲音樂一直是我向往的“神壇“，聽音樂看到走心的評論的那一刻，高山流水。於是今天來抓取一下歌曲的熱門評論。並做成詞

Python小程式——利用wordcloud庫生成詞雲（二）

wordcloud庫利用wordcloud物件生成詞雲，其中可以配置很多屬性，讓你的詞雲更加個性化。 w_cloud = wordcloud.WordCloud( font_path=font, background_color=None, mode="RGBA", # 背

Python小程式——利用wordcloud庫生成詞雲（一）

最近自學Python的中文處理，其中用到了wordcloud庫生成一篇文章的詞雲，能更直觀的表現出文章的主題，是一個不錯的工具。雖然現在網上有很多詞雲線上生成的應用，不過為了更個性化一點，還是寫一個自己的詞雲生成工具吧。 import jieba import wordcloud from

python爬取歌詞並生成詞雲圖

第一部分：爬取資料# 第一部分：爬取資料 import requests import re import os import json from bs4 import BeautifulSoup #發起響應 def get_html(url): headers =

HttpClient 實現爬取百度搜索結果（自動翻頁）

如果你對HttpClient還不是很瞭解，建議先移步我的另一篇部落格HttpClient4.x之請求示例後再來看這篇部落格。我們這裡的專案採用maven搭建。在閱讀前要對jdk和maven有一定的瞭解。另外開發工具這裡我這裡使用的是：Spring Tool Suite（STS）當然你也可以使用其

python爬取JS動態網頁完整指南（selenium+chrome headless）

11.23：更新，每次還要開啟瀏覽器多影響執行效率，看到蟲師講了chrome headless，非常好用引用新增： from selenium.webdriver.chrome.options import Options 程式碼新增： chrome_options =

用R語言（rvest包）爬取獵聘網招聘資訊（保證可重複性）

前言最近一直在思考動手做自己的第一個R語言資料分析專案，在R語言中文社群公眾號上看了許多爬取招聘網站的案例後，發現做招聘資訊分析是個不錯的選擇： 1. 整合並分析招聘資訊可以深入瞭解各個崗位的整體收入情況、學歷要求、經驗要求等，相信這是許多人都感興趣的； 2. 招聘網站的

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

scrapy 爬取知乎登入認證部分（採用cookie登入）

scrapy 爬蟲，為非同步io框架;因此此處選擇，先用requests請求，儲存cookie檔案，然後scrapy爬取前，在入口處載入cookie。 * 登入，儲存cookie方法見前兩節，此處展示的是scrapy讀取cookie * 首先要明確，

ELK環境部署（已踩坑）

已踩的坑：由於版本的不一致，安裝marvel時會導致kibana介面報紅，還有啟動kibana失敗，提示埠在使用，（og [17:26:44.467] [fatal] Error: listen EADDRINUSE IP:5601）

基於Custom-metrics-apiserver實現Kubernetes的HPA（內含踩坑）

前言這裡要說一下Prometheus的檢控指標從哪裡來，它有3個渠道：主機監控，也就是部署了Node Exporter元件的主機，它以DaemonSet或者系統程序的形式執行，Prometheus會從這裡獲取關於宿主機相關的資源指標從Kubernetes自身元件，比如API Server或者Kubel

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

Python爬取QQ空間好友說說並生成詞雲(超詳細)

near 當前面數據請求 range 頁面 blank sleep 點擊前言先看效果圖: 思路 1.確認訪問的URL 2.模擬登錄你的QQ號 3.判斷好友空間是否加了權限，切換到說說的frame，爬取當前頁面數據，下拉滾動條，翻頁繼續獲取爬取的內容寫

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

用Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何的微博資料都可以製作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默默吃狗糧還是主動出擊告別單身汪加入散狗糧的行列就看你啦，七夕送什麼才有心意，程式猿可以試試用

python爬取資料熱點詞生成詞雲

這是當時在中國mooc學用python玩轉資料時，寫的一個小demo. 程式實現步驟 1.從某一網站爬取資料，比如我是在豆瓣爬取的書評利用Requests庫的get()爬取網頁使用BeatifulSoup庫對爬取網頁進行解析。寫入

Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何人的微博資料都可以製作出來，即使是Python小白也能分分鐘做出來。準備工作本環境基於Python3，理論上Python2.7也是可行的，先安裝必要的第三方依賴包： #

Python3網路爬蟲：requests+mongodb+wordcloud 爬取豆瓣影評並生成詞雲

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二豆瓣網影評爬取網頁分析程式碼編寫三資料庫實裝四

根據地理位置和關鍵詞爬取twitter資料並生成詞雲

根據地理位置和關鍵詞爬取twitter資料存入MongoDB並生成詞雲轉載註明出處 tweepy獲取資料生成詞雲 tweepy獲取資料 1. 建立model model.py class twitter_post(Document):

關於爬取json內容生成詞雲（瘋狂踩坑）

相關推薦