爬取網易雲音樂評論並使用詞雲展示

阿新 • • 發佈：2018-04-22

referer top readlines target ner ads 詞雲 pos 參考

最近聽到一首很喜歡的歌，許薇的《我以為》，評論也很有趣，遂有想爬取該歌曲下的所有評論並用詞雲工具展示。

我們使用chrome開發者工具，發現歌曲的評論都隱藏在以 R_SO_4 開頭的 XHR 文件中

技術分享圖片

接下來思路就很明確，拿到該文件，解析該文件的 json 數據，拿到全部評論。

我們可以看到該文件有兩個用JS加密的參數 params 和 encSecKey ，關於這兩個加密參數，參考了知乎用戶的解答：https://www.zhihu.com/question/36081767 。

技術分享圖片

步驟：

1.導入必要的模塊：

from Crypto.Cipher import AES
from 
 wordcloud import WordCloud
#需加入下面兩句話，不然會報錯：matplotlib: RuntimeError: Python is not installed as a framework
import matplotlib
matplotlib.use(‘TkAgg‘)
import matplotlib.pyplot as plt
import base64
import requests
import json
import codecs
import time
import jieba

註：本人使用MacOS，在該環境下會報錯，加入：

import matplotlib
matplotlib.use(‘TkAgg‘)

2.寫入請求頭：

headers = {
    ‘Host‘:‘music.163.com‘,
    ‘Origin‘:‘https://music.163.com‘,
    ‘Referer‘:‘https://music.163.com/song?id=28793052‘,
    ‘User-Agent‘:‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36‘
}

3.解析 params 和 encSecKey 這兩個參數：

# 第一個參數
# first_param = ‘{rid:"", offset:"0", total:"true", limit:"20", csrf_token:""}‘
# 第二個參數
second_param = "010001"
# 第三個參數
third_param = "00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
# 第四個參數
forth_param = "0CoJUm6Qyw8W8jud"

# 獲取參數
def get_params(page): # page為傳入頁數
    iv = "0102030405060708"
    first_key = forth_param
    second_key = 16 * ‘F‘
    if(page == 1): # 如果為第一頁
        first_param = ‘{rid:"", offset:"0", total:"true", limit:"20", csrf_token:""}‘
        h_encText = AES_encrypt(first_param, first_key, iv)
    else:
        offset = str((page-1)*20)
        first_param = ‘{rid:"", offset:"%s", total:"%s", limit:"20", csrf_token:""}‘ %(offset,‘false‘)
        h_encText = AES_encrypt(first_param, first_key, iv)
    h_encText = AES_encrypt(h_encText, second_key, iv)
    return h_encText

# 獲取 encSecKey
def get_encSecKey():
    encSecKey = "257348aecb5e556c066de214e531faadd1c55d814f9be95fd06d6bff9f4c7a41f831f6394d5a3fd2e3881736d94a02ca919d952872e7d0a50ebfa1769a7a62d512f5f1ca21aec60bc3819a9c3ffca5eca9a0dba6d6f7249b06f5965ecfff3695b54e1c28f3f624750ed39e7de08fc8493242e26dbc4484a01c76f739e135637c"
    return encSecKey


# 解密過程
def AES_encrypt(text, key, iv):
    pad = 16 - len(text) % 16
    text = text + pad * chr(pad)
    encryptor = AES.new(key, AES.MODE_CBC, iv)
    encrypt_text = encryptor.encrypt(text)
    encrypt_text = base64.b64encode(encrypt_text)
    encrypt_text = str(encrypt_text, encoding="utf-8") #註意一定要加上這一句，沒有這一句則出現錯誤
    return encrypt_text

4.獲取 json 數據並抓取評論：

# 獲得評論json數據
def get_json(url, params, encSecKey):
    data = {
         "params": params,
         "encSecKey": encSecKey
    }
    response = requests.post(url, headers=headers, data=data)
    return response.content

# 抓取某一首歌的前100頁評論
def get_all_comments(url,page):
    all_comments_list = [] # 存放所有評論
    for i in range(page):  # 逐頁抓取
        params = get_params(i+1)
        encSecKey = get_encSecKey()
        json_text = get_json(url,params,encSecKey)
        json_dict = json.loads(json_text)
        for item in json_dict[‘comments‘]:
            comment = item[‘content‘] # 評論內容
            comment_info = str(comment)
            all_comments_list.append(comment_info)
        print(‘第%d頁抓取完畢!‘ % (i+1))
        #time.sleep(random.choice(range(1,3)))  #爬取過快的話，設置休眠時間，跑慢點，減輕服務器負擔
    return all_comments_list

5.使用結巴分詞過濾停用詞並用 wordcloud 生成詞雲：

#生成詞雲
def wordcloud(all_comments):
    # 對句子進行分詞，加載停用詞
    # 打開和保存文件時記得加encoding=‘utf-8‘編碼，不然會報錯。
    def seg_sentence(sentence):
        sentence_seged = jieba.cut(sentence.strip(), cut_all=False)  # 精確模式
        stopwords = [line.strip() for line in open(‘stopwords.txt‘, ‘r‘, encoding=‘utf-8‘).readlines()]  # 這裏加載停用詞的路徑
        outstr = ‘‘
        for word in sentence_seged:
            if word not in stopwords:
                if word != ‘\t‘:
                    outstr += word
                    outstr += " "
        return outstr
    for line in all_comments:
        line_seg = seg_sentence(line)  # 這裏的返回值是字符串
        with open(‘outputs.txt‘, ‘a‘, encoding=‘utf-8‘) as f:
            f.write(line_seg + ‘\n‘)

    data = open(‘outputs.txt‘, ‘r‘, encoding=‘utf-8‘).read()
    my_wordcloud = WordCloud(
        background_color=‘white‘,  #設置背景顏色
        max_words=200,  #設置最大實現的字數
        font_path=r‘SimHei.ttf‘,  #設置字體格式，如不設置顯示不了中文
    ).generate(data)
    plt.figure()
    plt.imshow(my_wordcloud)
    plt.axis(‘off‘)
    plt.show()  # 展示詞雲

註意編碼格式為 ‘utf-8‘ 。

6.定義主函數並設置函數出口：

def main():
    start_time = time.time()  # 開始時間
    url = "https://music.163.com/weapi/v1/resource/comments/R_SO_4_28793052?csrf_token="  # 替換為你想下載的歌曲R_SO的鏈接
    all_comments = get_all_comments(url, page=2000)  # 需要爬取的頁面數
    wordcloud(all_comments)
    end_time = time.time()  # 結束時間
    print(‘程序耗時%f秒.‘ % (end_time - start_time))

if __name__ == ‘__main__‘:
    main()

運行過程如下（個人爬取了《我以為》的前2000頁的評論）：

技術分享圖片

生成詞雲：

技術分享圖片

完整代碼已上傳至 github：https://github.com/weixuqin/PythonProjects/tree/master/wangyiyun

爬取網易雲音樂評論並使用詞雲展示

referer top readlines target ner ads 詞雲 pos 參考最近聽到一首很喜歡的歌，許薇的《我以為》，評論也很有趣，遂有想爬取該歌曲下的所有評論並用詞雲工具展示。我們使用chrome開發者工具，發現歌曲的評論都隱藏在以 R_S

爬取網易雲音樂(包括歌詞和評論)

輸入 random 字節 sim main dal 需要 ssi wow # http://music.163.com/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&off

python爬取網易雲音樂歌曲評論信息

webkit fun 數據包 cond bubuko ret value selenium apple 　　網易雲音樂是廣大網友喜聞樂見的音樂平臺，區別於別的音樂平臺的最大特點，除了“它比我還懂我的音樂喜好”、“小清新的界面設計”就是它獨有的評論區了——————各種故事匯

Scrapy爬取網易雲音樂和評論（一、思路分析）

目錄：前提： scrapy這個框架很多人用過，網上教程也很多，但大多就是爬爬小說這種比較簡單且有規律的，網易雲音樂也有很多人寫過，也有API，不過大多是爬取了熱門歌曲，或是從歌單下手，但是考慮到歌單會有很多重複的。當然，從歌手頁的話，如果

Python爬取網易雲音樂熱門評論

import requests import json def get_hot_comments(res): comments_json = json.loads(res.text) hot_comments = comments_json['hotComm

爬取網易雲音樂評論過萬歌曲

看到網上其他同學的思路是爬取所有歌單，然後篩選出評論過萬的歌曲。但我覺得不同歌單之間會有交叉，這種方式可能效率不高，而且可能會有漏網之魚。所以我準備爬取所有歌手，再爬取他們的熱門50單曲，從中篩選評論過萬的歌曲。現階段幾乎沒有歌手有超過50首評論過萬的歌曲，所以

爬蟲入門——用python爬取網易雲音樂熱門歌手評論數

本文參考Monkey_D_Newdun 的文章用爬蟲獲取網易雲音樂熱門歌手評論數執行平臺：Windows 10IDE：spyderPython版本：3.6瀏覽器：360一、爬蟲基本思路a. 通過URL或者檔案獲取網頁：開啟網頁-F12-找到需要獲取的url，request h

python爬取網易雲音樂評論

前言上篇爬取喜馬拉雅FM音訊的最後也提到過，這回我們爬取的就是網易雲音樂的熱評+評論。本人用了挺久的網易雲，也是非常喜歡…閒話不多說，跟著我的思路來看看如何爬取網易雲的熱評+評論~ 目標本次我們爬取的目標是–網易雲音樂歌曲的熱評以及普通評論我們

爬取網易雲音樂個人動態中的視訊(Ⅱ): 分析並獲取api

回顧和概覽在爬取網易雲音樂個人動態中的視訊(Ⅰ) 中簡單的分析了一下需要做什麼, 現在要做的就是獲取網易雲的api, 很遺憾, 網易雲並沒有開放api出來, 但是我們可以對網頁進行除錯, 嘗試從中獲得我們需要的資訊.參考為什麼已有兩篇分析我還要自己再寫一篇呢？原因有二:兩篇

爬取網易雲音樂評論

Intro 一直想自己動手用框架搭起來一個搜尋引擎，但是也一直不知道從哪裡開始下手比較好。最近一直在網易雲音樂上聽歌，決定從網易雲上把評論全部爬下來，用評論做一個垂直搜尋 Path 說幹就開始吧首先第一步得先把網易雲上的評論爬下來吧，沒有評論

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

如何用Python網絡爬蟲爬取網易雲音樂歌曲

今天 http 分享圖片分享圖片分分鐘參考 down 技術今天小編帶大家一起來利用Python爬取網易雲音樂，分分鐘將網站上的音樂down到本地。跟著小編運行過代碼的筒子們將網易雲歌詞抓取下來已經不再話下了，在抓取歌詞的時候在函數中傳入了歌手ID和歌曲名兩個參數

如何用Python網絡爬蟲爬取網易雲音樂歌詞

網易雲歌詞 Python網絡爬蟲網絡爬蟲前幾天小編給大家分享了數據可視化分析，在文尾提及了網易雲音樂歌詞爬取，今天小編給大家分享網易雲音樂歌詞爬取方法。本文的總體思路如下：找到正確的URL，獲取源碼；利用bs4解析源碼，獲取歌曲名和歌曲ID；調用網易雲歌曲API，獲取歌詞；將歌詞寫入

無論你是小白還是萌新！這篇都能教會你爬取網易雲付費音樂！

目標偶然的一次機會聽到了房東的貓的《雲煙成雨》，瞬間迷上了這慵懶的嗓音和學生氣的歌詞，然後一直去迴圈聽她們的歌。然後還特意去刷了動漫《我是江小白》，好期待第二季… 我多想在見你，哪怕匆匆一眼就別離… 好了，不說廢話了。這次的目標主要是根據網易雲中歌手的ID，下載該歌手的熱門音樂的歌詞和

python3.基礎爬取網易雲音樂【超詳細版】

簡單學習了python爬蟲之後，我們就可以嘿咻嘿咻了...因為平時就是用網易雲聽的歌，也喜歡看歌裡的評論，所以就爬網易雲音樂評論吧！正式進入主題首先還是去找目標網頁並開始分析網頁結構，如下上面的三個箭頭都是所要找的資料，分別是評論使用者，評論和點贊數，都可以用正則表示式找出來，接下來繼續找怎樣

python爬取網易雲歌曲資訊及下載連結並簡單展示

我們選取的爬取目標是歌單這一塊兒 chrome瀏覽器 f12抓包經過簡單的解析，拿到歌曲分類名字 create_table_sql = 'create table ’ + i + ‘(id int auto_increment primary key,song_name varch

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

最近，需要使用Java進行爬蟲編寫，就去學了Java的爬蟲。因為之前學習了Scrapy框架，所以學Java的爬蟲使用了WebMagic框架，這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件：這個框架是國人開發的，所以說明文件都是中文，簡單易懂。

爬取網易雲音樂所有歌單資訊

可以結合下一篇文章實現歌曲下載 python 爬蟲下載網易歌單歌曲使用 python + requests + lxml + selenium 使用 requests 發起請求，獲取到所有分類的 url 使用 selenium 傳送請求取到

python爬取網易雲音樂資料

1.首先匯入2個第三方庫，json庫是標準庫，用到的有Requests庫，Beautisoup庫，json庫 2.分析網站，當然是f12 開發者工具了，firefox瀏覽器的開發者工具個人用著比chrome的好用一點。用開發者工具之前要先明白你要找什麼資料，我想抓取的是霹靂布袋戲的

爬取網易雲音樂評論並使用詞雲展示

相關推薦