Python 爬取愛奇藝 52432 條資料分析

阿新 • • 發佈：2018-12-22

爬取資料

奇葩說是愛奇藝獨播視訊，所以這一次，筆者選取官方評論資料作為資源庫，來進行資料分析。

使用 Chrome 檢視原始碼模式，在“奇葩說”播放頁面往下面滑動，有一個get_comments 的請求，經過分析，這個介面就是獲取評論資料的介面。

看一下介面地址和請求引數：

介面地址:
http://sns-comment.iqiyi.com/v3/comment/get_comments.action

引數：
"types":"time"
"business_type":"17"
"agent_type":"119"
"agent_version":"9.9.0"
"authcookie":"cookie"
"last_id": ""
"content_id": ""

其中 last_id 是用來進行分頁的。

使用 Python 獲取資料

上面的請求使用的 GET 方式，請求程式碼如下：

def saveMoveInfoToFile(movieId, movieName, lastId):
    url = "http://sns-comment.iqiyi.com/v3/comment/get_comments.action?"
    params = {
        "types":"time",
        "business_type":"17",
        "agent_type":"119",
        "agent_version":"9.9.0",
        "authcookie":"authcookie"
    }
    if lastId != "":
        params["last_id"] =  lastId
    for item in params:
        url = url + item + "=" + params[item] + "&"
    url = url + "content_id=" + movieId
    responseTxt = getMoveinfo(url)

def getMoveinfo(url):
    session = requests.Session()
    headers = {
        "User-Agent": "Mozilla/5.0",
        "Accept": "application/json",
        "Referer": "http://m.iqiyi.com/v_19rqriflzg.html",
        "Origin": "http://m.iqiyi.com",
        "Host": "sns-comment.iqiyi.com",
        "Connection": "keep-alive",
        "Accept-Language": "en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7,zh-TW;q=0.6",
        "Accept-Encoding": "gzip, deflate"
    }
    response = session.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    return None

請求返回的資料是 JSON ，這裡筆者就不貼返回資料，直接解析儲存。本處，筆者使用 SQLite3 進行資料儲存。

解析資料

def parseData(movieId, movieName, htmlContent):
    data = json.loads(htmlContent)['data']['comments']
    lastId = "-1"
    if json.dumps(data) == "[]":
        return lastId
    lastId = "-1"
    for item in data:
        originalData = json.dumps(item)
        saveOriginalDataToDatabase(item["id"], movieId, movieName, originalData)
        lastId = item['id']
    return lastId

為了更方便後續進行資料分析，所以將拉下來的評論資料全部進行儲存，防止多次去爬取資料。

資料儲存在資料庫中非常簡單，一個簡單的 insert 語句就可以搞定。程式碼如下：

def saveOriginalDataToDatabase(msgId, movieId, movieName, originalData):
    conn = sqlite3.connect('i_can_i_bb.db')
    conn.text_factory = str
    cursor = conn.cursor()
    ins="insert into originalData values (?,?,?,?)"
    v = (movieId+ "_" + msgId, movieId, originalData, movieName)
    cursor.execute(ins, v)
    cursor.close()
    conn.commit()
    conn.close()

本次總共從愛奇藝抓取了 52432 條評論資料。

資料清洗與整理

從愛奇藝抓取的資料，並不是所有的資料我們都需要，這裡，只需將我們想要的資料提取出來。

提取資料

此處將使用者的個人資訊、評論、評論時間、性別等資料提取出來，儲存到另一張表中。後續資料分析就從新的表中拿取就可以了，處理邏輯如下：

def saveRealItem(id, originalData):
    user = json.loads(originalData)
    conn = sqlite3.connect('deal_data.db')
    conn.text_factory = str
    cursor = conn.cursor()
    ins="insert into realData values (?,?,?,?,?,?,?,?)"
    content = ""
    if user.has_key("content"):
        content = user["content"]
    v = (id, content, user["userInfo"]["gender"], user["addTime"], user["userInfo"]["uname"], user["userInfo"]["uid"], user["id"], user["userInfo"]["uidType"])
    cursor.execute(ins, v)
    cursor.close()
    conn.commit()
    conn.close()

## 轉換資料
if __name__ == '__main__':
    conn = sqlite3.connect('i_can_i_bb.db')
    conn.text_factory = str
    cursor = conn.cursor()
    cursor.execute("select * from originalData")
    values = cursor.fetchall()
    for item in values:
        saveRealItem(item[0], item[2])
    cursor.close()
    conn.commit()
    conn.close()

分析資料

在海量的資料中，我們可以分析出我們想看到的結果。為了更好的資料處理和視覺化展示，筆者使用了 Pandas 和 Pyecharts 這兩個庫，很好用。

因愛奇藝使用者資料維度有限，所以只能簡單地分析性別。來綜合看一下，奇葩說使用者的男女比例。話不多說，先放程式碼：

conn = sqlite3.connect('deal_data.db')
conn.text_factory = str
data = pd.read_sql("select * from realData", conn)
genderData = data.groupby(['gender'])
rateDataCount = genderData["id"].agg([ "count"])
rateDataCount.reset_index(inplace=True)
print rateDataCount
attr = ["女", "男"]
v1 = [rateDataCount["count"][i] for i in range(0, rateDataCount.shape[0])]
pie = Pie("性別比例")
pie.add("", attr, v1, is_label_show=True)
pie.render("html/gender.html")
conn.commit()
conn.close()

使用 Pyecharts 畫了一個簡單的餅圖：

男女比例圖

從圖中可以看出來，男女比例差不多到 1：2，看奇葩說的女性使用者，比男性使用者要多很多。也許，這也是這一季奇葩說情感話題比較多的一大原因。

接下來，我們再來看一下，每一期的評論數量，看是否能夠得出一些不一樣的資料。

還是先上程式碼：

conn = sqlite3.connect('deal_data.db')
conn.text_factory = str
data = pd.read_sql("select * from realData", conn)
movieIdData = data.groupby(['movieId'])
commentDataCount = movieIdData["movieId"].agg([ "count"])
commentDataCount.reset_index(inplace=True)
print commentDataCount
movies = {
    "1629260900":u"第 22 期",
    "1629256800":u"第 21 期",
    ## 後面的資料，這裡不列出來
}
attr = [movies[commentDataCount["movieId"][i]] for i in range(0, commentDataCount.shape[0])]
v1 = [commentDataCount["count"][i] for i in range(0, commentDataCount.shape[0])]
bar = Bar("評論數量")
bar.add("數量",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
        xaxis_interval=0,is_splitline_show=True,is_label_show=True)
bar.render("html/comment_count.html")
conn.commit()
conn.close()

跑出來的資料如下：

每期評論數量

從圖中的資料我們可以看到，評論數量並不會因為更新早而變得更多。所以可以看出，奇葩說的使用者群體是相對穩定的。不僅如此，我們也可以看出，在第 17 期評論數量比其他都要多，很有可能是這一期節目的話題更讓使用者關注。

分析了上面的兩個資料，下面再分析一下評論時間分佈，本次分析是按照星期來分析的，所以，還需要對資料進行一定的處理。將每一條評論所在星期更新到資料庫中，程式碼如下：

conn = sqlite3.connect('deal_data.db')
conn.text_factory = str
cursor = conn.cursor()
cursor.execute("select * from realData")
values = cursor.fetchall()
cursor.close()
for item in values:
    realTime = time.localtime(float(item[3]))
    realTime = time.strftime("%A",realTime)
    sql = "UPDATE `realData` SET `week`=\"" + realTime + "\" WHERE `id`=\"" + item[0] + "\""
    cc = conn.cursor()
    cc.execute(sql)
    cc.close()
    conn.commit()
    conn.close()
    time.localtime()

使用折線圖分析如下：

conn = sqlite3.connect('deal_data.db')
conn.text_factory = str
data = pd.read_sql("select * from realData", conn)
movieIdData = data.groupby(['week'])
commentDataCount = movieIdData["week"].agg([ "count"])
commentDataCount.reset_index(inplace=True)
print commentDataCount
weekInfo = {
    "Monday":u"週一",
    "Tuesday":u"週二",
    "Wednesday":u"週三",
    "Thursday":u"週四",
    "Friday":u"週五",
    "Saturday":u"週六",
    "Sunday":u"週日"
}
weeks = [
    "Monday",
    "Tuesday",
    "Wednesday",
    "Thursday",
    "Friday",
    "Saturday","Sunday"
]
attr = []
v1 = []
week_temp = [commentDataCount["week"][i] for i in range(0, commentDataCount.shape[0])]
for item in weeks:
    attr.append(weekInfo[item])
    index = week_temp.index(item)
    v1.append(commentDataCount["count"][index])
    bar = Line("天評論數量")
    bar.add("數量",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
            xaxis_interval=0,is_splitline_show=True,is_label_show=True)
    bar.render("html/comment_week_count.html")

評論週期

可以看出，奇葩說的忠實使用者基本是在更新當天就看，並且週五、週六、週日的評論數量遠大於其他天。其實我們還可以分析，更新當天的 4 個小時內評論量有多大，感興趣的讀者可以嘗試去跑一下資料。

而作為一名程式設計師，筆者平時基本是不寫評論的，在這裡，我們特地分析了一下評論字數的分佈，不看不知道，一看嚇一跳。先上程式碼：

# 先獲取評論長度，並更新到資料庫中
conn = sqlite3.connect('deal_data.db')
conn.text_factory = str
cursor = conn.cursor()
cursor.execute("select * from realData")
values = cursor.fetchall()
cursor.close()
for item in values:
    content = item[1]
    length = 0
    if len(content) <= 20:
        length = 0
    elif len(content) > 20 and len(content) <= 50:
        length = 1
    elif len(content) > 50 and len(content) <= 100:
        length = 2
    else:
        length = 3
    sql = "UPDATE `realData` SET `length`=\"" + str(length) + "\" WHERE `id`=\"" + item[0] + "\""
    cc = conn.cursor()
    cc.execute(sql)
    cc.close() 
    conn.commit()
    conn.close()
    time.localtime()

# 獲取數量並展示
conn = sqlite3.connect('deal_data.db')
conn.text_factory = str
data = pd.read_sql("select * from realData", conn)
lengthData = data.groupby(['length'])
lengthDataCount = lengthData["movieId"].agg([ "count"])
lengthDataCount.reset_index(inplace=True)
print lengthDataCount
attr = ["20 字以內", "20~50 字", "50~100 字", "100 字以上"]
v1 = [lengthDataCount["count"][i] for i in range(0, lengthDataCount.shape[0])]
bar = Line("評論字數")
bar.add("數量",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
        xaxis_interval=0,is_splitline_show=True,is_label_show=True)
bar.render("html/comment_word_count.html")
conn.commit()
conn.close()

分析結果如下：

評論字數分析

實在是沒有想到，100 字以上的評論居然有 1/4，在這個移動端已成視訊播放主要平臺的時代，使用者還能夠花費較多精力寫下評論，筆者還是比較震驚的。

最後，筆者將通過 jieba 把評論進行分詞，然後再以 wordcloud 製作詞雲來看看，觀眾朋友的整體評價：

conn = sqlite3.connect('deal_data.db')
    conn.text_factory = str
    data = pd.read_sql("select * from realData", conn)
    jieba.add_word("馬薇薇", freq = 20000, tag = None)
    comment = jieba.cut(str(data["content"]),cut_all=False)
    wl_space_split = " ".join(comment)
    backgroudImage = np.array(Image.open(r"./qipashuo.jpg"))
    stopword = STOPWORDS.copy()
    wc = WordCloud(width=1920,height=1080,background_color='white',
        mask=backgroudImage,
        font_path="/Users/zhaocheng/Documents/Deng.ttf",
        stopwords=stopword,max_font_size=400,
        random_state=50)
    wc.generate_from_text(wl_space_split)
    plt.imshow(wc)
    plt.axis("off")
    wc.to_file('html/word_cloud.png')
    conn.commit()
    conn.close()

詞雲圖：

詞雲

通過上面的詞雲可以很明顯地看出，李誕、（薛）教授、（詹）青雲、馬薇薇、（傅）首爾等人物名稱高頻地出現在了評論裡面，他們才是這部綜藝的焦點人物。

Python 爬取愛奇藝 52432 條資料分析

爬取資料奇葩說是愛奇藝獨播視訊，所以這一次，筆者選取官方評論資料作為資源庫，來進行資料分析。使用 Chrome 檢視原始碼模式，在“奇葩說”播放頁面往下面滑動，有一個get_comments 的請求，經過分析，這個介面就是獲取評論資料的介面。

Python 爬取愛奇藝視訊二十五萬條資料分析為什麼李誕不值得了？

在《 Python 爬取愛奇藝 52432 條資料分析誰才是《奇葩說》的焦點人物？ )》這篇文章中，我們從愛奇藝爬取了 5 萬多條評論資料，並對一些關鍵資料進行了分析，由此總結出了一些明面上看不到的資料，並將其直觀地展現了出來，資料分析的妙處即在於此。

Python爬取愛奇藝VIP視訊

但是這個網站只提供了線上解析視訊的功能，沒有提供下載介面，如果想把視訊下載下來，我們就可以利用網路爬蟲進行抓包，將視訊下載下來。二、實戰升級分析方法相同，我們使用Fiddler進行抓包：我們可以看到，有用的請求並不多，我們逐條分析。我們先看第一個請求返回的資訊。可以看到第一個

使用selenium 多線程爬取愛奇藝電影信息

連接獲取 ict 容易出錯 span column 分享圖片 odi attribute 使用selenium 多線程爬取愛奇藝電影信息轉載請註明出處。爬取目標：每個電影的評分、名稱、時長、主演、和類型爬取思路：源文件：（有註釋） from seleniu

用Python爬取了考研吧1000條帖子，原來他們都在討論這些！

寫在前面考研在即，想多瞭解考研er的想法，就是去找學長學姐或者去網上搜索，貼吧就是一個好地方。而藉助強大的工具可以快速從網路魚龍混雜的資訊中得到有價值的資訊。雖然網上有很多爬取百度貼吧的教程和例子，但是貼吧規則更新快，目的不一樣，爬取的內容也不一樣，所以就有了這個工具。目的爬取1000條帖子→判斷是

利用python爬取龍虎榜數據及後續分析

登錄 one 可能股市 .com 爬蟲但我由於相關 ##之前已經有很多人寫過相關內容，但我之前並未閱讀過，這個爬蟲也是按照自己的思路寫的，可能比較醜陋，請見諒！本人作為Python爬蟲新手和股市韭菜，由於時間原因每晚沒辦法一個個翻龍虎榜數據，所以希望借助爬蟲篩選出

python爬取拉勾網網際網路大資料職業情況

爬取拉勾網資訊資料處理製圖所需知識只有一點點（畢竟是個小白）： requests基礎部分 json pyecharts wordcloud 接下來開始敲程式碼了，程式碼分成了3個部分：爬取、製圖、生成詞雲爬取部分：首先要說明的是，拉勾網有反爬

用python爬取二手房交易資訊並進行分析

用python爬取二手房交易資訊並分析第一步：編寫爬蟲爬取某平臺上海市十個區共900條二手房的交易資訊 #爬取上海十個區的二手房價資訊 import requests from bs4 import BeautifulSoup import csv #

Python爬取網易雲課堂課程資料

本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，

利用python爬取實習僧網站上的資料

最近在找實習，就順便想到用python爬取一些職位資訊看看，有哪些崗位比較缺人。 #_*_coding:utf-8_*_ import requests from bs4 import BeautifulSoup import xlwt import r

Scrapy爬取二手房資訊+視覺化資料分析

本篇介紹一個scrapy的實戰爬蟲專案，並對爬取資訊進行簡單的資料分析。目標是北京二手房資訊，下面開始分析。網頁結構分析採用安居客網頁資訊作為二手房的資訊來源，直接點選進入二手房資訊的頁面。每頁的住房資訊：點開連結後的詳細資訊：博主並沒有採用分割槽域進行爬取，博主是直接進行全

Python爬取數萬條北京租房資料，從6個維度揭穿房租瘋漲的祕密！！！

導讀：昨天還幻想海邊別墅的年輕人，今天可能開始對房租絕望了。 8月初，有網友在“水木論壇”發帖控訴長租公寓加價搶房引起關注。據說，一名業主打算出租自己位於天通苑的三居室，預期租金7500元/月，結果被二方中介互相擡價，

利用Python破解愛奇藝等主流視訊網站的VIP視訊，任意下載！

一、前言沒有會員，想線上觀看或下載愛奇藝、PPTV、優酷、網易公開課、騰訊視訊、搜狐視訊、樂視、土豆、A站、B站等主流視訊網站的VIP視訊？又不想充會員怎麼辦？博主本次寫的VIP視訊破解助手也許可以幫你解決煩惱。 PS：本軟體只用來交流學習，請勿用於商業用途。如涉及

python實現愛奇藝登陸的密碼RSA加密

分析愛奇藝登陸post引數中的password email:12345678911 passwd:028d4c1305a6a9baaed3947bade99d4205337fdcabef59b6f7b073f11a220339

利用python爬取我愛我家租賃房源資訊

主要思路： 1.通過get方法向伺服器提交head檔案和cookie資訊（通過在chrome網頁上面登入之後獲取，避免了通過賬號密碼模擬登陸的繁瑣過程），實現模擬登陸的效果 2.訪問網頁，通過萬能的正則匹配到所需要的資訊具體演算法有3步驟： 1.從租賃房源的第一頁至第10

使用python爬蟲爬取愛課程視訊

CSDN上寫的第一篇部落格，初學程式設計，寫的疏漏頗多，還請見諒。最初是自己想找一些大學公開課的資源，隨後發現了有一個叫愛課程的網站www.icourses.cn，上面提供了近千門視訊公開課，正符合我的需求，便找了本爬蟲的書，開始學習爬取視訊。然而，爬取過程並不順利。首先，視

python——圖片爬蟲：爬取愛女神網站(www.znzhi.net)上的妹子圖進階篇

我講解了圖片爬蟲的基本步驟，並實現了爬蟲程式碼在本篇中，我將帶領大家對基礎篇中的程式碼進行改善，加入多執行緒，提高爬取效率。首先我們明確一個改進的思路，就是在函式downloadAlbum(url)中： # 迴圈下載專輯中各個圖片 for num in

愛奇藝面試Python，竟然掛在第5輪……

今天給大家分享我曾經在愛奇藝的面試，過程還是比較有意思的，可以給大家一些參考聊騷階段嗲妹妹：你好，我是愛奇藝的HR，我們正在招聘運維開發崗位，請問您最近有在看工作機會嗎？我：（這聲音也太酥了吧我去……）嗯，你好，訊號不太好，能在說下嗎？（讓我再酥一次吧）嗲妹妹：（重複）我：（我去，真的好酥啊）啊

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

python 爬取qidian某一頁全部小說

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

Python 爬取愛奇藝 52432 條資料分析

相關推薦