1. 程式人生 > >復仇3出來一段時間了!但是結局你看懂了嗎?Python來分析原因!

復仇3出來一段時間了!但是結局你看懂了嗎?Python來分析原因!




《復仇者聯盟3:無限戰爭》於 2018 年 5 月 11 日在中國大陸上映。截止 5 月 16 日,它累計票房達到 15.25 億。這票房紀錄已經超過了漫威系列單部電影的票房紀錄。不得不說,漫威電影已經成為一種文化潮流。

先貼海報欣賞下:




點選檢視大圖

然後確定每頁評論的 url 結構。

第二頁 url 地址:

點選檢視大圖第三頁 url 地址:




import jieba

import requests

import pandas as pd

import time

import random

from lxml import etree

def start_spider():

base_url = 'https://movie.douban.com/subject/24773958/comments'

start_url = base_url + '?start=0'

number = 1

html = request_get(start_url)

while html.status_code == 200:

# 獲取下一頁的 url

selector = etree.HTML(html.text)

nextpage = selector.xpath("//div[@id='paginator']/a[@class='next']/@href")

nextpage = nextpage[0]

next_url = base_url + nextpage

# 獲取評論

comments = selector.xpath("//div[@class='comment']")

marvelthree = []

for each in comments:

marvelthree.append(get_comments(each))

data = pd.DataFrame(marvelthree)

# 寫入csv檔案,'a+'是追加模式

try:

if number == 1:

csv_headers = ['使用者', '是否看過', '五星評分', '評論時間', '有用數', '評論內容']

data.to_csv('./Marvel3_yingpping.csv', header=csv_headers, index=False, mode='a+', encoding='utf-8')

else:

data.to_csv('./Marvel3_yingpping.csv', header=False, index=False, mode='a+', encoding='utf-8')

except UnicodeEncodeError:

print("編碼錯誤, 該資料無法寫到檔案中, 直接忽略該資料")

data = []

html = request_get(next_url)


我在請求頭中增加隨機變化的 User-agent, 增加 cookie。最後增加請求的隨機等待時間,防止請求過猛被封 IP。

def request_get(url):

'''

使用 Session 能夠跨請求保持某些引數。

它也會在同一個 Session 例項發出的所有請求之間保持 cookie

'''

timeout = 3

UserAgent_List = [

"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2224.3 Safari/537.36",

"Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36",

"Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2309.372 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2117.157 Safari/537.36",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1866.237 Safari/537.36",

]

header = {

'User-agent': random.choice(UserAgent_List),

'Host': 'movie.douban.com',

'Referer': 'https://movie.douban.com/subject/24773958/?from=showing',

}

session = requests.Session()

cookie = {

'cookie': "你的 cookie 值",

}

time.sleep(random.randint(5, 15))

response = requests.get(url, headers=header, cookies=cookie_nologin, timeout = 3)

if response.status_code != 200:

print(response.status_code)

return response

最後一步就是資料獲取:

def get_comments(eachComment):

commentlist = []

user = eachComment.xpath("./h3/span[@class='comment-info']/a/text()")[0] # 使用者

watched = eachComment.xpath("./h3/span[@class='comment-info']/span[1]/text()")[0] # 是否看過

rating = eachComment.xpath("./h3/span[@class='comment-info']/span[2]/@title") # 五星評分

if len(rating) > 0:

rating = rating[0]

comment_time = eachComment.xpath("./h3/span[@class='comment-info']/span[3]/@title") # 評論時間

if len(comment_time) > 0:

comment_time = comment_time[0]

else:

# 有些評論是沒有五星評分, 需賦空值

comment_time = rating

rating = ''

votes = eachComment.xpath("./h3/span[@class='comment-vote']/span/text()")[0] # "有用"數

content = eachComment.xpath("./p/text()")[0] # 評論內容

commentlist.append(user)

commentlist.append(watched)

commentlist.append(rating)

commentlist.append(comment_time)

commentlist.append(votes)

commentlist.append(content.strip())

# print(list)

return commentlist

3 製作雲圖

因為爬取出來評論資料都是一大串字串,所以需要對每個句子進行分詞,然後統計每個詞語出現的評論。我採用 jieba 庫來進行分詞,製作雲圖,我則是將分詞後的資料丟給網站 worditout處理。

def split_word():

with codecs.open('Marvel3_yingpping.csv', 'r', 'utf-8') as csvfile:

reader = csv.reader(csvfile)

content_list = []

for row in reader:

try:

content_list.append(row[5])

except IndexError:

pass

content = ''.join(content_list)

seg_list = jieba.cut(content, cut_all=False)

result = ' '.join(seg_list)

print(result)

最後製作出來的雲圖效果是:


點選檢視大圖

"滅霸"詞語出現頻率最高,其實這一點不意外。因為復聯 3 整部電影的故事情節大概是,滅霸在宇宙各個星球上收集 6 顆無限寶石,然後每個超級英雄為了防止滅霸毀滅整個宇宙,組隊來阻止滅霸。


Python可以做什麼?

web開發和 爬蟲是比較適合 零基礎的

自動化運維 運維開發 和 自動化測試 是適合 已經在做運維和測試的人員

大資料 資料分析 這方面 是很需要專業的 專業性相對而言比較強

科學計算 一般都是科研人員 在用

機器學習 和 人工智慧 首先 學歷 要求高 其次 高數要求高 難度很大

大家可以關注一下我的部落格或者公眾號:https://home.cnblogs.com/u/Python1234/ Python學習交流

也歡迎大家加入我的千人交流答疑群:125240963