python爬蟲-爬取愛情公寓電影(2018)豆瓣短評並資料分析
阿新 • • 發佈:2019-01-07
說起這部電影,我本人並沒有看,其實原先是想為了情懷看一下,但是好友用親身經歷告訴我看來會後悔的,又去看了看豆瓣評分,史無前例的,,,低。
出於興趣就爬取一下這部電影在豆瓣上的短評,並且用詞雲分析一下。
1.分析url
經過分析不難發現每一頁短評的url都是一致的除了page的引數值,這個值從0開始是20的整數倍。由此,可以通過字串拼接構造request的url序列。
2.分析html結構
通過分析原始碼,不難發現id存放在一個a標籤下,評論內容存放在class為short的一個span標籤下。
對id存在的a標籤的查詢廢了一些時間,干擾項太多,幾次換湯方才減少干擾項,即使如此最後還是正則表示式匹配該標籤得到值。
對評論內容的標籤查詢相對簡單。
3.本地儲存資料
得到兩個列表後,按照“id content”格式儲存於本地txt中,以便分析。
4.資料分析
由於得到的資料主要是評論內容,那麼這裡主要進行jieba+wordcloud的分詞詞雲分析。
建立詞雲的時候jieba分詞後為了方便,需要剔除一些關鍵字如“電影”。
當然,也遇到不少問題,例如file.read()的結束。
5.專案程式碼及結果圖
import requests import re from bs4 import BeautifulSoup import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud, STOPWORDS def parse_html(html): ''' :param html: 傳入的response的字串 :return: 返回id的列表和評論內容的列表 ''' soup = BeautifulSoup(html, "html.parser") html = soup.body soup = BeautifulSoup(str(html), "html.parser") html = soup.find("div", attrs={"id": "wrapper"}) a_list = [item.text for item in html.find_all("a", class_=re.compile(r'^'), href=re.compile(r'^https://www.douban.com/people'))] span_list = [item.text for item in html.find_all("span", class_="short")] return a_list, span_list def local_store(): ''' 經過觀察得知每一頁的url結構,組成url地址不斷訪問,將id和評論存入本地txt檔案 :return:None ''' for i in range(0, 2000, 20): # 訪問的url地址 url = "https://movie.douban.com/subject/24852545/comments?start=" + str(i) + "&limit=20&sort=new_score&status=P" # 訪問的頭 headers = {'Upgrade-Insecure-Requests': '1', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Referer': 'http://www.xicidaili.com/nn/', 'Accept-Encoding': 'gzip, deflate, sdch', 'Accept-Language': 'zh-CN,zh;q=0.8', } rsp = requests.get(url=url, headers=headers) if rsp.status_code == 200: html = rsp.text else: html = None if html is not None: id_list, content_list = parse_html(html) with open("text.txt", 'a', encoding="utf-8") as f: # 一個id必然對應一個評論,所以一個迴圈控制即可 for i in range(len(id_list)): text = id_list[i] + " " + content_list[i]+"\n" f.write(text) def data_analysis(): ''' 進行得到txt檔案內的資料分析 由於資料限制,這裡只進行詞雲分析 :return: None ''' with open("text.txt", 'r', encoding="utf-8") as f: text = f.read() comment = jieba.cut(text, cut_all=False) # 獲得檔案內容 comment = " ".join(comment) print(comment) # 解析背景圖 bg_img = plt.imread("bg.jpg") # 攔截詞 stopwords = set() stopwords.add("愛情公寓") stopwords.add("愛情") stopwords.add("公寓") stopwords.add("電影") # 建立wc物件 wc = WordCloud(width=1800, height=1000, background_color='white', font_path="C:/Windows/Fonts/STFANGSO.ttf", mask=bg_img, stopwords=stopwords, max_font_size=400, random_state=50) wc.generate_from_text(comment) plt.imshow(wc) plt.axis('off') plt.show() wc.to_file("result.jpg") if __name__ == '__main__': local_store() data_analysis()