爬取豆瓣電影top250提取電影分類進行資料分析

阿新 • • 發佈：2019-01-16

下的一部分 ”’ content = selector.xpath(‘//div[@class=”info”]/div[@class=”bd”]/p/text()’) print(content) for i in content[1::2]: print(str(i).strip().replace(‘nr’, ”)) # print(str(i).split(‘/’)) i = str(i).split(‘/’) i = i[len(i) – 1] key = i.strip().replace(‘n’, ”).split(‘ ‘) # 這裡的strip和replace的使用目的是去除空格和空行之類 print(key)通過獲取下來的內容我們發現一部電影的各項內容都是用’/’分隔著，我們只需要提取電影分類中的東西，所以我們需要使用

i = str(i).split('/')

1	i=str(i).split('/')

來把內容分隔成幾項內容，因為電影分類排在最後，所以我們通過

i = i[len(i) - 1]

1	i=i[len(i)-1]

來獲取分隔後的最後一項也就是我們需要的電影分類，還有最後一步我們需要完成的，因為一部電影裡面一般都有多個電影分類的標籤，所以我們還要繼續分隔獲取到的電影分類，並且觀察可以知道電影分類之間只是用一個空格隔開，所以我們使用下面一行程式碼就可以分離出各個分類：

key = i.strip().replace('\n', '').split(' ')

1	key=i.strip().replace('\n','').split(' ')

二、接下來就是儲存到mysql資料庫

把電影分類儲存在mysql資料庫以便下面進行資料分析，這裡我們使用到pymysql來連線mysql資料庫,首先我們需要在mysql資料庫建好表：

然後我們通過pymysql把資料儲存到資料庫中，程式碼如下：
首先要連線資料庫：

# 連線mysql資料庫
conn = pymysql.connect(host = 'localhost', user = 'root', passwd = '2014081029', db = 'mysql', charset = 'utf8')  # user為資料庫的名字，passwd為資料庫的密碼，一般把要把字符集定義為utf8，不然存入資料庫容易遇到編碼問題
cur = conn.cursor()  # 獲取操作遊標
cur.execute('use douban')  # 使用douban這個資料庫

1234	# 連線mysql資料庫conn=pymysql.connect(host='localhost',user='root',passwd='2014081029',db='mysql',charset='utf8') # user為資料庫的名字，passwd為資料庫的密碼，一般把要把字符集定義為utf8，不然存入資料庫容易遇到編碼問題cur=conn.cursor() # 獲取操作遊標cur.execute('use douban') # 使用douban這個資料庫

在儲存到資料庫之前，我們還有一個需要做得，那就是把250部電影的分類彙總數量，所以我們定義了一個字典來統計電影分類的個數，這裡的程式碼是get_page函式的一部分,程式碼如下：

Python

    for i in content[1::2]:
        print(str(i).strip().replace('\n\r', ''))
        # print(str(i).split('/'))
        i = str(i).split('/')
        i = i[len(i) - 1]
        key = i.strip().replace('\n', '').split(' ')
        print(key)
        for i in key:
            if i not in douban.keys():
                douban[i] = 1
            else:
                douban[i] += 1

123456789101112

foriincontent[1::2]:print(str(i).strip().replace('\n\r',''))# print(str(i).split('/'))i=str(i).split('/')i=i[len(i)-1]key=i.strip().replace('\n','').split(' ')print(key)foriinkey:ifinotindouban.keys():douban[i]=1else:douban[i]+=1

然後定義一個儲存函式，執行插入操作，如果出現插入失敗，就執行回滾操作，還有記得在操作完成之後，使用conn.close()和cur.close()來關閉資料庫連線,程式碼如下：

Python

    def save_mysql(douban):
        print(douban)  # douban在主函式中定義的字典
        for key in douban:
            print(key)
            print(douban[key])
            if key != '':
                try:
                    sql = 'insert douban(類別, 數量) value(' + "\'" + key + "\'," + "\'" + str(douban[key]) + "\'" + ');'
                    cur.execute(sql)
                    conn.commit()
                except:
                    print('插入失敗')
                    conn.rollback()

12345678910111213

defsave_mysql(douban):print(douban)# douban在主函式中定義的字典forkey indouban:print(key)print(douban[key])ifkey!='':try:sql='insert douban(類別, 數量) value('+"\'"+key+"\',"+"\'"+str(douban[key])+"\'"+');'cur.execute(sql)conn.commit()except:print('插入失敗')conn.rollback()

三、使用matplotlib進行資料視覺化操作

首先，從資料庫中把電影分類和每個分類的數量分別存入一個列表中，然後使用matplotlib進行視覺化操作，具體如下：


    def pylot_show():
        sql = 'select * from douban;'  
        cur.execute(sql)
        rows = cur.fetchall()   # 把表中所有欄位讀取出來
        count = []   # 每個分類的數量
        category = []  # 分類
    
        for row in rows:
            count.append(int(row[2]))   
            category.append(row[1])
    
        y_pos = np.arange(len(category))    # 定義y軸座標數
        plt.barh(y_pos, count, align='center', alpha=0.4)  # alpha圖表的填充不透明度(0~1)之間
        plt.yticks(y_pos, category)  # 在y軸上做分類名的標記
    
        for count, y_pos in zip(count, y_pos):
            # 分類個數在圖中顯示的位置，就是那些數字在柱狀圖尾部顯示的數字
            plt.text(count, y_pos, count,  horizontalalignment='center', verticalalignment='center', weight='bold')  
        plt.ylim(+28.0, -1.0) # 視覺化範圍，相當於規定y軸範圍
        plt.title(u'豆瓣電影250')   # 圖表的標題
        plt.ylabel(u'電影分類')     # 圖表y軸的標記
        plt.subplots_adjust(bottom = 0.15) 
        plt.xlabel(u'分類出現次數')  # 圖表x軸的標記
        plt.savefig('douban.png')   # 儲存圖片

1234567891011121314151617181920212223242526

def pylot_show():sql='select * from douban;'cur.execute(sql)rows=cur.fetchall()# 把表中所有欄位讀取出來count=[]# 每個分類的數量category=[]# 分類forrow inrows:count.append(int(row[2]))category.append(row[1])y_pos=np.arange(len(category))# 定義y軸座標數plt.barh(y_pos,count,align='center',alpha=0.4)# alpha圖表的填充不透明度(0~1)之間plt.yticks(y_pos,category)# 在y軸上做分類名的標記forcount,y_pos inzip(count,y_pos):# 分類個數在圖中顯示的位置，就是那些數字在柱狀圖尾部顯示的數字plt.text(count,y_pos,count,horizontalalignment='center',verticalalignment='center',weight='bold')plt.ylim(+28.0,-1.0)# 視覺化範圍，相當於規定y軸範圍plt.title(u'豆瓣電影250')# 圖表的標題plt.ylabel(u'電影分類')# 圖表y軸的標記plt.subplots_adjust(bottom=0.15)plt.xlabel(u'分類出現次數')# 圖表x軸的標記plt.savefig('douban.png')# 儲存圖片

下面說明一下matplotlib的一些簡單使用，首先我們要匯入matplotlib和numpy的包

import numpy as np
import matplotlib.pyplot as plt

12	import numpy asnpimport matplotlib.pyplot asplt

這次視覺化是柱狀圖，這裡給出brah()函式的定義：

barh()
主要功能：做一個橫向條形圖，橫向條的矩形大小為: left, left + width, bottom, bottom + height
引數：barh ( bottom , width , height =0.8, left =0, **kwargs )
返回型別：一個 class 類別， matplotlib.patches.Rectangle**例項
引數說明：

bottom: Bars 的垂直位置的底部邊緣
width: Bars 的長度
可選引數：
height: bars 的高度
left: bars 左邊緣 x 軸座標值
color: bars 顏色
edgecolor: bars 邊緣顏色
linewidth: bar 邊緣寬度;None 表示預設寬度;0 表示不 i 繪製邊緣
xerr: 若不為 None,將在 bar 圖上生成 errobars
yerr: 若不為 None,將在 bar 圖上生成 errobars
ecolor: 指定 errorbar 顏色
capsize: 指定 errorbar 的頂部(cap)長度
align: ‘edge’ (預設) | ‘center’:‘edge’以底部為準對齊;‘center’以 y 軸作為中心
log: [False|True] False (預設),若為 True,使用 log 座標

然後就可以顯示出圖片來了

爬取豆瓣電影top250提取電影分類進行資料分析

二、接下來就是儲存到mysql資料庫

三、使用matplotlib進行資料視覺化操作

Python爬取微信公眾號歷史文章進行資料分析

爬取豆瓣電影top250提取電影分類進行資料分析

爬蟲-爬取豆瓣圖書TOP250

用Requests和正則表示式爬取豆瓣圖書TOP250

python3爬取豆瓣圖書Top250圖片

requests+正則表示式爬取豆瓣讀書top250

Python3 爬取豆瓣圖書Top250並存入Excel中

教你用Python爬取豆瓣圖書Top250

利用Requests庫和正則表示式爬取豆瓣影評Top250

爬取豆瓣圖書top250

Python爬蟲實戰(3)-爬取豆瓣音樂Top250資料(超詳細)

利用python爬取豆瓣音樂TOP250

爬取豆瓣音樂Top250並存入xls

python 爬蟲實戰（一）爬取豆瓣圖書top250

python 爬取豆瓣網搜尋結果同城活動資料

scrapy爬取豆瓣電影top250

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

團隊-爬取豆瓣電影TOP250-需求分析

《團隊-爬取豆瓣電影TOP250-需求分析》

團隊-爬取豆瓣電影TOP250-開發環境搭建過程

爬取豆瓣電影top250提取電影分類進行資料分析

二、接下來就是儲存到mysql資料庫

三、使用matplotlib進行資料視覺化操作

相關推薦