1. 程式人生 > >案例學python——案例三:豆瓣電影資訊入庫 一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

案例學python——案例三:豆瓣電影資訊入庫 一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

 

閒扯皮
     昨晚給高中的妹妹微信講題,函式題,小姑娘都十二點了還迷迷糊糊。今天凌晨三點多,被連續的警報聲給驚醒了,以為上海拉了防空警報,難不成地震,空襲?難道是樓下那個車主車子被堵了,長按喇叭?開窗看看,好像都不是。好鬼畜的警報聲,家裡也沒裝報警器啊,莫不成家裡煤氣漏了?起床循聲而查,報警聲的確在廚房,聽起來也像屋外,開門也沒發現啥異樣,莫不成真的是煤氣表?下面開始排查,開水,斷水,發現沒啥異樣。開啟煤氣灶,關閉煤氣,也沒啥。全屋斷電也沒啥,全屋都斷電了只能說報警聲的確來自煤氣表。翻出燃氣公司的客服電話,那頭真的是個妹子,電話裡報了下情況和地址,燃氣公司說四個小時內給回訪。半個小時後警報聲自動消失了,一個小時後門鈴聲響,維修工拿著測氣表一通測試,反饋結果說煤氣表是新的,也沒有明處漏氣,讓我簽了字,就撤了。開啟窗,埋頭繼續睡了。覆盤發現自己犯了個大錯,當時不應該開啟煤氣灶和熱水器測試的燃氣的,萬一煤氣真的洩露,後果,今天估計醫院涼涼了,不對應該是焦焦了。家庭安全不可大意,還是太年輕了。早上6點多樓上裝修的工人拆牆砸牆的聲音,不勝其擾,早點去公司敲程式碼吧。先是覆盤了一下昨天爬豆瓣的一些小問題,順帶簡單解決了。不閒扯了,程式碼覆盤Python爬豆瓣Top250 的資訊入庫。

 

 

案例一嘗試了爬圖之後的快感,案例二嘗試了白傻呆的資料庫操作,案例三就兩者整合一下。起因是昨天剛在部落格園看到 一篇爬豆瓣的文章 想著剛好能把文章中爬到的資訊入資料庫,如果在用java操作資料庫

豈不美哉,原諒我習慣於javaWeb開發,因為目前只會java啊。昨天用的Python2.7著實不爽,裝了3.7版本。

 

效果預覽:

效果一:專案結構

效果二:資料庫資訊

 

 

效果三:本地儲存

 

 

 

思路:第一步:爬取資訊  第二步:資訊解析   第三步:讀寫檔案    第四步:解析資料入庫

 

準備工作

 根據解析欄位建立對應的資料庫,這點因為 部落格:一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用 中已經可以看到爬取後解析相關欄位,可能有些欄位顆粒度不夠,在原有基礎上再切割切割就ok啦。

 資料庫連線配置

 dbMysqlConfig.cnf

[dbMysql]
host = localhost
port = 3306
user = root
password = root
db_name = dou_film

 

封裝的DBUtils,中間有些小白的錯,在裡面栽了幾個坑:事務,提交,主鍵自增啥的。其實就用了一個insert()方法,其他方法的正確性可忽略。

mysqlDBUtils.py

#!/usr/bin/python3
# -*- coding:utf-8 -*-
import pymysql, os, configparser
from pymysql.cursors import DictCursor
from DBUtils.PooledDB import PooledDB


class Config(object):
    """
    # Config().get_content("user_information")
    配置檔案裡面的引數
    [dbMysql]
    host = 192.168.1.101
    port = 3306
    user = root
    password = python123
    """

    def __init__(self, config_filename="dbMysqlConfig.cnf"):
        file_path = os.path.join(os.path.dirname(__file__), config_filename)
        self.cf = configparser.ConfigParser()
        self.cf.read(file_path)

    def get_sections(self):
        return self.cf.sections()

    def get_options(self, section):
        return self.cf.options(section)

    def get_content(self, section):
        result = {}
        for option in self.get_options(section):
            value = self.cf.get(section, option)
            result[option] = int(value) if value.isdigit() else value
        return result


class BasePymysqlPool(object):
    def __init__(self, host, port, user, password, db_name):
        self.db_host = host
        self.db_port = int(port)
        self.user = user
        self.password = str(password)
        self.db = db_name
        self.conn = None
        self.cursor = None


class MyPymysqlPool(BasePymysqlPool):
    """
    MYSQL資料庫物件,負責產生資料庫連線 , 此類中的連線採用連線池實現
        獲取連線物件:conn = Mysql.getConn()
        釋放連線物件;conn.close()或del conn
    """
    # 連線池物件
    __pool = None

    def __init__(self, conf_name=None):
        self.conf = Config().get_content(conf_name)
        super(MyPymysqlPool, self).__init__(**self.conf)
        # 資料庫建構函式,從連線池中取出連線,並生成操作遊標
        self._conn = self.__getConn()
        self._cursor = self._conn.cursor()

    def __getConn(self):
        """
        @summary: 靜態方法,從連線池中取出連線
        @return MySQLdb.connection
        """
        if MyPymysqlPool.__pool is None:
            __pool = PooledDB(creator=pymysql,
                              mincached=1,
                              maxcached=20,
                              host=self.db_host,
                              port=self.db_port,
                              user=self.user,
                              passwd=self.password,
                              db=self.db,
                              use_unicode=False,
                              charset="utf8",
                              cursorclass=DictCursor)
        return __pool.connection()

    def getAll(self, sql, param=None):
        """
        @summary: 執行查詢,並取出所有結果集
        @param sql:查詢SQL,如果有查詢條件,請只指定條件列表,並將條件值使用引數[param]傳遞進來
        @param param: 可選引數,條件列表值(元組/列表)
        @return: result list(字典物件)/boolean 查詢到的結果集
        """
        if param is None:
            count = self._cursor.execute(sql)
        else:
            count = self._cursor.execute(sql, param)
        if count > 0:
            result = self._cursor.fetchall()
        else:
            result = False
        return result

    def getOne(self, sql, param=None):
        """
        @summary: 執行查詢,並取出第一條
        @param sql:查詢SQL,如果有查詢條件,請只指定條件列表,並將條件值使用引數[param]傳遞進來
        @param param: 可選引數,條件列表值(元組/列表)
        @return: result list/boolean 查詢到的結果集
        """
        if param is None:
            count = self._cursor.execute(sql)
        else:
            count = self._cursor.execute(sql, param)
        if count > 0:
            result = self._cursor.fetchone()
        else:
            result = False
        return result

    def getMany(self, sql, num, param=None):
        """
        @summary: 執行查詢,並取出num條結果
        @param sql:查詢SQL,如果有查詢條件,請只指定條件列表,並將條件值使用引數[param]傳遞進來
        @param num:取得的結果條數
        @param param: 可選引數,條件列表值(元組/列表)
        @return: result list/boolean 查詢到的結果集
        """
        if param is None:
            count = self._cursor.execute(sql)
        else:
            count = self._cursor.execute(sql, param)
        if count > 0:
            result = self._cursor.fetchmany(num)
        else:
            result = False
        return result

    def insertMany(self, sql, values):
        """
        @summary: 向資料表插入多條記錄
        @param sql:要插入的SQL格式
        @param values:要插入的記錄資料tuple(tuple)/list[list]
        @return: count 受影響的行數
        """
        count = self._cursor.executemany(sql, values)
        return count

    def __query(self, sql, param=None):
        if param is None:
            count = self._cursor.execute(sql)
        else:
            count = self._cursor.execute(sql, param)
        return count

    def update(self, sql, param=None):
        """
        @summary: 更新資料表記錄
        @param sql: SQL格式及條件,使用(%s,%s)
        @param param: 要更新的  值 tuple/list
        @return: count 受影響的行數
        """
        return self.__query(sql, param)

    def insert(self, sql, param=None):
        """
        @summary: 更新資料表記錄
        @param sql: SQL格式及條件,使用(%s,%s)
        @param param: 要更新的  值 tuple/list
        @return: count 受影響的行數
        """
        num = self._cursor.execute(sql)
        self._conn.commit()
        return  num

    def delete(self, sql, param=None):
        """
        @summary: 刪除資料表記錄
        @param sql: SQL格式及條件,使用(%s,%s)
        @param param: 要刪除的條件 值 tuple/list
        @return: count 受影響的行數
        """
        return self.__query(sql, param)

    def begin(self):
        """
        @summary: 開啟事務
        """
        self._conn.autocommit(0)

    def end(self, option='commit'):
        """
        @summary: 結束事務
        """
        if option == 'commit':
            self._conn.commit()
        else:
            self._conn.rollback()

    def dispose(self, isEnd=1):
        """
        @summary: 釋放連線池資源
        """
        if isEnd == 1:
            self.end('commit')
        else:
            self.end('rollback')
        self._cursor.close()
        self._conn.close()


if __name__ == '__main__':
    mysql = MyPymysqlPool("dbMysql")
    sqlAll = "select * from seckill;"
    result = mysql.getAll(sqlAll)
    print(result)
    # 釋放資源
    mysql.dispose()

 

爬豆瓣頁面資料解析,比較佩服的是裡面爬取用的是正則表示式去匹配的,這點只能看個門道,平時用正則表示式都是百度匹配的,測試ok就用了。對原有豆瓣做了一些改動,使其合乎我的想法,雖然想法以後回頭看也會諸多問題,先搞出來再說吧。

其實導包,類引入,為難了自己一下下。其他都還算順利。

 

douFilm.py

 #coding=utf-8
import requests
import re
import json
import importlib
import os
dbUtils = importlib.import_module('mysqlDBUtils')


# 定義圖片儲存位置
global save_path
save_path = 'D:/doubanfilm'


# 建立資料夾
def createFile(file_path):
    if os.path.exists(file_path) is False:
        os.makedirs(file_path)
    # 切換路徑至上面建立的資料夾
    os.chdir(file_path)


def parse_html(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"}
    response = requests.get(url, headers=headers)
    text = response.text
    regix = '<div class="pic">.*?<em class="">(.*?)</em>.*?<img.*?src="(.*?)" class="">.*?div class="info.*?class="hd".*?class="title">(.*?)</span>.*?class="other">' \
            '(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?)<br>(.*?)</p>.*?class="star.*?<span class="(.*?)"></span>.*?' \
            'span class="rating_num".*?average">(.*?)</span>'
    results = re.findall(regix, text, re.S)
    mysql = dbUtils.MyPymysqlPool("dbMysql")
    for item in results:
        filepath = down_image(item[1],headers = headers)
        print("檔案路徑"+filepath)
        print(item)
        # item[2] 電影主流名字 item[3] 電影別名
        film_name =  item[2] + ' ' + re.sub('&nbsp;','',item[3])
        info = re.sub('&nbsp;','',item[4].strip()).split(":")
        # 導演
        director = info[1].split('')[0]
        # 主演
        print(len(info))
        if len(info) > 2:
            actor = info[2]
        else:
            actor = "..."
        score_mark = star_transfor(item[6].strip()) + '/' + item[7] + ''
        rank_num = item[0]
        print(film_name)
        # 寫sql 語句
        sql = 'insert into film (film_name,director,actor,score_mark,rank_num,filepath) value("' + film_name + '","' + director + '","' + actor + '","' + score_mark + '","' + rank_num + '","'+filepath+'")'
        # 執行插入
        result = mysql.insert(sql)
        yield {
            '電影名稱' : film_name,
            '導演和演員' :  director,
            '評分': score_mark,
            '排名' : rank_num
        }
    mysql.dispose()
def main():
    for offset in range(0, 250, 25):
        url = 'https://movie.douban.com/top250?start=' + str(offset) +'&filter='
        for item in parse_html(url):
            # 將每個條目寫入txt
            write_movies_file(item)

def write_movies_file(str):
    with open('douban_film.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(str,ensure_ascii=False) + '\n')

def down_image(url,headers):
    r = requests.get(url,headers = headers)
    createFile(save_path)
    filepath = save_path +'/'+ re.search('/public/(.*?)$', url, re.S).group(1)
    print("下載的海報名字"+filepath)
    with open(filepath,'wb') as f:
         f.write(r.content)
    return filepath
def star_transfor(str):
    if str == 'rating5-t':
        return '五星'
    elif str == 'rating45-t' :
        return '四星半'
    elif str == 'rating4-t':
        return '四星'
    elif str == 'rating35-t' :
        return '三星半'
    elif str == 'rating3-t':
        return '三星'
    elif str == 'rating25-t':
        return '兩星半'
    elif str == 'rating2-t':
        return '兩星'
    elif str == 'rating15-t':
        return '一星半'
    elif str == 'rating1-t':
        return '一星'
    else:
        return '無星'

if __name__ == '__main__':
    main()

 

 

 一切還算順利,註釋都在程式碼裡寫明瞭,應該比較好理解。執行的時候,直接執行douFilm.py就ok了。專案很簡單 gitHub地址:https://github.com/islowcity/doufilm.git