我的豆瓣短評爬蟲的多執行緒改寫

阿新 • • 發佈：2018-11-07

對之前我的那個豆瓣的短評的爬蟲，進行了一下架構性的改動。儘可能實現了模組的分離。但是總是感覺不完美。暫時也沒心情折騰了。

同時也添加了多執行緒的實現。具體過程見下。

改動

獨立出來的部分：

MakeOpener
MakeRes
GetNum
IOFile
GetSoup
main

將所有的程式碼都置於函式之中，顯得乾淨了許多。(^__^) 嘻嘻……

使用直接呼叫檔案入口作為程式的起點

if __name__ == "__main__":
    main()

注意，這一句並不代表如果該if之前有其他直接暴露出來的程式碼時，他會首先執行。

print("首先執行")

if __name__ == "__main__":
    print("次序執行")

# 輸出如下：
# 首先執行
# 次序執行

該if語句只是代表順序執行到這句話時進行判斷呼叫者是誰，若是直接執行的該檔案，則進入結構，若是其他檔案呼叫，那就跳過。

多執行緒

這裡參考了【Python資料分析】Python3多執行緒併發網路爬蟲-以豆瓣圖書Top，和我的情況較為類似，參考較為容易。

仔細想想就可以發現，其實爬10頁（每頁25本），這10頁爬的先後關係是無所謂的，因為寫入的時候沒有依賴關係，各寫各的，所以用序列方式爬取是吃虧的。顯然可以用併發來加快速度，而且由於沒有同步互斥關係，所以連鎖都不用上。

正如引用博文所說，由於問題的特殊性，我用了與之相似的較為直接的直接分配給各個執行緒不同的任務，而避免了執行緒互動導致的其他問題。

我的程式碼中多執行緒的核心程式碼不多，見下。

thread = []
for i in range(0, 10):
    t = threading.Thread(
            target=IOFile,
            args=(soup, opener, file, pagelist[i], step)
        )
    thread.append(t)

# 建立執行緒
for i in range(0, 10):
    thread[i].start()

for 
 i in range(0, 10):
    thread[i].join()

呼叫執行緒庫threading，向threading.Thread()類中傳入要用執行緒執行的函式及其引數。

執行緒列表依次新增對應不同引數的執行緒，pagelist[i]，step兩個引數是關鍵，我是分別為每個執行緒分配了不同的頁面連結，這個地方我想了半天，最終使用了一些數學計算來處理了一下。

同時也簡單試用了下列表生成式：

pagelist = [x for x in range(0, pagenum, step)]

這個和下面是一致的：

pagelist = []
for x in range(0, pagenum, step):
    pagelist.append(x)

threading.Thread的幾個方法

值得參考：多執行緒

start() 啟動執行緒
jion([timeout])，依次檢驗執行緒池中的執行緒是否結束，沒有結束就阻塞直到執行緒結束，如果結束則跳轉執行下一個執行緒的join函式。在程式中，最後join()方法使得當所呼叫執行緒都執行完畢後，主執行緒才會執行下面的程式碼。相當於實現了一個結束上的同步。這樣避免了前面的執行緒結束任務時，導致檔案關閉。

注意

使用多執行緒時，期間的延時時間應該設定的大些，不然會被網站拒絕訪問，這時你還得去豆瓣認證下”我真的不是機器人”（尷尬）。我設定了10s，倒是沒問題，再小些，就會出錯了。

完整程式碼

# -*- coding: utf-8 -*-
"""
Created on Thu Aug 17 16:31:35 2017

@note: 為了便於閱讀，將模組的引用就近安置了
@author: lart
"""

import time
import socket
import re
import threading
from urllib import parse
from urllib import request
from http import cookiejar
from bs4 import BeautifulSoup
from matplotlib import pyplot
from datetime import datetime


# 用於生成短評頁面網址的函式
def MakeUrl(start):
    """make the next page's url"""
    url = 'https://movie.douban.com/subject/26934346/comments?start=' \
        + str(start) + '&limit=20&sort=new_score&status=P'
    return url


def MakeOpener():
    """make the opener of requset"""
    # 儲存cookies便於後續頁面的保持登陸
    cookie = cookiejar.CookieJar()
    cookie_support = request.HTTPCookieProcessor(cookie)
    opener = request.build_opener(cookie_support)
    return opener


def MakeRes(url, opener, formdata, headers):
    """make the response of http"""
    # 編碼資訊，生成請求，開啟頁面獲取內容
    data = parse.urlencode(formdata).encode('utf-8')
    req = request.Request(
                    url=url,
                    data=data,
                    headers=headers
                )
    response = opener.open(req).read().decode('utf-8')
    return response


def GetNum(soup):
    """get the number of pages"""
    # 獲得頁面評論文字
    totalnum = soup.select("div.mod-hd h2 span a")[0].get_text()[3:-2]
    # 計算出頁數
    pagenum = int(totalnum) // 20
    print("the number of comments is:" + totalnum,
          "the number of pages is: " + str(pagenum))
    return pagenum


def IOFile(soup, opener, file, pagestart, step):
    """the IO operation of file"""
    # 迴圈爬取內容
    for item in range(step):
        start = (pagestart + item) * 20
        print('第' + str(pagestart + item) + '頁評論開始爬取')
        url = MakeUrl(start)
        # 超時重連
        state = False
        while not state:
            try:
                html = opener.open(url).read().decode('utf-8')
                state = True
            except socket.timeout:
                state = False
        # 獲得評論內容
        soup = BeautifulSoup(html, "html.parser")
        comments = soup.select("div.comment > p")
        for text in comments:
            file.write(text.get_text().split()[0] + '\n')
            print(text.get_text())
        # 延時1s
        time.sleep(10)

    print('執行緒採集寫入完畢')


def GetSoup():
    """get the soup and the opener of url"""
    main_url = 'https://accounts.douban.com/login?source=movie'
    formdata = {
        "form_email": "your-email",
        "form_password": "your-password",
        "source": "movie",
        "redir": "https://movie.douban.com/subject/26934346/",
        "login": "登入"
            }
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1)\
            Gecko/20061208 Firefox/2.0.0 Opera 9.50",
        'Connection': 'keep-alive'
            }
    opener = MakeOpener()

    response_login = MakeRes(main_url, opener, formdata, headers)
    soup = BeautifulSoup(response_login, "html.parser")

    if soup.find('img', id='captcha_image'):
        print("有驗證碼")
        # 獲取驗證碼圖片地址
        captchaAddr = soup.find('img', id='captcha_image')['src']
        # 匹配驗證碼id
        reCaptchaID = r'<input type="hidden" name="captcha-id" value="(.*?)"/'
        captchaID = re.findall(reCaptchaID, response_login)
        # 下載驗證碼圖片
        request.urlretrieve(captchaAddr, "captcha.jpg")
        img = pyplot.imread("captcha.jpg")
        pyplot.imshow(img)
        pyplot.axis('off')
        pyplot.show()
        # 輸入驗證碼並加入提交資訊中，重新編碼提交獲得頁面內容
        captcha = input('please input the captcha:')
        formdata['captcha-solution'] = captcha
        formdata['captcha-id'] = captchaID[0]
        response_login = MakeRes(main_url, opener, formdata, headers)
        soup = BeautifulSoup(response_login, "html.parser")

    return soup, opener


def main():
    """main function"""
    timeout = 5
    socket.setdefaulttimeout(timeout)
    now = datetime.now()
    soup, opener = GetSoup()

    pagenum = GetNum(soup)
    step = pagenum // 9
    pagelist = [x for x in range(0, pagenum, step)]
    print('pageurl`s list={}, step={}'.format(pagelist, step))

    # 追加寫檔案的方式開啟檔案
    with open('祕密森林的短評.txt', 'w+', encoding='utf-8') as file:
        thread = []
        for i in range(0, 10):
            t = threading.Thread(
                    target=IOFile,
                    args=(soup, opener, file, pagelist[i], step)
                )
            thread.append(t)

        # 建立執行緒
        for i in range(0, 10):
            thread[i].start()

        for i in range(0, 10):
            thread[i].join()

    end = datetime.now()
    print("程式耗時： " + str(end-now))


if __name__ == "__main__":
    main()

執行結果

效率有提升

對應的單執行緒程式在github上。單執行緒：

單執行緒.jpg

可見時間超過30分鐘。修改後時間縮短到了11分鐘。

多執行緒.jpg

檔案截圖

我的專案

具體檔案和對應的結果截圖我放到了我的github上。

mypython

我的豆瓣短評爬蟲的多執行緒改寫

對之前我的那個豆瓣的短評的爬蟲，進行了一下架構性的改動。儘可能實現了模組的分離。但是總是感覺不完美。暫時也沒心情折騰了。同時也添加了多執行緒的實現。具體過程見下。改動獨立出來的部分： MakeOpener MakeRes GetNum IO

python爬蟲——多執行緒+協程（threading+gevent）

以下摘自這篇文章：https://blog.csdn.net/qq_23926575/article/details/76375337 在爬蟲中廣泛運用的多執行緒+協程的解決方案，親測可提高效率至少十倍以上。本文既然提到了執行緒和協程，我覺得有必要在此對程序、執行緒、協程做一個簡單的對

用JAVA實現簡單爬蟲多執行緒抓取

在迴圈爬取得基礎上進行多執行緒爬蟲，本程式中使用的三個執行緒，執行緒為實現runnable介面，並使用物件鎖防止併發共同去訪問同一個物件。讓三個執行緒同時爬去同一個url並且得到的新的url不重複。 import java.io.*; import j

Python 爬蟲多執行緒爬取美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工資源來至於，程式碼基於Python 3.5.2 友情提醒：血氣方剛的騷年。請謹慎閱圖！！！謹慎閱圖！！！謹慎閱圖！

爬蟲多執行緒

定義多執行緒類，爬蟲類爬取 m.sohu.com的內容中的帶有href屬性的a連結地址 import logging from enum import unique, Enum from queue import Queue from random i

python簡單爬蟲多執行緒爬取京東淘寶資訊教程

1,需要準備的工作，電腦已經安裝好python，如果沒裝，可以執行去https://www.python.org/官網下載，初學者可以安裝輕量級的wingide python開發工具，python安裝成功後配置好環境變數，在dos環境使用pip install 模組將需要用

python爬蟲多執行緒之queue

首先先來介紹下queue這個包吧，這個包叫佇列，沒錯，就是那個和棧反過來的那個佇列，大家一聽佇列就隨口說出先進先出，而棧則是後進先出，為什麼要用用佇列來實現，其實我也不知道，反正用過之後很順手，具體哪裡也說不上來先來看下佇列的內建方法的，我

Python爬蟲之多執行緒，多程序

前言我們之前寫的爬蟲都是單個執行緒的？這怎麼夠？一旦一個地方卡到不動了，那不就永遠等待下去了？為此我們可以使用多執行緒或者多程序來處理。首先宣告一點！多執行緒和多程序是不一樣的！一個是 thread 庫，一個是 multiprocessing 庫。而多執行緒 thread 在 Pytho

爬蟲與多執行緒

多執行緒和多程序爬蟲一.執行緒 1.什麼是執行緒。執行緒是作業系統能夠進行運算排程的最小單位。它被包含在程序中，是進城中的實際運作單位。一條執行緒指的是程序中一個單一順序的控制流，一個執行緒可以併發多個執行緒，每條執行緒執行不同的任務。 2.執行緒常用的方法

我的第一個豆瓣短評爬蟲

豆瓣上有著大量的影視劇的評論，所以說，要是想要實現對廣大人民群眾的觀點的分析，對一部片子的理解，綜合來看大家的評論是很有必要的。而短評作為短小精幹的快速評論入口，是值得一談的。所以先要實現對其的資料的爬取。目前來看，基本內容是可以爬取的。最大的問題在於速度。後續考慮準備運用多

非結構化資料與結構化資料提取---多執行緒爬蟲案例

多執行緒糗事百科案例案例要求參考上一個糗事百科單程序案例 Queue（佇列物件） Queue是python中的標準庫，可以直接import Queue引用;佇列是執行緒間最常用的交換資料的形式 python下多執行緒的思考對於資源，加鎖是個重要的環節。因為python原生的list,dict等，

【Python3爬蟲-爬圖片】多執行緒爬取中國國家地理全站美圖，多圖可以提高你的審美哦

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - 1. 單分類爬： from bs4 import BeautifulSo

java多執行緒爬蟲框架crawler4j的使用

一開始找jar包找了好久都沒找到，後來花了6個積分把所有的依賴包找到了，現在放在百度雲供大家免費下載：連結：https://pan.baidu.com/s/12MTMy4d4e6hZsmWAdXbUMQ 提取碼：433g 注意這些依賴包是3.5版本的不是最新版本。如果想使用最新版本的

百度百科多執行緒爬蟲(Java)

BaiduBaikeSpider 百度百科多執行緒爬蟲Java原始碼，資料儲存採用了Oracle11g 簡介採用了MyEclipes作為整合開發環境，應該是相容eclips 使用方法下載此原始碼之後使用（匯入或者 import）操作匯入此專案各個類介紹

網路爬蟲必備知識之concurrent.futures庫 python究竟要不要使用多執行緒

就庫的範圍，個人認為網路爬蟲必備庫知識包括urllib、requests、re、BeautifulSoup、concurrent.futures，接下來將結對concurrent.futures庫的使用方法進行總結建議閱讀本博的博友先閱讀下上篇部落格： python究竟要不要使用多執行緒，將會對co

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多執行緒版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from threading import Thread "

Python多執行緒爬蟲學習

此程式碼包含以下學習內容：程式封裝網頁獲取與解析 retry裝飾器與thread多執行緒 Anime code # -*- coding: utf-8 -*- import requests import demjson from retry imp

[原創]一款小巧、靈活的Java多執行緒爬蟲框架（AiPa）

1.作品簡介 AiPa 是一款小巧，靈活，擴充套件性高的多執行緒爬蟲框架。 AiPa 依賴當下最簡單的HTML解析器Jsoup。 AiPa 只需要使用者提供網址集合，即可在多執行緒下自動爬取，並對一些異常進行處理。 2.下載安裝 AiPa是一個小巧的、只有390KB的jar包。下載該Jar包匯入到你的專案中

Python爬蟲開發（三）：資料儲存以及多執行緒

0×00 介紹本文我們就兩個方面來討論如何改進我們的爬蟲：資料儲存和多執行緒，當然我承認這是為我們以後要討論的一些東西做鋪墊。本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論

《Python多執行緒的初步使用》—人生苦短，我用Python（七）

寫在前面：最近，博主在之前開發的網路配置自動化工具的基礎上，進行了修改。將該工具改為多執行緒，執行效率大大提升。原本可能需要半個小時以上跑完的任務，現在只需要幾十秒。下面我們來看看是怎麼實現的吧~ 先看東西：首先引入threading模組 import threadin

我的豆瓣短評爬蟲的多執行緒改寫

改動

獨立出來的部分：

使用直接呼叫檔案入口作為程式的起點

多執行緒

threading.Thread的幾個方法

注意

完整程式碼

執行結果

效率有提升

檔案截圖

我的專案

相關推薦