Python爬蟲入門教程 14-100 All IT eBooks多執行緒爬取

阿新 • • 發佈：2018-12-28

寫在前面

對一個爬蟲愛好者來說，或多或少都有這麼一點點的收集癖 ~ 發現好的圖片，發現好的書籍，發現各種能存放在電腦上的東西，都喜歡把它批量的爬取下來。然後放著，是的，就這麼放著.......然後慢慢的遺忘掉.....

爬蟲分析

開啟網址 http://www.allitebooks.com/ 發現特別清晰的小頁面，一看就好爬
在這裡插入圖片描述

在點選一本圖書進入，發現下載的小連結也很明顯的展示在了我們面前，小激動一把，這麼清晰無廣告的網站不多見了。
在這裡插入圖片描述

擼程式碼

這次我採用了一個新的模組 requests-html 這個模組的作者之前開發了一款 requests，你應該非常熟悉了，執行緒控制採用的 queue

安裝 requests-html 模組

pip install requests-html

關於這個模組的使用，你只需要使用搜索引擎搜尋一下這個模組名稱，那文章也是很多滴，作為能學到這篇部落格的你來說，是很簡單的拉~

我們編寫一下核心的內容

from requests_html import HTMLSession
from queue import Queue
import requests
import random

import threading
CARWL_EXIT = False
DOWN_EXIT = False

#####
# 其他程式碼
####
if __name__ == '__main__':

    page_queue = Queue(5)
    for i in range(1,6):
        page_queue.put(i)  # 把頁碼儲存到page_queue裡面

    # 採集結果
    data_queue = Queue()

    # 記錄執行緒列表
    thread_crawl = []
    # 每次開啟5個執行緒
    craw_list = ["採集執行緒1號","採集執行緒2號","採集執行緒3號","採集執行緒4號","採集執行緒5號"]

    for thread_name in craw_list:
        c_thread = ThreadCrawl(thread_name,page_queue,data_queue)
        c_thread.start()
        thread_crawl.append(c_thread)

    while not page_queue.empty():
        pass

    # 如果page_queue為空，採集執行緒退出迴圈
    CARWL_EXIT = True
    for thread in thread_crawl:
        thread.join()
        print("抓取執行緒結束")

上面就是爬取圖書詳情頁面的執行緒了，我開啟了5個執行緒爬取，頁碼也只爬取了5 頁，如果你需要更多的，只需要修改

    page_queue = Queue(5)
    for i in range(1,6):
        page_queue.put(i)  # 把頁碼儲存到page_queue裡面

下面我們把 ThreadCrawl 類編寫完畢

session = HTMLSession()

# 這個地方是 User_Agents 以後我把他配置到伺服器上面，就可以遠端獲取了  這個列表裡面有很多項，你自己去原始碼裡面找吧
USER_AGENTS = [
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20"
]
# 獲取圖書下載連結的執行緒類
class ThreadCrawl(threading.Thread):
    # 建構函式
    def __init__(self,thread_name,page_queue,data_queue):

        super(ThreadCrawl,self).__init__()
        self.thread_name = thread_name
        self.page_queue = page_queue
        self.data_queue = data_queue
        self.page_url = "http://www.allitebooks.com/page/{}"   #URL拼接模板

    def run(self):
        print(self.thread_name+" 啟動*********")

        while not CARWL_EXIT:
            try:
                page = self.page_queue.get(block=False)
                page_url = self.page_url.format(page)   # 拼接URL操作
                self.get_list(page_url)   # 分析頁面連結 

            except Exception as e:
                print(e)
                break


    # 獲取當前列表頁所有圖書連結
    def get_list(self,url):
        try:
            response = session.get(url)
        except Exception as e:
            print(e)
            raise e

        all_link = response.html.find('.entry-title>a') # 獲取頁面所有圖書詳情連結

        for link in all_link:
            self.get_book_url(link.attrs['href'])   # 獲取圖書連結

    # 獲取圖書下載連結
    def get_book_url(self,url):
        try:
            response = session.get(url)

        except Exception as e:
            print(e)
            raise e

        download_url = response.html.find('.download-links a', first=True)

        if download_url is not None: # 如果下載連結存在，那麼繼續下面的爬取工作
            link = download_url.attrs['href']
            self.data_queue.put(link)   # 把圖書下載地址 儲存到 data_queue裡面，準備後面的下載
            print("抓取到{}".format(link))

上述程式碼一個非常重要的內容就是把圖書的下載連結儲存到了data_queue 裡面，這些資料在另一個下載執行緒裡面是最基本的資料。

下面開始編寫圖書下載的類和方法。

我開啟了4個執行緒，操作和上面的非常類似

class ThreadDown(threading.Thread):
    def __init__(self, thread_name, data_queue):
        super(ThreadDown, self).__init__()
        self.thread_name = thread_name
        self.data_queue = data_queue

    def run(self):
        print(self.thread_name + ' 啟動************')
        while not DOWN_EXIT:
            try:
                book_link = self.data_queue.get(block=False)
                self.download(book_link)
            except Exception as e:
                pass

    def download(self,url):
        # 隨機瀏覽器User-Agent
        headers = {"User-Agent":random.choice(USER_AGENTS)}
        # 獲取檔名字
        filename = url.split('/')[-1]
        # 如果url裡面包含pdf
        if '.pdf' in url or '.epub' in url:
            file = 'book/'+filename  # 檔案路徑已經寫死，請在跟目錄先建立好一個book資料夾
            with open(file,'wb') as f:  # 開始二進位制寫檔案
                print("正在下載 {}".format(filename))
                response = requests.get(url,stream=True,headers=headers)
                # 獲取檔案大小
                totle_length = response.headers.get("content-length")
                # 如果檔案大小不存在，則直接寫入返回的文字
                if totle_length is None:
                    f.write(response.content)
                else:
                    for data in response.iter_content(chunk_size=4096):
                        f.write(data)
                    else:
                        f.close()

                print("{}下載完成".format(filename))

if __name__ == '__main__': 

# 其他程式碼在上面
    thread_image = []
    image_list = ['下載執行緒1號', '下載執行緒2號', '下載執行緒3號', '下載執行緒4號']
    for thread_name in image_list:
        d_thread = ThreadDown(thread_name, data_queue)
        d_thread.start()
        thread_image.append(d_thread)

    while not data_queue.empty():
        pass

    DOWN_EXIT = True
    for thread in thread_image:
        thread.join()
        print("下載執行緒結束")

如果你把我上面的程式碼都組合完畢，那麼應該可以很快速的去爬取圖書了，當然這些圖書都是英文了，下載下來你能不能讀....... 我就不知道了。

在這裡插入圖片描述

原始碼下載地址，去上篇部落格找吧~~~~

Python爬蟲入門教程 14-100 All IT eBooks多執行緒爬取

寫在前面對一個爬蟲愛好者來說，或多或少都有這麼一點點的收集癖 ~ 發現好的圖片，發現好的書籍，發現各種能存放在電腦上的東西，都喜歡把它批量的爬取下來。然後放著，是的，就這麼放著.......然後慢慢的遺忘掉..... 爬蟲分析開啟網址 http://www.allitebooks.c

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的內容。

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取！

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問 scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的

Python爬蟲入門教程 10-100 圖蟲網多線程爬取

全局變量 app str tlist img exception 父類 json urn 寫在前面經歷了一頓劈裏啪啦的操作之後，終於我把博客寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模塊，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢

Python爬蟲入門教程 4-100 美空網未登入圖片爬取

簡介上一篇寫的時間有點長了，接下來繼續把美空網的爬蟲寫完，這套教程中編寫的爬蟲在實際的工作中可能並不能給你增加多少有價值的技術點，因為它只是一套入門的教程，老鳥你自動繞過就可以了，或者帶帶我也行。爬蟲分析首先，我們已經爬取到了N多的使用者個人主頁，我通過連結拼接獲取到了 www.moko.cc/

Python爬蟲入門教程 21-100 網易雲課堂課程資料抓取

寫在前面今天咱們抓取一下網易雲課堂的課程資料，這個網站的資料量並不是很大，我們只需要使用requests就可以快速的抓取到這部分資料了。你第一步要做的是開啟全部課程的地址，找出爬蟲規律，地址如下： https://study.163.com/courses/ 我簡單的看了一下，頁面資料是基於

Python爬蟲入門教程 19-100 51CTO學院IT技術課程抓取

寫在前面從今天開始的幾篇文章，我將就國內目前比較主流的一些線上學習平臺數據進行抓取，如果時間充足的情況下，會對他們進行一些簡單的分析，好了，平臺大概有51CTO學院，CSDN學院，網易雲課堂，慕課網等平臺，資料統一抓取到mongodb裡面，如果對上述平臺造成了困擾，請見諒，畢竟我就抓取那麼一小會的時間，不

Python爬蟲入門教程 3-100 美空網資料爬取

簡介從今天開始，我們嘗試用2篇部落格的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址 http://www.moko.cc/post/1302075.html 然後在去分析一下，我需要找到一個圖片列表

Python爬蟲入門教程 3-100 美空網數據爬取

個數 exception 意思消費時間模塊 intel insert -o switch 簡介從今天開始，我們嘗試用2篇博客的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址

Python爬蟲入門教程 2-100 妹子圖網站爬取

字典註意 while import 我們分鐘基礎便是訪問前言從今天開始就要擼起袖子，直接寫Python爬蟲了，學習語言最好的辦法就是有目的的進行，所以，接下來我將用10+篇的博客，寫爬圖片這一件事情。希望可以做好。為了寫好爬蟲，我們需要準備一個火狐瀏覽器，還

Python爬蟲入門教程 9-100 河北陽光理政投訴板塊

寫在前面之前幾篇文章都是在寫圖片相關的爬蟲，今天寫個留言板爬出，為另一套資料分析案例的教程做做準備，作為一個河北人，遵紀守法，有事投訴是必備的技能，那麼咱看看我們大河北人都因為什麼投訴過呢？今天要爬取的網站地址 http://yglz.tousu.hebne

Python爬蟲入門教程 15-100 石家莊政民互動資料爬取

寫在前面今天，咱抓取一個網站，這個網站呢，涉及的內容就是網友留言和回覆，特別簡單，但是網站是gov的。網址為 http://www.sjz.gov.cn/col/1490066682000/index.html 首先宣告，為了學習，絕無惡意抓取資訊，不管

Python爬蟲入門教程 4-100 美空網未登錄圖片爬取

表數價值圖片下載開發所有圖片 mpi focus .data data 簡介上一篇寫的時間有點長了，接下來繼續把美空網的爬蟲寫完，這套教程中編寫的爬蟲在實際的工作中可能並不能給你增加多少有價值的技術點，因為它只是一套入門的教程，老鳥你自動繞過就可以了，或者帶帶我也

Python爬蟲入門教程 5-100 27270圖片爬取

retrying ont star 都是 ram emp ret afa else 獲取待爬取頁面今天繼續爬取一個網站，http://www.27270.com/ent/meinvtupian/ 這個網站具備反爬，so我們下載的代碼有些地方處理的也不是很到位，大家重點

Python爬蟲入門教程 6-100 蜂鳥網圖片爬取之一

enter 第一步 {} status .... 一個網站分析 except rep 1. 簡介國慶假日結束了，新的工作又開始了，今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，

Python爬蟲入門教程 8-100 蜂鳥網圖片爬取之三

asyncio esp 分享圖片 0.10 結果 .text win int lang 啰嗦兩句前幾天的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊采用aiohttp 希望你喜歡爬取頁面https://tu.fengniao.com/15/ 本篇教程還

Python爬蟲入門教程 16-100 500px攝影師社群抓取攝影師資料

寫在前面今天要抓取的網站為 https://500px.me/ ，這是一個攝影社群，在一個攝影社群裡面本來應該爬取的是圖片資訊，可是我發現好像也沒啥有意思的，忽然覺得爬取一下這個網站的攝影師更好玩一些，所以就有了這篇文章的由來。基於上面的目的，我找了了一個不錯的頁面 https://50

Python爬蟲入門教程 12-100 半次元COS圖爬取

寫在前面今天在瀏覽網站的時候，忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/ 開啟之後，發現也沒有什麼有意思的內容，職業的敏感讓我瞬間聯想到了 cosplay ，這種網站必然會有這個的存在啊，於是乎，我準備好我的大爬蟲了。把上面的連結開啟之後

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

Python爬蟲入門教程 13-100 鬥圖啦表情包多線程爬取

.text 入門教程地址 ESS 文件頭部 https .html 一個 mat 寫在前面今天在CSDN博客，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裏面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多線程版本的。關鍵技術點 aiohttp ，你可以

Python爬蟲入門教程 14-100 All IT eBooks多執行緒爬取

寫在前面

爬蟲分析

擼程式碼

相關推薦