Python爬蟲入門——3.1 多程序爬蟲

阿新 • • 發佈：2019-01-16

我們上次爬取了鬥破蒼穹全文小說，並儲存到本地TXT檔案，但是下載速度超級慢（不排除我這垃圾i5電腦的原因），我都玩了一盤王者榮耀，還沒有下載完成。j究其原因是我們只是應用了單程序爬取，所以爬取速度大打折扣。鑑於此我們本節介紹多程序爬蟲。

首先簡單介紹一下多程序。通常我們的計算機在執行程式時，他會自己建立一個包含程式碼和狀態的程序。這些程序會通過計算機的一個或者多個CPU執行，不過同一時刻一個CPU只能執行一個程序，但是不同的程序可以在同一條時間線上來回切換，由於計算機超高的執行速度，給我們的感覺就是他在執行多個程式。同理，同一個程序裡的不同執行緒之間也是如此。

首先來介紹多程序的使用方法

from multiprocessing import Pool
pool = Pool(processes = 4)
pool.map(func, urls)

首先要匯入需要使用的庫；第二行用於建立程序池，processes引數設定程序的個數；第三行利用map（）函式執行程序，func引數是需要呼叫的def模組，urls為可迭代的URL列表。

下面為主程式

import requests
import re
from multiprocessing import Pool

def Solution(url):
    '''
    爬取網頁的函式，將爬取到的資料，儲存到TXT文件
    :param url: 傳入的url
    :return: 無返回值
    '''
    res = requests.get(url)
    name_list = re.findall('<h2>(.*?)</h2>',res.text,re.S)
    content_list = re.findall('<span>(.*?)</span>',res.text,re.S)
    for name, content in zip(name_list, content_list):
        return [name.strip(),'  ',content.strip(),'\n']


if __name__ == "__main__":
    urls = ['https://www.qiushibaike.com/text/page/{}/'.format(str(i)) for i in range(1,25)]
    pool = Pool(processes=4)
    with open('F:/exercise/多程序測試.txt', 'a') as f:
        for i in pool.map(Solution, urls):
                f.write(str(i))

1.首先匯入需要用到的庫

2.建立一個def，利用requests獲取網頁資訊，利用正則表示式獲取使用者姓名，發表文章內容，再利用for迴圈，以列表形式返回我們獲取到的內容

3.主函式：建立可迭代的url列表。建立程序池，數量為四個。

3.1利用 with 建立一個對話。在這個對話裡面，以追加 ‘ a ’ 的方式利用for迴圈將Solution函式返回的內容寫入TXT檔案。如果利用的是 ‘w' 模式，那麼每次新寫入的內容都會覆蓋原先的內容，而追加 ’a' 則是在後面追加需要新增的內容。

你可以更換為‘w’ 模式試一下

--------------------------------------分割線------------------------------------------------------

關於python多程序的相關知識請參考為另一篇博文python 多程序

Python爬蟲入門——3.1 多程序爬蟲

我們上次爬取了鬥破蒼穹全文小說，並儲存到本地TXT檔案，但是下載速度超級慢（不排除我這垃圾i5電腦的原因），我都玩了一盤王者榮耀，還沒有下載完成。j究其原因是我們只是應用了單程序爬取，所以爬取速度大打折扣。鑑於此我們本節介紹多程序爬蟲。首先簡單介紹一下多程序。通常我們的計

python爬蟲入門八：多程序/多執行緒 python佇列Queue Python多執行緒（2）——執行緒同步機制 python學習筆記——多程序中共享記憶體Value & Array python 之多程序 Python多程序 Python 使用multiprocessing 特別耗記

什麼是多執行緒/多程序引用蟲師的解釋：計算機程式只不過是磁碟中可執行的，二進位制（或其它型別）的資料。它們只有在被讀取到記憶體中，被作業系統呼叫的時候才開始它們的生命期。程序（有時被稱為重量級程序）是程式的一次執行。每個程序都有自己的地址空間，記憶體，資料棧以及其它記錄其執行軌跡的輔助資料

Python爬蟲入門——3.1 多程序爬蟲

Python爬蟲入門——3.1 多程序爬蟲

python爬蟲入門八：多程序/多執行緒 python佇列Queue Python多執行緒（2）——執行緒同步機制 python學習筆記——多程序中共享記憶體Value & Array python 之多程序 Python多程序 Python 使用multiprocessing 特別耗記

Python爬蟲入門——3.2 動態網頁爬蟲

Python爬蟲入門 | 3 爬蟲必備Python知識

python爬蟲系列(3.1-xpath語法的介紹)

[Python爬蟲]爬蟲例項:爬取PEXELS圖片---修改為多程序爬蟲

Python 爬蟲入門筆記1(for myself)

python的爬蟲入門學習1

Python爬蟲入門教程，多執行緒採集鬥圖啦表情包！

Python爬蟲入門——3.4 模擬登入

python queue和多執行緒的爬蟲與 JoinableQueue和多程序的爬蟲

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

Python爬蟲入門——3.3 表單互動 Post

Python爬蟲入門——2. 1 我的第一個爬蟲程式

python多程序爬蟲

Python爬蟲入門（1）：綜述

python爬蟲：編寫多程序爬蟲學習筆記

Python爬蟲入門【1】： CentOS環境安裝

學習資料-----python從入門到精通100G,包括爬蟲、電子書、各種視訊教程，你不可錯過！

Python 學習入門（6）—— 網頁爬蟲

Python爬蟲入門——3.1 多程序爬蟲

相關推薦