Scrapy_redis+scrapyd搭建分散式架構爬取知乎使用者資訊

阿新 • • 發佈：2019-01-12

分散式原理：

scrapy-redis實現分散式，其實從原理上來說很簡單，這裡為描述方便，我們把自己的核心伺服器稱為master，而把用於跑爬蟲程式的機器稱為slave。

我們知道，採用scrapy框架抓取網頁，我們需要首先給定它一些start_urls，爬蟲首先訪問start_urls裡面的url，再根據我們的具體邏輯，對裡面的元素、或者是其他的二級、三級頁面進行抓取。而要實現分散式，我們只需要在這個starts_urls裡面做文章就行了。

我們在master上搭建一個redis資料庫（注意這個資料庫只用作url的儲存，不關心爬取的具體資料，不要和後面的mongodb或者mysql混淆），並對每一個需要爬取的網站型別，都開闢一個單獨的列表欄位。通過設定slave上scrapy-redis獲取url的地址為master地址。這樣的結果就是，儘管有多個slave，然而大家獲取url的地方只有一個，那就是伺服器master上的redis資料庫。

並且，由於scrapy-redis自身的佇列機制，slave獲取的連結不會相互衝突。這樣各個slave在完成抓取任務之後，再把獲取的結果彙總到伺服器上（這時的資料儲存不再在是redis，而是mongodb或者 mysql等存放具體內容的資料庫了）

這種方法的還有好處就是程式移植性強，只要處理好路徑問題，把slave上的程式移植到另一臺機器上執行，基本上就是複製貼上的事情。

分析思路：

1.使用兩臺機器，一臺是win10，一臺是centos7的伺服器，分別在兩臺機器上部署scrapy來進行分散式抓取一個網站.
2.centos7的ip地址為139.199.57.248，用來作為redis的slave端，win10的機器作為master.
3.master的爬蟲執行時會把提取到的url封裝成request放到redis中的資料庫：“dmoz:requests”，並且從該資料庫中提取request後下載網頁，再把網頁的內容存放到redis的另一個數據庫中“dmoz:items”.
4.slave從master的redis中取出待抓取的request，下載完網頁之後就把網頁的內容傳送回master的redis.
5.重複上面的3和4，直到master的redis中的“dmoz:requests”資料庫為空，再把master的redis中的“dmoz:items”資料庫寫入到mongodb中.
6.master裡的reids還有一個數據“dmoz:dupefilter”是用來儲存抓取過的url的指紋（使用雜湊函式將url運算後的結果），是防止重複抓取的.

實現步驟：

1.先從Github上把前幾天寫的程式碼，clone到本地：

git clone https://github.com/dik111/Zhihu.git

2.新建分支，以便不影響之前的程式碼：

git checkout -b distributed#新建分支
git branch#切換到分支

3.修改setting.py檔案：

SCHEDULER = "scrapy_redis.scheduler.Scheduler"#修改排程器
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"#用於去重的class
 'scrapy_redis.pipelines.RedisPipeline': 301#爬取結果儲存到Redis
REDIS_URL = 'redis://root:[email protected]:6379'

執行爬蟲程式，可以看到Redis中多了zhihu這個檔案
這裡寫圖片描述

其中zhihu:dupefilter就是上文所說的用來儲存抓取過的url的指紋（使用雜湊函式將url運算後的結果），是防止重複抓取的。

4.把分支程式碼更新到Github：

git status
git add -A
git commit -m "add distributed"
git push origin distributed

5.把程式碼部署到伺服器：
5.1首先開啟mongodb的配置檔案mongodb.conf，把blind1270.0.1註釋掉，以便遠端連線mongodb。
5.2在linux系統下建立新的資料夾，並且把專案clone下來。

sudo git clone https://github.com/Germey/Zhihu.git -b distributed

6.執行爬蟲程式

scrapy crawl zhihu

到這裡一個簡單的分散式框架已經搭建完成啦！

7.因為已經遠端連線了mongodb，因此主機上面的redis已經不需要把從機的資料遠端過來了，所以把之前的redis pipelines註釋掉

#'scrapy_redis.pipelines.RedisPipeline': 301

相關進階

在上面的例子中，我們是用git來更新部署程式碼的，但是當主機非常多的時候，這樣的操作顯示有點繁瑣，因此，在這裡我推薦使用scrapyd來進行分散式的部署。
這裡寫圖片描述

1.安裝scrapyd：

pip install scrapyd

2.啟動scrapyd，並且訪問遠端埠：
這裡寫圖片描述
3.修改scrapy.cfg檔案：

url = http://http://127.0.0.1:6800/addversion.json
project = zhihuuser

Scrapy_redis+scrapyd搭建分散式架構爬取知乎使用者資訊

相關準備：

分散式原理：

分析思路：

實現步驟：

相關進階

Scrapy_redis+scrapyd搭建分散式架構爬取知乎使用者資訊

基於webmagic的爬蟲小應用--爬取知乎使用者資訊

python scrapy框架爬取知乎提問資訊

python requests 爬取知乎使用者資訊

爬取知乎某個問題下所有的圖片

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

用PHP爬取知乎的100萬用戶

利用 Scrapy 爬取知乎用戶信息

爬取知乎Python中文社區信息

爬取知乎話題async使用協程

scrapy爬取知乎問答

python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片

教程+資源,python scrapy實戰爬取知乎最性感妹子的爆照合集(12G)!

python爬取知乎專欄使用者評論資訊

爬蟲爬取知乎登陸後首頁

用python爬取知乎中的圖片

超簡易Scrapy爬取知乎問題，標籤的爬蟲

python3爬取知乎某話題下的若干個問題及其回答

用於爬取知乎某個話題下的精華問題中所有回答的爬蟲

python爬取知乎專欄文章標題及URL

Scrapy_redis+scrapyd搭建分散式架構爬取知乎使用者資訊

相關準備：

分散式原理：

分析思路：

實現步驟：

相關進階

相關推薦