1. 程式人生 > >初識Gerapy分散式爬蟲管理框架

初識Gerapy分散式爬蟲管理框架

一、介紹:
Gerapy 是一款分散式爬蟲管理框架,支援 Python 3,基於 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 開發。
二、gerapy的初始化配置:
1.安裝gerapy框架。
pip install gerapy
2.檢查gerapy是否可用。
gerapy 正常情況下應出現如下結果:
在這裡插入圖片描述
3.初始化gerapy的資料庫及工程檔案,生成gerapy框架的工作目錄。(在哪執行命令初始化,工作目錄就建立在哪<先進入D盤,再init>下面的第三條,第四條命令不需要執行

。初始化完成後,進入gerapy資料夾,會有一個projects資料夾。)
在這裡插入圖片描述
4.執行gerapy資料庫的初始化,建立相關的資料庫表。
程式碼:gerapy init
cd gerapy
gerapy migrate
在這裡插入圖片描述
5.在gerapy目錄下,啟動gerapy服務,預設在8000埠。
程式碼:gerapy runserver
在這裡插入圖片描述
6.開啟瀏覽器,輸入:http://localhost:8000,可以看到 Gerapy 的主介面。
在這裡插入圖片描述
7.完成以上步驟,說明gerapy初始化成功了。但是現在還沒有新增主機和專案,所有的主機數量和專案數量都是0。

三、配置gerapy的主機(伺服器地址,也就是將來爬蟲專案上傳的主機地址,localhost:6800)

  1. 點選左側 Clients 選項卡,即主機管理頁面,新增我們的 Scrapyd 遠端服務,點選右上角的建立按鈕即可新增我們需要管理的 Scrapyd 服務。
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    2.在cmd中,開啟scrapyd服務。(如果scrapyd在遠端伺服器上已經部署成功了,那麼是不需要再次進行開啟的。一般遠端伺服器上的scrapyd會一直保持執行狀態。)
    3.再次重新整理主機管理,scrapyd的連線狀態變成normal即可。
    在這裡插入圖片描述
    四、在gerapy中部署爬蟲專案
  2. 點選左側的 Projects ,即專案管理選項。
    在這裡插入圖片描述
    2.將自己的爬蟲專案,拷貝到gerapy目錄下的projects目錄下
    在這裡插入圖片描述
    3.重新整理瀏覽器頁面,我們便可以看到 Gerapy 檢測到了這個專案。
    在這裡插入圖片描述

    4.點選部署按鈕進行打包和部署,在右下角我們可以輸入打包時的描述資訊,類似於 Git 的 commit 資訊,然後點選打包按鈕,即可發現 Gerapy 會提示打包成功,同時在左側顯示打包的結果和打包名稱。
    在這裡插入圖片描述
    5.開始打包
    在這裡插入圖片描述
    6.打包完成以後,開始將爬蟲專案部署到scrapyd服務上。
    在這裡插入圖片描述
    五、開始排程爬蟲,檢測爬蟲的執行狀態。
    1.部署完畢之後就可以回到 “主機管理”頁面進行任務‘排程’。
    在這裡插入圖片描述
    2.選擇要執行的爬蟲專案。
    在這裡插入圖片描述
    3.檢視執行結果。
    在這裡插入圖片描述