1. 程式人生 > >筆記十六:“點點點”就能做到的一款分散式爬蟲管理框架——Gerapy

筆記十六:“點點點”就能做到的一款分散式爬蟲管理框架——Gerapy

       前言:在上兩篇部落格中,我們解決了大量資訊的爬取問題分散式爬蟲,用scrapy_redis把專案分別部署放到多個遠端伺服器上,提高了爬取資料的速度。又做到了使用scrapyd,在遠端伺服器上安裝scrapyd,啟動scrapyd服務,把scrapy專案通過scrapyd打包上傳到遠端服務主機上,然後我們就可以通過請求scrapyd提供的各種API去控制爬蟲專案的執行、停止或刪除等操作!

      但是尼,如果不是程式設計師想要執行這個爬蟲專案或者說控制爬蟲專案,我們難道還要一步一步教他們去寫執行程式碼部署爬蟲專案去啟動服務等他們感覺複雜難懂的操作?(可能還要講清楚每一步是幹嘛)  當然我們拒絕這樣乾的,所以又出現了一個即使不懂程式碼的小夥伴,但是通過“點點點”也能控制爬蟲專案的服務框架——Gerapy

你想問什麼是“點點點”?  就是你只要懂點計算機基礎,會稍微懂點電腦,點點按鈕,網頁裡點點這點點那,就能控制爬蟲專案。

沒錯,就是這麼方便,就像是白痴框架一樣,一條龍服務……

首次尼,Gerapy 是一款分散式爬蟲管理框架,支援 Python 3,基於 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API等,Gerapy 可以幫助我們:更方便的控制爬蟲執行,更直觀的檢視爬蟲狀態,實時的檢視爬去結果,簡單的實現專案部署,統一的實現主機管理,甚至可以幫我們編寫爬蟲程式碼!接下來,我就簡單的介紹一下我們gerapy的安裝使用

1:下載gerapy包:pip install gerapy   (當然如果是用的python虛擬環境,需要先進入虛擬環境,再進行下載包)

2:隨意在c盤或者d盤(甚至是桌面)建立一個檔案,檔名最好見名知意,我們這個檔案是用來存放gerapy裡的專案或者日誌等資訊檔案,所以名字例如:gerapy_spider,在檔案裡按住shift鍵右鍵進入cdm命令框,然後進行gerapy初始化,命令為:gerapy init  

然後檔案裡會多一個gerapy資料夾,繼續在剛剛開啟的cmd裡進入gerapy,命令:cd gerapy   然後我們建立資料庫:gerapy migrate   然後就是如下檔案內容:

 3:然後我們就可以啟動gerapy了,命令:gerapy runserver   然後就會出現如下畫面,並且顯示的有服務網頁埠8000。

4:那我們就訪問這個服務ip,在網頁中輸入127.0.0.1:8000  然後會出現如下畫面,預設的是英文介面,英文不好的右上角可以裝換為中文 ,然後如下所示,可以顯示連線服務成功的有幾個,失敗的有幾個,專案有幾個,我們自己要部署專案上去,首先要建立本地的,所以如下第二個圖,在主機管理裡面點選右上角的“建立”,出現第三個圖,填寫連線名稱,地址,埠,然後點選建立,顯示成功後,重新整理頁面即首頁會顯示有連線成功的主機有一個

 5:接著我們需要把專案放在這上面,只需要把我們的專案目錄整體複製到我們第三步驟建立的projects資料夾裡,如下所示,

然後再重新重新整理我們的頁面,專案管理裡面就會出現我們剛剛放進projects裡的專案(也可以點選右上角建立,會自己生成基本程式碼):

 6:專案就可以直接通過點點來運行了,首先先將專案部署到你需要執行的電腦上,當然分散式的就是第四步中,可以和其他電腦建立連線,然後把專案部署到連線的多個電腦上,點選上圖中的deploy即部署,然後進入新的頁面,選中你把專案打包上的連線的,然後填寫描述,點選打包,打包後點擊右上角的部署,出現打包和部署成功才算成功!當然可以點開連線檢視專案是否上傳成功!

 

7:最後可以進入連線檢視自己的部署上去的專案,點選執行,下面就會有日誌出現,也可以停止,如下圖:

所以說,這個gerapy是非常方便的,通過把gerapy啟動,然後拖到peoject資料夾裡,進行打包部署到連線上,最後執行結束。

上述純屬初學者的我總結整理的,如有錯誤,請在評論區指教,謝謝!