scrapy入門教程()Gerapy分散式爬蟲管理框架
一、介紹: Gerapy 是一款分散式爬蟲管理框架,支援 Python 3,基於 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 開發等。在爬蟲方面Gerapy 可以幫助我們:
①更方便地控制爬蟲執行 ②更直觀地檢視爬蟲狀態 ③更實時地檢視爬取結果 ④更簡單地實現專案部署 ⑥更統一地實現主機管理
二、gerapy的初始化配置: (1)啟動scrapyd服務 (1)安裝gerapy分散式爬蟲管理框架。命令pip install gerapy 此時,已經安裝成功了。
(7)完成以上步驟,說明gerapy初始化成功了。但是現在還沒有新增主機和專案,所有的主機數量和專案數量都是0。
三、gerapy管理介面的使用 配置gerapy的主機(服務,也就是將來爬蟲專案上傳的主機地址)
(1)點選左側 Clients 選項卡,即主機管理頁面,新增我們的 Scrapyd 遠端服務,點選右上角的建立按鈕即可新增我們需要管理的 Scrapyd 服務。 名稱可以隨便起。ip和埠為部署位置的ip和埠。
(2)在cmd中,開啟scrapyd服務。(如果scrapyd在遠端伺服器上已經部署成功了,那麼是不需要再次進行開啟的。一般遠端伺服器上的scrapyd會一直保持執行狀態。
(3)再次重新整理主機管理,scrapyd的連線狀態變成normal即可。 四、gerapy部署爬蟲專案 (1) 點選左側的 Projects ,即專案管理選項。 (2)將自己的爬蟲專案,拷貝到gerapy目錄下的projects目錄下。 (3)重新整理瀏覽器頁面,我們便可以看到 Gerapy 檢測到了這個專案。 (4)點選部署按鈕進行打包和部署,在右下角我們可以輸入打包時的描述資訊,類似於 Git 的 commit 資訊,然後點選打包按鈕,即可發現 Gerapy 會提示打包成功,同時在左側顯示打包的結果和打包名稱。 (5)此時,點選主機管理中的排程,即可啟動爬蟲以及關閉爬蟲,檢視日誌等。 (6)至此,gerapy的安裝和部署已全部實現。
五、可能有的疑問: Gerapy 與 scrapyd 有什麼關聯嗎?
①我們僅僅使用scrapyd是可以呼叫scrapy進行爬蟲,只是需要使用命令列開啟爬蟲 curl http://127.0.0.1:6800/schedule.json -d project=工程名 -d spider=爬蟲名 ②使用Greapy就是為了將使用命令列開啟爬蟲變成 “小手一點”。 我們在gerapy中配置了scrapyd後,不需要使用命令列,可以通過圖形化介面直接開啟爬蟲。