1. 程式人生 > >scrapyd部署爬蟲專案所需配置

scrapyd部署爬蟲專案所需配置

    scrapyd部署爬蟲專案

1,安裝scrapy包      pip install scrapyd

在終端輸入scrapyd  檢視是否成功  所在埠為6800即為成功(建議不要將這個關掉,後面需要這個服務,關掉會連線不到主機)

 在瀏覽器上輸入127.0.0.1::6800  檢視

 點選jobs即為爬蟲內容

 當有爬蟲檔案執行時,jobs會顯示爬蟲的動態

2,在1非c盤下建立一個資料夾例如spiderTest,進入該資料夾shitf加滑鼠右鍵,開啟命令列工具,輸入scrapyd執行

執行完之後會發現裡面多一個dbs資料夾,是用來存放爬蟲專案的資料檔案

3,安裝scrapyd-client  推薦安裝1.1.0版本,安裝完之後,在Python資料夾(該資料夾的位置就是安裝Python的位置)中會出現

scrapyd-deploy無後綴檔案,此檔案無法執行,需要新建一個scapyd-deploy.bat檔案並在裡面新增內容,如下

 

 上面的路徑為安裝的Python路徑 必須修改為自己的路徑,其他不變

4,進入到你的爬蟲專案中,進入帶有scrapy.cfg檔案的目錄,開啟命令列  輸入scrapyd-deploy

出現如下效果即為正常

 5,修改scrapy.cfg檔案內容

開啟該檔案,設定部署名稱,並將url這行程式碼解註釋

 ,5,執行scrapy-deploy - l    可以看到設定的名稱,與上圖對應

 6,在打包開始前  輸入scrapyd list  執行結果為爬蟲檔名   如果這個命令成功了  說明可以成工打包

注意執行該命令有可能出現錯誤,如果Python無法找到scrapy專案,需要在scrapy專案裡的  settings配置檔案裡設定成Python可識別路徑

# 將當前專案的一級目錄TotalSpider目錄新增到python可以識別目錄中

BASE_DIR = os.path.dirname(os.path.abspath(os.path.dirname(__file__)))

sys.path.insert(0, os.path.join(BASE_DIR, TotalSpider(專案名稱)”))

如果錯誤提示,什麼遠端計算機拒絕,說明你的scrapy專案有連結遠端計算機,如連結資料庫或者elasticsearch(搜尋引擎)之類的,需要先將連結伺服器啟動

執行 scrapy list  命令返回了爬蟲名稱說明一切ok了,如下圖

 7,到此為止我們可以開始打包scrapy專案到scrapyd

執行打包命令: scrapyd-deploy 部署名稱 -p 專案名稱

如:scrapyd-deploy wj(scrapy.cfg中設定的名字) -p TotalSpider(同理)

如下顯示錶示scrapy專案打包成功

 執行

curl http://localhost:6800/schedule.json -d project=專案名稱 -d spider=爬蟲名稱

執行後,如果出現下圖則表示成功

 此時  去網頁檢視狀態127.0.0.1:6800

 框內為正在爬蟲的程式碼,下面是已經結束的爬蟲

以上即是scrapyd爬蟲部署配置!