scrapyd部署爬蟲專案所需配置
scrapyd部署爬蟲專案
1,安裝scrapy包 pip install scrapyd
在終端輸入scrapyd 檢視是否成功 所在埠為6800即為成功(建議不要將這個關掉,後面需要這個服務,關掉會連線不到主機)
在瀏覽器上輸入127.0.0.1::6800 檢視
點選jobs即為爬蟲內容
當有爬蟲檔案執行時,jobs會顯示爬蟲的動態
2,在1非c盤下建立一個資料夾例如spiderTest,進入該資料夾shitf加滑鼠右鍵,開啟命令列工具,輸入scrapyd執行
執行完之後會發現裡面多一個dbs資料夾,是用來存放爬蟲專案的資料檔案
3,安裝scrapyd-client 推薦安裝1.1.0版本,安裝完之後,在Python資料夾(該資料夾的位置就是安裝Python的位置)中會出現
scrapyd-deploy無後綴檔案,此檔案無法執行,需要新建一個scapyd-deploy.bat檔案並在裡面新增內容,如下
上面的路徑為安裝的Python路徑 必須修改為自己的路徑,其他不變
4,進入到你的爬蟲專案中,進入帶有scrapy.cfg檔案的目錄,開啟命令列 輸入scrapyd-deploy
出現如下效果即為正常
5,修改scrapy.cfg檔案內容
開啟該檔案,設定部署名稱,並將url這行程式碼解註釋
,5,執行scrapy-deploy - l 可以看到設定的名稱,與上圖對應
6,在打包開始前 輸入scrapyd list 執行結果為爬蟲檔名 如果這個命令成功了 說明可以成工打包
注意執行該命令有可能出現錯誤,如果Python無法找到scrapy專案,需要在scrapy專案裡的 settings配置檔案裡設定成Python可識別路徑
# 將當前專案的一級目錄TotalSpider目錄新增到python可以識別目錄中
BASE_DIR = os.path.dirname(os.path.abspath(os.path.dirname(__file__)))
sys.path.insert(0, os.path.join(BASE_DIR, “TotalSpider(專案名稱)”))
如果錯誤提示,什麼遠端計算機拒絕,說明你的scrapy專案有連結遠端計算機,如連結資料庫或者elasticsearch(搜尋引擎)之類的,需要先將連結伺服器啟動
執行 scrapy list 命令返回了爬蟲名稱說明一切ok了,如下圖
7,到此為止我們可以開始打包scrapy專案到scrapyd
執行打包命令: scrapyd-deploy 部署名稱 -p 專案名稱
如:scrapyd-deploy wj(scrapy.cfg中設定的名字) -p TotalSpider(同理)
如下顯示錶示scrapy專案打包成功
執行
curl http://localhost:6800/schedule.json -d project=專案名稱 -d spider=爬蟲名稱
執行後,如果出現下圖則表示成功
此時 去網頁檢視狀態127.0.0.1:6800
框內為正在爬蟲的程式碼,下面是已經結束的爬蟲
以上即是scrapyd爬蟲部署配置!