1. 程式人生 > >基於Scrapy_redis部署scrapy分散式爬蟲

基於Scrapy_redis部署scrapy分散式爬蟲

1 . 使用命令列工具下載工具包 scrapy_redis 注意:要在自己使用的環境中下載安裝包 在這裡插入圖片描述 2. 使用pycharm開啟專案,找到settings檔案,配置scrapy專案使用的排程器及過濾器 在這裡插入圖片描述 3. 修改spider爬蟲檔案 在這裡插入圖片描述 4. 如果連線的有遠端服務,例如MySQL,Redis等,需要將遠端服務連線開啟,保證在其他主機上能夠成功連線。 如果redis想訪問遠端的redis伺服器,需要解除保護模式做法 1) 在遠端伺服器登入redis-cli 2) 輸入命令 config set protected-mode “no” 回車

5.如果連線不成功,可嘗試以下操作: 在這裡插入圖片描述在這裡插入圖片描述 6. 配置遠端連線的MySQL及redis地址 注意:為確保每一臺主機正常連線,要關掉防火牆在這裡插入圖片描述

  1. 總結: 分散式用到的程式碼是同一套程式碼 1) 先把專案配置為分散式 2) 把專案拷貝到多臺伺服器中 3) 把所有爬蟲專案都跑起來 4) 在主redis-cli中lpush你的網址即可 5) 效果:所有爬蟲都開始執行,並且資料還都不一樣