1. 程式人生 > >6-Python爬蟲-分散式爬蟲/Redis

6-Python爬蟲-分散式爬蟲/Redis

分散式爬蟲

  • 單機爬蟲的問題:
    • 單機效率
    • IO吞吐量
  • 多爬蟲問題
    • 資料共享
    • 在空間上不同的多臺機器,可以成為分散式
  • 需要做:
    • 共享佇列
    • 去重
  • Redis
    • 記憶體資料庫
    • 同時可以落地儲存到硬碟
    • 可以去重
    • 可以把他理解成一共dict,set,list的集合體
    • 可以對儲存的內容進行生命週期控制
  • 內容儲存資料庫
    • MongoDB
    • Mysql等傳統關係資料庫
  • 安裝scrapy_redis
    • pip install scrapy_reids
    • github.com/rolando/scrapy-redis
    • scrapy-redis.readthedocs.org

推薦書籍

  • Python爬蟲開發與專案實戰, 範傳輝, 機械工業出版社
  • 精通 python爬蟲框架scrapy, 李斌 翻譯, 人民郵電出版社
  • 崔慶才,