1. 程式人生 > >Scrapy系列教程(6)------怎樣避免被禁

Scrapy系列教程(6)------怎樣避免被禁

order mil 設有 led ace set lin pac ont

避免被禁止(ban)

有些網站實現了特定的機制,以一定規則來避免被爬蟲爬取。

與這些規則打交道並不easy,須要技巧,有時候也須要些特別的基礎。 假設有疑問請考慮聯系?商業支持?。

以下是些處理這些網站的建議(tips):

  • 使用user agent池。輪流選擇之中的一個來作為user agent。

    池中包括常見的瀏覽器的user agent(google一下一大堆)

  • 禁止cookies(參考?COOKIES_ENABLED),有些網站會使用cookies來發現爬蟲的軌跡。

  • 設置下載延遲(2或更高)。

    參考?DOWNLOAD_DELAY?設置。

  • 假設可行,使用?Google cache?來爬取數據,而不是直接訪問網站。
  • 使用IP池。比如免費的?Tor項目?或付費服務(ProxyMesh)。
  • 使用高度分布式的下載器(downloader)來繞過禁止(ban),您就僅僅須要專註分析處理頁面。這種樣例有:?Crawlera

Scrapy系列教程(6)------怎樣避免被禁