1. 程式人生 > >防止爬蟲被反幾個常見策略

防止爬蟲被反幾個常見策略

  • 動態設定User-Agent(隨機切換User-Agent,模擬不同使用者的瀏覽器資訊)

  • 禁用Cookies(也就是不啟用cookies middleware,不向Server傳送cookies,有些網站通過cookie的使用發現爬蟲行為)

    • 可以通過COOKIES_ENABLED 控制 CookiesMiddleware 開啟或關閉
  • 設定延遲下載(防止訪問過於頻繁,設定為 2秒 或更高)

  • Google Cache 和 Baidu Cache:如果可能的話,使用谷歌/百度等搜尋引擎伺服器頁面快取獲取頁面資料。

  • 使用IP地址池:VPN和代理IP,現在大部分網站都是根據IP來ban的。

  • 使用 Crawlera(專用於爬蟲的代理元件),正確配置和設定下載中介軟體後,專案所有的request都是通過crawlera發出。