Scrapy系列教程(6)------怎樣避免被禁
避免被禁止(ban)
有些網站實現了特定的機制,以一定規則來避免被爬蟲爬取。
與這些規則打交道並不easy,須要技巧,有時候也須要些特別的基礎。 假設有疑問請考慮聯系?商業支持?。
以下是些處理這些網站的建議(tips):
- 使用user agent池。輪流選擇之中的一個來作為user agent。
池中包括常見的瀏覽器的user agent(google一下一大堆)
- 禁止cookies(參考?COOKIES_ENABLED),有些網站會使用cookies來發現爬蟲的軌跡。
- 設置下載延遲(2或更高)。
參考?DOWNLOAD_DELAY?設置。
- 假設可行,使用?Google cache?來爬取數據,而不是直接訪問網站。
- 使用IP池。比如免費的?Tor項目?或付費服務(ProxyMesh)。
- 使用高度分布式的下載器(downloader)來繞過禁止(ban),您就僅僅須要專註分析處理頁面。這種樣例有:?Crawlera
Scrapy系列教程(6)------怎樣避免被禁
相關推薦
Scrapy系列教程(6)------怎樣避免被禁
order mil 設有 led ace set lin pac ont 避免被禁止(ban) 有些網站實現了特定的機制,以一定規則來避免被爬蟲爬取。 與這些規
spring cloud系列教程(6)--ribbon初步配置
給大家推薦個靠譜的公眾號程式設計師探索之路,大家一起加油 1.修改80消費者專案 1.1修改pom <!-- Ribbon相關 --> <dependency> <groupId>org.springframew
Django系列教程(6)-- HttpRequest物件和HttpResponse物件
HttpRequest物件 伺服器接收到http協議的請求後,會根據報文建立HttpRequest物件,然後將其傳遞給檢視函式 屬性 下列屬性中,除特殊說明都是隻讀的 path:一個字串,表示請求頁面的完整路徑,不包含域名 method:一個字串,表
Scrapy系列教程(3)------Spider(爬蟲核心,定義連結關係和網頁資訊抽取)
Spiders Spider類定義瞭如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進連結)以及如何從網頁的內容中提取結構化資料(爬取item)。 換句話說,Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。 對spider
Scrapy系列教程(2)------Item(結構化資料儲存結構)
擴充套件Item 您可以通過繼承原始的Item來擴充套件item(新增更多的欄位或者修改某些欄位的元資料)。 例如: class DiscountedProduct(Product): discount_percent = scrapy.Field(serializer=str) di
solr 6.2.0系列教程(二)IK中文分詞器配置及新增擴充套件詞、停止詞、同義詞
前言 2、solr的不同版本,對應不同版本的IK分詞器。由於IK 2012年停止更新了。所以以前的版本不適合新版的solr。 有幸在網上扒到了IK原始碼自己稍微做了調整,用來相容solr6.2.0版本。IK原始碼下載地址 步驟 1、解壓下載的src.rar壓縮包,這是我建
Scrapy網路爬蟲系列教程(一) | Scrapy爬蟲框架的開發環境搭建
本文主要介紹一下Scrapy爬蟲框架的開發環境搭建。主要有: Python的安裝,IDE的選擇,MySQL及Navicat的安裝,開發環境Virtualenv、Virtualenvwrapper的搭建以及Scrapy的安裝。 Pytho
Scrapy網路爬蟲系列教程(二)| 提取網頁上的內容
今天我們新建第一個爬蟲程式,爬取[伯樂線上]網站上一個網頁的內容。 建立專案 [按照上一篇文章所講的,你已經建好一個虛擬環境並安裝好了 scrapy] 首先,開啟控制檯,進入虛擬環境,輸入 scrapy startproject jobbole
GuozhongCrawler系列教程 (1) 三大PageDownloader
特點 string null 瀏覽器兼容 ror down odi 系列 lan GuozhongCrawler QQ群 202568714 教程源代碼下載地址:http://pan.baidu.com/s/1pJBmerL GuozhongCrawl
GuozhongCrawler系列教程 (5) TransactionRequest具體解釋
crawler 是個 回調 指定 ng- shc util line page 為了實現和維護並發抓取的屬性信息提供線程安全的事務請求。TransactionRequest是一個抽象類自己不能設置Processor,卻須要實現 TransactionCallBac
Python入門系列教程(二)
字符 小寫 無符號 bsp div width raw_input abc body 字符串 1.字符串輸出 name = ‘xiaoming‘ print("姓名:%s"%name) 2.字符串輸入 userName = raw_input(‘請輸
Python入門系列教程(五)函數
st3 python入門 test print 缺省 .com 教程 技術 log 全局變量 修改全局變量 a=100 def test(): global a a=200 print a 多個返回值 缺省參數 d
Zabbix實戰-簡易教程(6)--Server端高可用
then lock file timeout conf 腳本 secret oot rac div 3.4 server前端高可用 至此,單臺Zabbix server環境已經搭建完成,為了達到高可用效果,我們需要通過2臺服務器之間通過HA軟件進行探測,一旦檢測到主的
JXLS 2.4.0系列教程(二)——循環導出一個鏈表的數據
教程 super 最簡 com arraylist port 至少 ron mod 請務必先看上一篇文章,本文在上一篇文章的代碼基礎上修改而成。 JXLS 2.4.0系列教程(一)——最簡單的模板導出 上一篇文章我們介紹了JXLS和模板導出最簡單的應用,現在我們要更進一
JXLS 2.4.0系列教程(四)——多sheet是怎麽做到的
while director write 教程 == 模板 phy sheet ack 註:本文代碼在第一篇文章基礎上修改而成,請務必先閱讀第一篇文章。 http://www.cnblogs.com/foxlee1024/p/7616987.html 本文也不會過多的講解模
JXLS 2.4.0系列教程(四)——拾遺 如何做頁面小計
進行 line http spa shee shel nes 默認 閱讀 註:閱讀本文前,請先閱讀第四篇文章。 http://www.cnblogs.com/foxlee1024/p/7619845.html 前面寫了第四篇教程,發現有些東西忘了講了,這裏補
JXLS 2.4.0系列教程(五)——更進一步的應用和bug修復
erl dir 問題 create sna 過程 idl es2017 cal 註:本文代碼建立於前面寫的代碼。不過不看也不要緊。 前面的文章把JXLS 2.4.0 的基本使用寫了一遍,現在講講一些更進一步的使用方法。我只寫一些我用到過的方法,更多的高級使用方法請參
Linux系列教程(五)——Linux鏈接命令和權限管理命令
密碼 mission pos link 掩碼 Owner 最大的 linux系統 passwd 前一篇博客我們講解了Linux文件和目錄處理命令,還是老生常淡,對於新手而言,我們不需要完全記住命令的詳細語法,記住該命令能完成什麽功能,然後需要的時候去查就好了,用的多了我
Linux系列教程(六)——Linux文件搜索命令
www. 講解 -i linux鏈接 /tmp 任務 html 幫助文檔 大於 前一篇博客我們講解了Linux鏈接命令和權限管理命令, 通過 ln -s 鏈接名 表示創建軟鏈接,不加-s表示創建硬鏈接;還有三個更改權限的命令,chmod命令可以更改文件或目錄權限,ch
Linux系列教程(九)——Linux常用命令之網絡和關機重啟命令
route 註意 端口號 post rac pos 名稱 window ebo 前一篇博客我們講解了Linux壓縮和解壓縮命令,使用的最多的是tar命令,因為現在很多源碼包都是.tar.gz的格式,通過 tar -zcvf 能完成解壓。然後對於.zip格式的文件,使用g