1. 程式人生 > >Python 爬蟲-Robots協議

Python 爬蟲-Robots協議

spa eight gen 網絡 width 次數 image 審查 www

2017-07-25 21:08:16

一、網絡爬蟲的規模

技術分享

二、網絡爬蟲的限制

? 來源審查:判斷User‐Agent進行限制
  檢查來訪HTTP協議頭的User‐Agent域,只響應瀏覽器或友好爬蟲的訪問
? 發布公告:Robots協議
  告知所有爬蟲網站的爬取策略,要求爬蟲遵守

三、Robots 協議

作用:網站告知網絡爬蟲哪些頁面可以抓取,哪些不行
形式:在網站根目錄下的robots.txt文件

如果網站不提供Robots協議則表示該網站允許任意爬蟲爬取任意次數。

類人類行為原則上可以不遵守Robots協議

https://www.baidu.com/robots.txt
http://news.sina.com.cn/robots.txt

舉例:

https://www.jd.com/robots.txt

User‐agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User‐agent: EtaoSpider
Disallow: /
User‐agent: HuihuiSpider
Disallow: /
User‐agent: GwdangSpider
Disallow: /
User‐agent: WochachaSpider
Disallow: /

# 註釋,*代表所有,/代表根目錄
User‐agent: *
Disallow: /

Python 爬蟲-Robots協議