python網路爬蟲與資訊提取（四）Robots協議

阿新 • • 發佈：2019-01-09

Robots協議例項一京東例項二亞馬遜

緒論網路爬蟲引發的問題

1、網路爬蟲的尺寸

爬取網頁 Requests庫
爬取網站 Scrapy庫
爬取全網建立搜尋引擎

2、網路爬蟲引發的問題

1.伺服器效能騷擾
2.法律風險
3.洩露隱私

3、網路爬蟲的限制

來源審查：判斷User-Agent進行限制
檢查來訪HTTP協議頭的User-Agent域，只響應瀏覽器或友好爬蟲的訪問
釋出公告：
告知所有爬蟲網站的爬取策略，要求爬蟲遵守。

一、Robots協議

Robots Exclusion Standard 網路爬蟲排除標準

作用：網站告知網路爬蟲哪些頁面可以抓取，哪些不行。

形式：在網站根目錄下的robots。txt檔案

User-agent: *               #不可以爬取/？開頭的網頁  等等……
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider      #以下四種spider為惡意爬蟲，不可以爬任何網頁
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

注：Robots協議基本語法

# 註釋 *代表所有 /代表根目錄

二、Robots協議的遵守方式

1.Robots協議的使用

網路爬蟲：自動或人工識別robots.txt，再進行內容爬取。

約束性：Robots協議是建議但非約束性，可不遵守，但存在法律風險。

2.對Robots協議的理解

結合網路爬蟲尺寸，尺寸越大，越要遵守，防範法律風險。

類人行為可不遵守，閱讀頻率小，一次瀏覽內容少，注意不可用於商業用途。

>>> r = requests.get("https://item.jd.com/6946605.html")
>>> r.status_code
200
>>> r.encoding
'gbk'
>>> r.text[:1000]   #取網頁前1000個字元
'<!DOCTYPE HTML>\n<html lang="zh-CN">\n<head>\n    <!-- shouji -->\n    <meta http-equiv="Content-Type" content="text/html; charset=gbk" />\n    <title>【華為P20】華為 HUAWEI P20  AI智慧全面屏 6GB +64GB 亮黑色 全網通版 移動聯通電信4G手機 雙卡雙待【行情 報價 價格 評測】-京東</title>\n    <meta name="keywords" content="HUAWEIP20,華為P20,華為P20報價,HUAWEIP20報價"/>\n    <meta name="description" content="【華為P20】京東JD.COM提供華為P20正品行貨，幷包括HUAWEIP20網購指南，以及華為P20圖片、P20引數、P20評論、P20心得、P20技巧等資訊，網購華為P20上京東,放心又輕鬆" />\n    <meta name="format-detection" content="telephone=no">\n    <meta http-equiv="mobile-agent" content="format=xhtml; url=//item.m.jd.com/product/6946605.html">\n    <meta http-equiv="mobile-agent" content="format=html5; url=//item.m.jd.com/product/6946605.html">\n    <meta http-equiv="X-UA-Compatible" content="IE=Edge">\n    <link rel="canonical" href="//item.jd.com/6946605.html"/>\n        <link rel="dns-prefetch" href="//misc.360buyimg.com"/>\n    <link rel="dns-prefetch" href="//static.360buyimg.com"/>\n    <link rel="dns-prefetch" href="//img10.36'

例項一：爬取京東商品網頁

>>> import requests
>>> url = "https://item.jd.com/6946605.html"
>>> try:
    r = requests.get(url)
    r.raise_for_status()           #此函式返回200不產生異常，否則產生異常
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失敗")
#上為網路爬蟲程式碼框架
    
<!DOCTYPE HTML>
<html lang="zh-CN">
<head>
    <!-- shouji -->
    <meta http-equiv="Content-Type" content="text/html; charset=gbk" />
    <title>【華為P20】華為 HUAWEI P20  AI智慧全面屏 6GB +64GB 亮黑色 全網通版 移動聯通電信4G手機 雙卡雙待【行情 報價 價格 評測】-京東</title>
    <meta name="keywords" content="HUAWEIP20,華為P20,華為P20報價,HUAWEIP20報價"/>
    <meta name="description" content="【華為P20】京東JD.COM提供華為P20正品行貨，幷包括HUAWEIP20網購指南，以及華為P20圖片、P20引數、P20評論、P20心得、P20技巧等資訊，網購華為P20上京東,放心又輕鬆" />
    <meta name="format-detection" content="telephone=no">
    <meta http-equiv="mobile-agent" content="format=xhtml; url=//item.m.jd.com/product/6946605.html">

例項二：亞馬遜商品頁

>>> r = requests.get("www.amazon.cn/gp/product/B01M8L5Z3Y")
>>> r.status_code
503
>>>r.encoding
'ISO-8859-1'
>>>r.encoding = r.apparent_encoding
>>>print(r.text)
#出現錯誤 由於API造成  檢查head
>>>r.requests.headers
{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
#網站發現了python爬蟲的request請求，並拒絕了,利用headers控制引數修改user-agent
>>> kv = {'user-agent':'Mozilla/5.0'}											      
>>> url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"										
>>> r = requests.get(url,headers = kv)											      
>>> r.status_code											      
200
>>> r.request.headers											      
{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
>>> r.text[:1000]
											      
'\n\n\n\n\n\n\n\n  \n  \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n    \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n    \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n    \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n    <!doctype html><html class="a-no-js" data-19ax5a9jf="dingo">\n    <head>\n<script type="text/javascript">var ue_t0=ue_t0||+new Date();</script>\n<script type="text/javascript">\n\nvar ue_hob=+new Date();\nvar ue_id=\'DN1BM72NDXD7JV3A36YV\',\nue_csm = window,\nue_err_chan = \'jserr-rw\',\nue = {};\n(function(d){var e=d.ue=d.ue||{},f=Date.now||function(){return+new Date};e.d=function(b){return f()-(b?0:d.ue_t0)};e.stub=function(b,a){if(!b[a]){var c=[];b[a]=function(){c.push([c.slice.call(arguments),e.d(),d.ue_id])};b[a].replay=function(b){for(var a;a=c.shift();)b(a[0],a[1],a[2])};b[a].isStub=1}};e.exec=function(b,a){return function(){if(1==window.ueinit)try{return b.apply(this,arguments)}catch(c){ueLogError(c,{attribution:a||"undefined",logLevel:"WARN"})}}}})(ue_csm);\n\nue.stub(ue,"log");ue.stub(ue,"onunload");ue.stub(ue,"onflush");\n\n(function(d,e){function h(f,b){if(!(a.ec>a.mxe)&&f){a.ter.'

爬蟲程式碼框架

>>> import requests
>>> url = "https://item.jd.com/6946605.html"
>>> try:
    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url,headers = kv)
    r.raise_for_status() 
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失敗")

例項三：百度360搜尋關鍵詞

python網路爬蟲與資訊提取（四）Robots協議

Robots協議例項一京東例項二亞馬遜緒論網路爬蟲引發的問題1、網路爬蟲的尺寸爬取網頁 Requests庫爬取網站 Scrapy庫爬取全網建立搜尋引擎2、網路爬蟲引發的問題1.伺服器效能騷擾2.法律風險3.洩露隱私3、網路爬蟲的限制來源審查：判斷User-Agent

Python網路爬蟲與資訊提取（三）bs4入門

Python的requests庫可以幫助我們獲取到大量的資訊，而如果想對這些資訊進行提取與分析，則經常使用beautifulsoup這個用來解析HTML和XML格式的功能庫。 beautifulsoup庫的安裝和requests的流方法一樣，可直接在cmd中輸入pip

Python網路爬蟲與資訊提取（五）資訊標記與資訊提取的一般方法

目前國際公認的資訊標記種類共有如下三種：名稱方式例項XML(eXtensible Markup Language)基於HTML的用有名稱與屬性的標籤進行標記的方式<name>...</name> <name /> <!-

Python網路爬蟲與資訊提取（中國大學mooc）

目錄 Python網路爬蟲與資訊提取淘寶商品比價定向爬蟲股票資料定向爬蟲 1. 淘寶商品比價定向爬蟲功能描述目標：獲取淘寶搜尋頁面的資訊理解：淘寶的搜尋介面翻頁的處理技術路線：requests

Python網路爬蟲與資訊提取_爬蟲例項（學習筆記）

慕課課程學習筆記 1. 京東商品頁面的爬取 1.採用get()方法，獲取Response物件； import requests url = 'https://item.jd.com/100000947807.html' r = requests.get(url)

Python網路爬蟲與資訊提取-Day14-（例項）股票資料定向爬蟲

功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊股票資料是進行量化交易的基礎型資料，此爬蟲也能為量化交易提供獲得基礎資料的方法輸出：儲存到檔案中技術路線：requests‐bs4‐re 候選資料網站的選擇百度股票：https://gupiao.baidu

Python網路爬蟲與資訊提取Day2

Python網路爬蟲與資訊提取一、導學掌握定向網路資料爬取和網頁解析的基本能力 1、Requests庫：自動爬取HTML頁面，自動向網路提交請求 2、robots.txt：網路爬蟲排除標準 3、Beautiful Soup庫：解析HTML頁面 4、Projects：實戰專案A/B 5、Re庫：正

Python網路爬蟲與資訊提取Day1

嵩天教授的Python網路爬蟲與資訊提取課程筆記——單元1. requests庫入門

本文目錄 Requests庫介紹 requests.get(url, params, **kwargs)方法及其他請求方法介紹 Response類屬性簡介 Reponse類中的encoding與app

【MOOC】Python網路爬蟲與資訊提取-北京理工大學-part 4

網路爬蟲之框架 1.scrapy爬蟲框架介紹 1.1.scrapy爬蟲框架介紹安裝方法：簡要地說，Scrapy不是一個函式功能庫，而是一個快速功能強大的網路爬蟲框架。（爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合，是一個半成品，

Python網路爬蟲與資訊提取-Day5-Requests庫網路爬取實戰

一、京東商品頁面的爬取先選取一個商品頁面直接利用之前的程式碼框架即可 import requests url = "https://item.jd.com/12186192.html" try: r = requests.get(url) r.raise_for

Python網路爬蟲與資訊提取-Day9-資訊標記與提取方法

一、資訊標記的三種形式我們需要對資訊進行表記，使得我們能夠理解資訊所反饋的真實含義。標記後的資訊可形成資訊組織結構，增加了資訊維度標記的結構與資訊一樣具有重要價值標記後的資訊可用於通訊、儲存或

【MOOC】Python網路爬蟲與資訊提取-北京理工大學-part 1

【第〇周】網路爬蟲之前奏網路爬蟲”課程內容導學【第一週】網路爬蟲之規則 1.Requests庫入門注意：中文文件的內容要稍微比英文文件的更新得慢一些，參考時需要關注兩種文件對應的Requests庫版本。（對於比較簡單的使

j記錄學習--python網路爬蟲與資訊提取

The website is the API...要獲取網站內容，只要把網站當成API就可以了。 requests庫獲取網頁資訊---》Beautiful Soup解析提取到資訊的內容---》利用re庫正則表示式提取其中某部分的關鍵資訊----》Scrapy*網路爬蟲網路

【MOOC】Python網路爬蟲與資訊提取-北京理工大學-part 3

【第三週】網路爬蟲之實戰一、Re(正則表示式)庫入門 1.正則表示式的概念 1.1正則表示式是什麼正則表示式是用來簡潔表達一組字串的表示式。使用正則表示式的優勢就是：簡潔、一行勝千言一行就是特徵(模式) 例1：代表一組字串：

【MOOC】Python網路爬蟲與資訊提取-北京理工大學-part 2

【第二週】網路爬蟲之提取 Beautiful Soup庫入門 Beautiful Soup庫的安裝與測試 <html><head><title>This is a python demo page<

Python 爬蟲基礎學習--網路爬蟲與資訊提取

Python 爬蟲基礎學習 Requests庫的安裝 Win平臺: “以管理員身份執行”cmd，執行 pip install requests Requests庫的7個主要的方法 Requests庫中2個重要的物件：Request和Response Response物件

python網路爬蟲與資訊採取之解析網頁（三）---- BeautifulSoup庫的導航樹例項

上篇我們講到了通過標籤的名稱和屬性來查詢標籤的findAll（),本篇將講解如何通過標籤在文件中的位置進行查詢------導航樹一篇文章，可以將其標籤分為子標籤，父標籤和兄弟標籤。而導航樹的功能就是

python網路爬蟲與資訊採取之解析網頁例項---oJ期末成績排名

目的:打印出排名，學號，姓名，成績；首先，開啟網頁的原始碼，如下：你會發現，很混亂，沒有層次感；不用急，告訴你一個小技巧，先使用 soup.prettify（）函式進行格式化一下，得到如下結果：這樣就好受多了；接下來對原始碼進行分析；你會想這麼多難道要一句句

python 網路爬蟲與資訊採取之異常處理

本篇文章轉自Ryan Mitchell 寫的python：網路資料採集網路是十分複雜的。網頁資料格式不友好，網站伺服器宕機，目標資料的標籤找不到，都是很麻煩的事情。網路資料採集最痛苦的遭遇之一，就是爬蟲執行的時候你洗洗睡了，夢想著明天一早資料就都會採集好放在

python網路爬蟲與資訊提取（四）Robots協議

Robots協議 例項一京東 例項二亞馬遜

緒論 網路爬蟲引發的問題

一、Robots協議

二、Robots協議的遵守方式

例項一：爬取京東商品網頁

例項二：亞馬遜商品頁

例項三：百度360搜尋關鍵詞

相關推薦

Robots協議例項一京東例項二亞馬遜

緒論網路爬蟲引發的問題