robots協議

阿新 • • 發佈：2017-08-12

一個後綴第一個 reference gen require 站點連接人類

Robots協議（也稱為爬蟲協議、機器人協議等）的全稱是“網絡爬蟲排除標準”（Robots Exclusion Protocol），網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。Robots協議的本質是網站和搜索引擎爬蟲的溝通方式，用來指導搜索引擎更好地抓取網站內容，而不是作為搜索引擎之間互相限制和不正當競爭的工具。

obots.txt文件是一個文本文件，使用任何一個常見的文本編輯器，比如Windows系統自帶的Notepad，就可以創建和編輯它[2]。robots.txt是一個協議，而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什麽文件是可以被查看的。

當一個搜索蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內容來確定訪問的範圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。百度官方建議，僅當您的網站包含不希望被搜索引擎收錄的內容時，才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容，請勿建立robots.txt文件。

如果將網站視為酒店裏的一個房間，robots.txt就是主人在房間門口懸掛的“請勿打擾”或“歡迎打掃”的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀，哪些房間因為存放貴重物品，或可能涉及住戶及訪客的隱私而不對搜索引擎開放。但robots.txt不是命令，也不是防火墻，如同守門人無法阻止竊賊等惡意闖入者。

Robots協議是國際互聯網界通行的道德規範，基於以下原則建立：

1、搜索技術應服務於人類，尊重信息提供者的意願，並維護其隱私權；

2、網站有義務保護其使用者的個人信息和隱私不被侵犯。Robots協議用來告知搜索引擎哪些頁面能被抓取，哪些頁面不能被抓取；可以屏蔽一些網站中比較大的文件，如：圖片，音樂，視頻等，節省服務器帶寬；可以屏蔽站點的一些死鏈接。方便搜索引擎抓去網站內容；設置網站地圖連接，方便引導蜘蛛爬取頁面。

1、robots.txt可以告訴百度您網站的哪些頁面可以被抓取，哪些頁面不可以被抓取。
2、您可以通過Robots工具來創建、校驗、更新您的robots.txt文件，或查看您網站robots.txt文件在百度生效的情況。

3、Robots工具暫不支持https站點。
4、Robots工具目前支持48k的文件內容檢測，請保證您的robots.txt文件不要過大，目錄最長不超過250個字符。
User-agent: * 這裏的*代表的所有的搜索引擎種類，*是一個通配符

Disallow: /admin/ 這裏定義是禁止爬尋admin目錄下面的目錄　

Disallow: /require/ 這裏定義是禁止爬尋require目錄下面的目錄　

Disallow: /ABC/ 這裏定義是禁止爬尋ABC目錄下面的目錄　

Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。　

Disallow: /*?* 禁止訪問網站中所有的動態頁面　

Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片　

Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。　

Allow: /cgi-bin/　這裏定義是允許爬尋cgi-bin目錄下面的目錄　

Allow: /tmp 這裏定義是允許爬尋tmp的整個目錄　

Allow: .htm$ 僅允許訪問以".htm"為後綴的URL。　

Allow: .gif$ 允許抓取網頁和gif格式圖片

robots協議

robots協議

Python 爬蟲-Robots協議

robots協議

Python爬蟲的道德規範---robots協議

python 網路爬蟲的Robots協議

requests 庫 & robots 協議

爬蟲Robots協議

urllib庫:分析Robots協議

crawler4j原始碼分析（五）Robots協議

python網路爬蟲與資訊提取（四）Robots協議

爬蟲分析Robots協議

python爬蟲學習筆記1：requests庫及robots協議

爬蟲協議robots

dedecms:解析Robots.txt 協議標準

robots.txt 禁止收錄協議的寫法

Mqtt協議IOS端移植2

【轉載】TCP協議狀態簡介

視頻rtmp協議簡介

telnet遠程登錄協議

TCP/UDP協議

(轉存作者未知)深入理解HTML協議

robots協議

相關推薦