1. 程式人生 > >robots協議

robots協議

一個 後綴 第一個 reference gen require 站點 連接 人類

Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協議的本質是網站和搜索引擎爬蟲的溝通方式,用來指導搜索引擎更好地抓取網站內容,而不是作為搜索引擎之間互相限制和不正當競爭的工具。

obots.txt文件是一個文本文件,使用任何一個常見的文本編輯器,比如Windows系統自帶的Notepad,就可以創建和編輯它[2]。robots.txt是一個協議,而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什麽文件是可以被查看的。

當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的範圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。百度官方建議,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。

如果將網站視為酒店裏的一個房間,robots.txt就是主人在房間門口懸掛的“請勿打擾”或“歡迎打掃”的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀,哪些房間因為存放貴重物品,或可能涉及住戶及訪客的隱私而不對搜索引擎開放。但robots.txt不是命令,也不是防火墻,如同守門人無法阻止竊賊等惡意闖入者。

Robots協議是國際互聯網界通行的道德規範,基於以下原則建立:

1、搜索技術應服務於人類,尊重信息提供者的意願,並維護其隱私權;

2、網站有義務保護其使用者的個人信息和隱私不被侵犯。Robots協議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取;可以屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節省服務器帶寬;可以屏蔽站點的一些死鏈接。方便搜索引擎抓去網站內容;設置網站地圖連接,方便引導蜘蛛爬取頁面。

  • 1、robots.txt可以告訴百度您網站的哪些頁面可以被抓取,哪些頁面不可以被抓取。
  • 2、您可以通過Robots工具來創建、校驗、更新您的robots.txt文件,或查看您網站robots.txt文件在百度生效的情況。
  • 3、Robots工具暫不支持https站點。
  • 4、Robots工具目前支持48k的文件內容檢測,請保證您的robots.txt文件不要過大,目錄最長不超過250個字符。

    User-agent: * 這裏的*代表的所有的搜索引擎種類,*是一個通配符

    Disallow: /admin/ 這裏定義是禁止爬尋admin目錄下面的目錄 

    Disallow: /require/ 這裏定義是禁止爬尋require目錄下面的目錄 

    Disallow: /ABC/ 這裏定義是禁止爬尋ABC目錄下面的目錄 

    Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。 

    Disallow: /*?* 禁止訪問網站中所有的動態頁面 

    Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片 

    Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。 

    Allow: /cgi-bin/ 這裏定義是允許爬尋cgi-bin目錄下面的目錄 

    Allow: /tmp 這裏定義是允許爬尋tmp的整個目錄 

    Allow: .htm$ 僅允許訪問以".htm"為後綴的URL。 

    Allow: .gif$ 允許抓取網頁和gif格式圖片

robots協議