1. 程式人生 > >通過Robots.txt禁止搜尋引擎收錄的方法

通過Robots.txt禁止搜尋引擎收錄的方法

  • robots.txt檔案的格式
    "robots.txt"檔案包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:
    "<field>:<optionalspace><value><optionalspace>"。

    在該檔案中可以使用#進行註解,具體使用方法和UNIX中的慣例一樣。該檔案中的記錄通常以一行或多行User-agent開始,後面加上若干Disallow行,詳細情況如下:

    User-agent:
      該項的值用於描述搜尋引擎robot的名字,在"robots.txt"檔案中,如果有多條User-agent記錄說明有多個robot會受到該協議的限制,對該檔案來說,至少要有一條User-agent記錄。如果該項的值設為*,則該協議對任何機器人均有效,在"robots.txt"檔案中,"User-agent:*"這樣的記錄只能有一條。

    Disallow:
      該項的值用於描述不希望被訪問到的一個URL,這個URL可以是一條完整的路徑,也可以是部分的,任何以Disallow開頭的URL均不會被robot訪問到。例如"Disallow:/help"對/help.html 和/help/index.html都不允許搜尋引擎訪問,而"Disallow:/help/"則允許robot訪問/help.html,而不能訪問/help/index.html。任何一條Disallow記錄為空,說明該網站的所有部分都允許被訪問,在"/robots.txt"檔案中,至少要有一條Disallow記錄。如果"/robots.txt"是一個空檔案,則對於所有的搜尋引擎robot,該網站都是開放的。