1. 程式人生 > >各大搜索引擎蜘蛛名稱

各大搜索引擎蜘蛛名稱

1、百度蜘蛛:Baiduspider
網上的資料百度蜘蛛名稱有BaiduSpider、baiduspider等,都洗洗睡吧,那是舊黃曆了。百度蜘蛛最新名稱為Baiduspider。日誌中還發現了Baiduspider-image這個百度旗下蜘蛛,查了下資料(其實直接看名字就可以了……),是抓取圖片的蜘蛛。
常見百度旗下同型別蜘蛛還有下面這些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取圖片)、Baiduspider-video(抓取視訊)、Baiduspider-news(抓取新聞)。
注:以上百度蜘蛛目前常見的是Baiduspider和Baiduspider-image兩種。

2、谷歌蜘蛛:Googlebot
這個爭議較少,但也有說是GoogleBot的。谷歌蜘蛛最新名稱為“compatible; Googlebot/2.1;”。還發現了Googlebot-Mobile,看名字是抓取wap內容的。
3、360蜘蛛:360Spider,它是一個很“勤奮抓爬”的蜘蛛。
4、SOSO蜘蛛:Sosospider,也可為它頒一個“勤奮抓爬”獎的蜘蛛。
5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo! 
名稱中帶“Slurp”和空格,名稱有空格robots里名稱可以使用“Slurp”或者“Yahoo”單詞描述,不知道有效無效。
6、有道蜘蛛:YoudaoBot,YodaoBot(兩個名字都有,中文拼音少了個U字母讀音差別很大嘎,這都會少?)

7、搜狗蜘蛛:Sogou News Spider
搜狗蜘蛛還包括如下這些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,
(參考一些網站的robots檔案,搜狗蜘蛛名稱可以用Sogou概括,無法驗證不知道有沒有效)
看看最權威的百度的robots.txt ,http://www.baidu.com/robots.txt 就為Sogou搜狗蜘蛛費了不少位元組,佔了一大塊領地。
“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6個,名稱都帶空格。

線上常見"Sogou web spider/4.0" ;"Sogou News Spider/4.0" ;"Sogou inst spider/4.0" 可以為它頒個“佔名為王”獎。
8、MSN蜘蛛:msnbot,msnbot-media(只見到msnbot-media在狂爬……)
9、必應蜘蛛:bingbot 
線上(compatible; bingbot/2.0;)
10、一搜蜘蛛:YisouSpider
11、Alexa蜘蛛:ia_archiver
12、宜sou蜘蛛:EasouSpider
13、即刻蜘蛛:JikeSpider
14、一淘網蜘蛛:EtaoSpider
"Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)"
根據上述蜘蛛中選擇幾個常用的允許抓取,其餘的都可以通過robots遮蔽抓取。如果你暫時空間流量還足夠使用,等流量緊張了就保留幾個常用的遮蔽掉其它蜘蛛以節省流量。至於那些蜘蛛抓取對網站能帶來有利用的價值,網站的管理者眼睛是雪亮的。
另外還發現瞭如 YandexBot、AhrefsBot和ezooms.bot這些蜘蛛,據說這些蜘蛛國外噶,對中文網站用處很小。那不如就節省下資源。