1. 程式人生 > >簡析爬蟲、反爬蟲、反反爬蟲之間的抗衡

簡析爬蟲、反爬蟲、反反爬蟲之間的抗衡

爬蟲的型別分為:通用型爬蟲、聚焦型爬蟲。

通用型爬蟲指的是搜尋引擎,

聚焦型爬蟲指的是針對哪家網站做針對性的爬取。

接下來分析一下其各自的手段和方法。

 

反爬手段:IP頻率限制,在一定時間內對伺服器發起較高頻率的網路請求的IP。

                  使用者資訊,需要使用者名稱密碼及驗證碼的驗證,

                  ajax非同步請求,頁面無重新整理

                  投毒型,要a給b

                  誘捕型,多層級儲存檔案

爬蟲:IP代理,IP池,降低頻率,模擬使用者資訊,模擬瀏覽器,

 

由爬蟲引出的反爬蟲、反反爬蟲之間不僅是各大公司財力的抗衡,也是優秀的爬蟲工程師之間技術的較量,

robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網路爬蟲排除標準”       是個君子協議,內容寫的是哪些資訊可以爬取,哪些資訊不可以爬取,爬蟲工程師根據自己意願選擇是否遵守