1. 程式人生 > >一圖讓你明白爬蟲與反爬蟲手段

一圖讓你明白爬蟲與反爬蟲手段

爬蟲與發爬蟲的廝殺,一方為了拿到資料,一方為了防止爬蟲拿到資料,誰是最後的贏家?

重新理解爬蟲中的一些概念

爬蟲:自動獲取網站資料的程式
反爬蟲:使用技術手段防止爬蟲程式爬取資料
誤傷:反爬蟲技術將普通使用者識別為爬蟲,這種情況多出現在封ip中,例如學校網路、小區網路再或者網路網路都是共享一個公共ip,這個時候如果是封ip就會導致很多正常訪問的使用者也無法獲取到資料。所以相對來說封ip的策略不是特別好,通常都是禁止某ip一段時間訪問。
成本:反爬蟲也是需要人力和機器成本
攔截:成功攔截爬蟲,一般攔截率越高,誤傷率也就越高

反爬蟲的目的

初學者寫的爬蟲:簡單粗暴,不管對端伺服器的壓力,甚至會把網站爬掛掉了

資料保護:很多的資料對某些公司網站來說是比較重要的不希望被別人爬取

商業競爭問題:這裡舉個例子是關於京東和天貓,假如京東內部通過程式爬取天貓所有的商品資訊,從而做對應策略這樣對天貓來說就造成了非常大的競爭

爬蟲與反爬蟲大戰

上有政策下有對策,下面整理了常見的爬蟲大戰策略