1. 程式人生 > >【Python3 爬蟲】06_robots.txt查看網站爬取限制情況

【Python3 爬蟲】06_robots.txt查看網站爬取限制情況

使用 mage none logs HR python3 clas 分享 處理

大多數網站都會定義robots.txt文件來限制爬蟲爬去信息,我們在爬去網站之前可以使用robots.txt來查看的相關限制信息

例如:

我們以【CSDN博客】的限制信息為例子

在瀏覽器輸入:https://blog.csdn.net/robots.txt

獲取到信息如下:

技術分享圖片

從上圖我們可以看出:

①該網站無論用戶使用哪種代理都允許爬取

②但是當爬取/css,/images…等鏈接的時候是禁止的

③我們可以看到還存在一個網址Sitemap,j具體解析如下:

網站提供的Sitemap文件(即網站地圖)可以幫助網站定位最新的內容,則無須爬取每一個網頁,雖然Sitemap文件提供了一種爬取網站的有效方式,但是我們仍然需要對其謹慎處理,因為該文件經常存在缺失,過期和不完整。

【Python3 爬蟲】06_robots.txt查看網站爬取限制情況