1. 程式人生 > >爬蟲:模擬瀏覽器對網站內容進行爬取

爬蟲:模擬瀏覽器對網站內容進行爬取

對於一些保護比較好的網站,他能識別你是用requests庫對其進行訪問,所以有些網站會禁止你用python對其進行訪問

所以我們可以修改傳送給網站的頭部資訊,偽造瀏覽器對網站進行訪問

檢視我們傳送給網站的頭部資訊:r.request.headers

kv={'user-agent':'Mozilla/5.0'}     // 修改訪問的user-agent資訊

url="你要爬取的網站的連結"

r=requests.get(url,headers=kv)  //修改你訪問傳送過去的headers