1. 程式人生 > >python爬蟲之豆瓣圖片(二)

python爬蟲之豆瓣圖片(二)

偽裝瀏覽器

  • 對與一些需要登入的網站,如果不是從六七發出的請求,則得不到響應。所以,我們需要將爬蟲程式法出請求偽裝成瀏覽器正規軍
  • 具體實現:自定義網頁請求報頭(詳細介紹)

使用Fiddle檢視請求和響應報頭

  • 開啟下載好的工具Fiddler,然後在瀏覽器訪問“https://www.douban.com/”,在Fiddle左側訪問記錄中,找到“200 HTTP www.douban.com”這一條,點選檢視對應的請求和響應報頭的具體內容,截圖如下:

訪問豆瓣

通過自定義請求報頭與上圖的Request Headers相同內容:

 import urllib.request
 #定義儲存檔案的函式
 def saveFile(data):
 path="E:\\python\\douban.out"
 f=open(path,'wb')
 f.write(data)
 f.colse()
 #網址
 url="https://www.douban.com/"
 headers={'User-Agent': 'Mozilla/5.0  (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/62.0.3202.62 Safari/537.36'}
 req=urllib.request.Request(url=url,headers=headers)
 res=urllib.request.urlopen(req)
 data=res.read()
 #把爬去的內容儲存到檔案中
 saveFile(data)
 data=data.decode('utf-8')
 #打印出抓取的內容
 print(data)
 #列印各類資訊
 print(type(res))
 print(res.geturl())
 print(res.info())
 print(res.getcode())