1. 程式人生 > >爬取動態網頁中關於構造瀏覽器頭的註意事項

爬取動態網頁中關於構造瀏覽器頭的註意事項

rand 服務器 mage 地址 span gzip 原來 動態網頁 ati

在原來爬取動態網頁圖片中,獲取到了圖片的實際地址,但是下載下來的圖片是損壞的,究其原因,是服務器端阻止了訪問,但是觀察發現

headers = {User-Agent: random.choice(UserAgent_List),
           Accept: "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
           Accept-Encoding: gzip,
           }

瀏覽器頭已經構造好了。原因是什麽?

實際上,動態網頁是從原網頁指向圖片服務器的,所以在瀏覽器頭中需要加上原來的地址,偽造出是從瀏覽器跳轉的效果。

爬取動態網頁中關於構造瀏覽器頭的註意事項