1. 程式人生 > >python網路爬蟲四

python網路爬蟲四

實戰一,爬取京東商品


import requests

url = "https://item.jd.com/27217068296.html"

try:
    r = requests.get(url)
    r.raise_for_status()    #獲取爬取失敗異常
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失敗")

結果:

實戰二,爬取亞馬遜


  • URL更為複雜
  • 有一定的反爬蟲措施
import requests

url = "https://www.amazon.cn/dp/B07746N2J9/459-3461623-5096824?_encoding=UTF8&pf_rd_i=desktop&pf_rd_m=A1AJ19PSB66TGU&pf_rd_p=64065c3b-d3b2-4b04-b0ae-f565f28d2a3e&pf_rd_r=7W3EH45JP9MRMY040XR2&pf_rd_s=Tcg-slide-1&pf_rd_t=36701&ref_=p-Tcg-slide-1--cb755e89-28c8-4498-81e4-3ff3328e7310"

try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失敗")

結果:

  • 檢查狀態編碼和返回的資訊:

  • 可以從伺服器獲得資訊,說明不是網路的問題。可能是亞馬遜對網路爬蟲加以限制,所以我們來檢視我們給亞馬遜伺服器傳送請求的頭部資訊:
  • 請注意,伺服器返回給我們的頭部資訊用r.headers檢視,檢視我們給伺服器請求的頭部資訊要用r.request.headers來檢視:

  • 找到了問題所在,原來我們的程式很誠實的告訴了亞馬遜伺服器,我是一個python requests程式產生的訪問,所以被拒絕。
  • 所以我們要讓我們的程式模仿瀏覽器的訪問。沒錯,我們要用到可選欄位中的headers

  • 檢視我們給伺服器請求的頭部資訊:

  • 檢視返回的網頁資訊:

  • 貼出全部程式碼:
import requests

url = "https://www.amazon.cn/dp/B07746N2J9/459-3461623-5096824?_encoding=UTF8&pf_rd_i=desktop&pf_rd_m=A1AJ19PSB66TGU&pf_rd_p=64065c3b-d3b2-4b04-b0ae-f565f28d2a3e&pf_rd_r=7W3EH45JP9MRMY040XR2&pf_rd_s=Tcg-slide-1&pf_rd_t=36701&ref_=p-Tcg-slide-1--cb755e89-28c8-4498-81e4-3ff3328e7310"
kv = { 'user-agent' : 'Mozilla/5.0' }

try:
    r = requests.get(url,headers = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:3000])
except:
    print("爬取失敗")