1. 程式人生 > >第五節:web爬蟲之urllib(二)

第五節:web爬蟲之urllib(二)

ica 網址 使用 gin lencod 基本 以及 header nbsp

二、urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

簡介:urllib.request 模塊提供了最基本的構造 HTTP 請求的方法,利用它可以模擬瀏覽器的一個請求發起過程,同時它還帶有處理 authenticaton (授權驗證), redirections (重定向), cookies (瀏覽器Cookies)以及其它內容

參數詳解:

  url:訪問的地址。

  data:此參數為可選字段,其中傳遞的參數需要轉為bytes,如果是字典我們只需要通過 urllib.parse.urlencode 轉換即可:

  headers:http相應headers傳遞的信息,構造方法:headers 參數傳遞,通過調用 Request 對象的 add_header() 方法來添加請求頭;

  origin_req_host :指的是請求方的 host 名稱或者 IP 地址。

  unverifiable :用來表明這個請求是否是無法驗證的,默認是 False 。意思就是說用戶沒有足夠權限來選擇接收這個請求的結果。如果沒有權限,這時  unverifiable 的值就是 True 。

  method :用來指示請求使用的方法,比如 GET , POST , PUT 等

了解一下 Urllib 庫後,介紹一下它包含四個模塊:

第一個模塊 request:

  它是最基本的 HTTP 請求模塊,我們可以用它來模擬發送一請求,就像在瀏覽器裏輸入網址然後敲擊回車一樣,只需要給庫方法傳入 URL 還有額外的參數,就可以模擬實現這個過程了。

技術分享圖片

第五節:web爬蟲之urllib(二)