Python 3.6模組學習urllib的urllib.request.urlopen（）函式學習

阿新 • • 發佈：2019-02-04

urllib提供了一系列用於操作URL的功能。包含urllib.request,urllib.error,urllib.parse,urllib.robotparser四個子模組。

官網資料如下：

urllib is a package that collects several modules for working with URLs:

翻譯後：

urllib.request開啟和瀏覽url中內容
urllib.error包含從 urllib.request發生的錯誤或異常
urllib.parse解析url
urllib.robotparser解析 robots.txt檔案

urllib.request模組中最常用的函式為

urllib.request.urlopen（）

`urllib.request.`urlopen函式引數如下：

`urllib.request.urlopen`(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

- url: 需要開啟的網址

- data：Post提交的資料

- timeout：設定網站的訪問超時時間

urlopen返回物件提供方法：

- read() , readline() ,readlines() , fileno() , close() ：對

HTTPResponse型別資料進行操作

- info()：返回HTTPMessage物件，表示遠端伺服器返回的頭資訊

- getcode()：返回Http狀態碼。如果是http請求，200請求成功完成 ; 404網址未找到

- geturl()：返回請求的url

Get

urllib的request模組可以非常方便地抓取URL內容，當data引數為空的時候也就是傳送一個GET請求到指定的頁面，然後返回HTTP的響應：

例如對百度的一個URLhttps://www.baidu.com/進行抓取，並返回響應：

from urllib import request

with request.urlopen('https://www.baidu.com/') as f:
    data = f.read()
    print('Status:', f.status, f.reason)
    print('Data:', data)

執行程式可以得到如下：

Status: 200 OK
Data: b'<html>\r\n<head>\r\n\t<script>\r\n\t\tlocation.replace(location.href.replace("https://","http://"));\r\n\t</script>\r\n</head>\r\n<body>\r\n\t<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>\r\n</body>\r\n</html>

這時我們發現Data內容與網頁內容有幾分差異

Data的資料格式為bytes型別，需要decode（）解碼，轉換成str型別。

 print('Data:', data.decode('utf-8'))

把得到的Data變為 utf-8編碼形式，變化後如下：

Data: <html>

<head>

	<script>

		location.replace(location.href.replace("https://","http://"));

	</script>

</head>

<body>

	<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>

</body>

</html>

這樣得到的內容就可以與網頁編碼內容一樣了

Post

如果要以POST傳送一個請求，

urllib.request.urlopen(url,data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

urlopen（）的data引數預設為None，當data引數不為空的時候，urlopen（）提交方式為Post。

Post的資料必須是bytes或者iterable of bytes，不能是str，如果是str需要進行encode（）編碼

使用Request包裝請求

`urllib.request.Request`(url, data=None, headers={}, method=None)

使用request（）來包裝請求，再通過urlopen（）獲取頁面。

url= r'http://www.xxxxxxxxxxxxxxxx.com'
headers = {
    'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
    'Referer': r'http://www.xxxxxxxxxxxxxxxx.com',
    'Connection': 'keep-alive'
}
req = request.Request(url, headers=headers)
page = request.urlopen(req).read()
page = page.decode('utf-8')

- User-Agent ：這個頭部可以攜帶如下幾條資訊：瀏覽器名和版本號、作業系統名和版本號、預設語言

- Referer：可以用來防止盜鏈，有一些網站圖片顯示來源http://***.com，就是檢查Referer來鑑定的

- Connection：表示連線狀態，記錄Session的狀態。

Python 3.6模組學習urllib的urllib.request.urlopen（）函式學習

urllib提供了一系列用於操作URL的功能。包含urllib.request,urllib.error,urllib.parse,urllib.robotparser四個子模組。官網資料如下：

Python 3.6 模組學習math庫常見函式

math.pi 數學常數π= 3.141592…… math.e 數學常數e = 2.718281…. math.ta

windows安裝Jupyter Notebook Windows下的Python 3.6.1的下載與安裝（適合32bits和64bits）（圖文詳解）

　　這是我自定義的Python 的安裝目錄（D:\SoftWare\Python\Python36\Scripts） 1、Jupyter Notebook 和 pip 　　為了更加方便地寫 Python 程式碼，還需要安裝 Jupyter notebook。利用 pip 安裝

Windows下的Python 3.6.1的下載與安裝（適合32bits和64bits）（圖文詳解）

　　不多說，直接上乾貨！　　為什麼，這麼簡單的一個python，我還要特意來寫一篇部落格呢？　　是因為留念下，在使用了Anaconda2和Anaconda3的基礎上，現在需安裝python3.6.0來做資料分析。　　關於資料分析工程師的，相關部落格，我會陸續更新

Python 3.6+Django開發入門小案例（自動變化的問候）完整步驟

第一步：在命令提示符環境使用pip install django命令安裝django 第二步：在命令提示符環境使用python django-admin.py startproject django_greeting命令建立網站django_greeting 第三

C語言學習筆記：printf（）函式詳解

C語言中有關printf（）函式的詳細使用方法：修飾符： - digit（s）：欄位寬度的最小值。如果該欄位不能容納要列印的數或者字串，系統就會使更寬的欄位。如%4d。 - .digit（s）：精度，將結果保留到小數點後的多少位。 - h：和整數轉

Python3學習筆記：input（）函式的返回值

Python3中內建input（）函式，鍵入數字時，將返回int，還是str？例如： >>> number = input() 6 >>> type(number) <class 'str'> >>&g

ioctl（）函式學習【綜合貼】

目錄： 6、linux系統檔案說明：本文為上述文章的綜合，但有些地方根據自己的理解做了編輯更改。雖有些許原創，但可忽略不計。本文只為學習更方便，不保留版權。標頭檔案： #include<sys/ioctl.h> 功

Python 3.6學習筆記（一）

示例 ror 功能 put -m 但是對象初始化 absolut 開始之前基礎示例 Python語法基礎，python語法比較簡單，采用縮緊方式。 # print absolute value of a integer a = 100 if a >= 0:

Python 3.6 -win64環境安裝PIL模組

PIL：Python Imaging Library，已經是Python平臺事實上的影象處理標準庫了。PIL功能非常強大，但API卻非常簡單易用。由於PIL僅支援到Python 2.7，加上年久失修，於是一群志願者在PIL的基礎上建立了相容的版本，名字叫Pillow，支援最新Python 3.x，又加入了

《統計學習方法》的Python 3.6復現，實測可用

選自Github，作者：黃海廣。《統計學習方法》可以說是機器學習的入門寶典，許多機器學習培訓班、網際網路企業的面試、筆試題目，很多都參考這本書。機器之心近期發現了一個 GitHub 專案，其用 Python 復現了課程內容，並提供這本書的程式碼實現和課件。實現程式碼的配置環境是 Python 3.

OpenCV(3.2)+Python(3.6)學習(基於官方API)（一）

1.1 Getting Started with Images 博主最近由於專案需求，需要學習OpenCV，在檢視並試驗了幾種語言之後決定用Python作為開發語言。剛開始學習也是各種網上找資料，但是網上的資料過於雜亂，最後還是覺得官方API最全面。所

Python 3.6學習--基礎3：函式的定義

>>> def fib(n): # write Fibonacci series up to n ... """Print a Fibonacci series up to n.""" ... a, b = 0, 1 ...

python 3.6 安裝json 模組(simplejson)

JSON 相關概念：序列化（Serialization）：將物件的狀態資訊轉換為可以儲存或可以通過網路傳輸的過程，傳輸的格式可以是JSON，XML等。反序列化就是從儲存區域（JSON，XML）讀取反序列化物件的狀態，重新建立該物件。　　 JSON（Java S

django學習——python 3.6下實現xadmin

本人在virtualenv中進行django(1.11版本)學習，在安裝xadmin中出現各種問題，安裝總結如下。 1、xadmin的安裝直接採用 pip install xadmin會報錯，安裝辦法：從官網https://github.com/sshws

Python 3.6 re模組基本函式介紹

python裡提供了兩種對正則表示式的操作：match和serch 1.match 函式原型：re.match(pattern, string, flags） pattern為正則表示式，string為被匹配的文字，flags是匹配規則，如是否區別大小寫等，若匹配到返回ma

《python機器學習及實踐-從零開始通往kaggle競賽之路（程式碼Python 3.6 版）》chapter1.1

import pandas as pd #匯入pandas 庫 df_train = pd.read_csv('../Datasets/Breast-Cancer/breast-cancer-train.csv') #讀取目錄下的資料,如果程式碼與檔案路徑不在一起，則需要另行設定 df_test = pd

Python 3.6.4 queue模組

常用方法 put(item[, block[, timeout]]) 向佇列裡新增資料。引數 item:要放入佇列的資料。 block:可選引數，預設值為True。當值為True時，阻塞呼叫（當棧滿一直無空間可用，阻塞呼叫，直到有棧有空間，或timeout秒後

python 3.6 安裝 win32 win32com模組

本人使用python3.6，最近要使用到pywin32中的為win32com模組，於是嘗試安裝，主要方法有以下幾種： 1.在http://sourceforge.net/projects/pywin32/files/pywin32/ 上下載對應的版本進行安裝，對build22

“笨方法”學Python（第三版）ex41 學習面向物件術語 Python 3.6.5程式碼

新手一枚，買的書是教Python2，想學Python3，ex41一直報錯，上網查後發現主要是三個問題:1. Python3中urllib庫發生變化2. Python3中嚴格區分str和bytes，29行遍及讀取網頁上的單詞，word為bytes，不能作為replace()的第

Python 3.6模組學習urllib的urllib.request.urlopen（）函式學習

urllib.request.urlopen函式引數如下：

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

使用Request包裝請求

urllib.request.Request(url, data=None, headers={}, method=None)

相關推薦

`urllib.request.`urlopen函式引數如下：

`urllib.request.urlopen`(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

`urllib.request.Request`(url, data=None, headers={}, method=None)