1. 程式人生 > >Python爬蟲基礎(一)--簡單的url請求

Python爬蟲基礎(一)--簡單的url請求

#encoding:UTF-8
import urllib
import urllib.request
# data是一個字典,然後通過urllib.parse.urlencode()將data轉換為'wd = 904727147'的字串
#最後和url合併為full_url
# urllib.request是一個庫,隸屬urllib,urllib是一個收集了很多處理url的包,開放網址的可擴充套件庫。
# urllib.request模版定義了很多功能函式和類,這些類和函式幫助以文件的形式開啟urls
# requests package被公認為是更高級別的HTTP客戶端介面
# urllib.request定義瞭如下的函式功能:
# urllib.reuqest.urlopen(url,data=None,[timeout,]*,cafile = None,cadefault = False,context = None)
# 開啟網址,它可以是一個字串或一個請求物件。引數data必須是一個位元組物件,
#傳送給伺服器的附加資料,如果不需要附加資料,這個引數也可以是空的。這個data也可以一個迭代物件,
#內容長度值必須在標頭檔案中指定。目前http請求是唯一需要使用資料data的。當data引數被提供的時候,http請求將會是一個post而不是get型請求。
# 對於http和https地址,這個函式返回一個 http.client.HTTPResponse物件,
#這個物件有 HTTPResponse Objects 方法
# HTTPResponse.read([amt])讀取並返回響應體,或到下一個AMT位元組
data={}
data['wd'] = '904727147'

url_values = urllib.parse.urlencode(data)
url = "http://www.baidu.com/s?"

full_url = url + url_values
data = urllib.request.urlopen(full_url).read()
data = data.decode('UTF-8')
print(data)

鍾志遠  江蘇南京  904727147