1. 程式人生 > >python爬蟲(一)urllib庫基本使用

python爬蟲(一)urllib庫基本使用

注,以下內容均為python3.5.*程式碼

學習爬蟲,首先有學會使用urllib庫,這個庫可以方便的使我們解析網頁的內容,本篇講一下它的主要用法

解析網頁

#!/usr/bin/env python3
# coding=utf-8

import urllib.request

request = urllib.request.Request("http://www.flycold.cn/python/test_post.html")
response = urllib.request.urlopen(request)
print (response.read())

POST個GET傳輸資料

#POST
values = {"username":"www.flycold.cn","passwd":"python"}
date = urllib.parse.urlencode(values).encode(encoding='UTF8')
url = "http://www.flycold.cn/python/check.php"
request = urllib.request.Request(url,date)
response = urllib.request.urlopen(request)
page = response.read().decode("utf8")
print(page)

#GET
values = {"username":"www.flycold.cn","passwd":"python"} date = urllib.parse.urlencode(values) url = "http://www.flycold.cn/python/check.php" get_url = url + "?" + date request = urllib.request.Request(get_url) response = urllib.request.urlopen(request) page = response.read().decode("utf8") print(page)

這樣就模擬了簡單的登入,當然,大部分網站是無法這樣輕易的就登入的,但這段程式碼是模擬登入的核心。