Python3 urllib抓取指定URL的內容
阿新 • • 發佈:2019-02-13
最近在研究Python,熟悉了一些基本語法和模組的使用;現在打算研究一下Python爬蟲。學習主要是通過別人的部落格和自己下載的一下文件進行的,自己也寫一下部落格作為記錄學習自己過程吧。Python程式碼寫起來和Java的感覺很不一樣。
Python爬蟲主要使用的是urllib模組,Python2.x版本是urllib2,很多部落格裡面的示例都是使用urllib2的,因為我使用的是Python3.3.2,所以在文件裡面沒有urllib2這個模組,import的時候會報錯,找不到該模組,應該是已經將他們整合在一起了。
下面是一個簡單的程式碼示例:
#encoding:UTF-8 import urllib.request def getdata(): url="http://www.baidu.com" data=urllib.request.urlopen(url).read() print(data) getdata()
結果:
中文轉碼,修改一下程式碼:
#encoding:UTF-8
import urllib.request
def getdata():
url="http://www.baidu.com"
data=urllib.request.urlopen(url).read()
z_data=data.decode('UTF-8')
print(z_data)
getdata()
結果如下:
研究Python到現在有差不多一週的時間這樣,由於是剛入門,所以還有多東西需要學習的。比如這裡需要使用正則表示式提取資料還需要進一步學習。
好了,以後再慢慢研究。歡各路前輩指導。