1. 程式人生 > >Python3 urllib抓取指定URL的內容

Python3 urllib抓取指定URL的內容

最近在研究Python,熟悉了一些基本語法和模組的使用;現在打算研究一下Python爬蟲。學習主要是通過別人的部落格和自己下載的一下文件進行的,自己也寫一下部落格作為記錄學習自己過程吧。Python程式碼寫起來和Java的感覺很不一樣。

Python爬蟲主要使用的是urllib模組,Python2.x版本是urllib2,很多部落格裡面的示例都是使用urllib2的,因為我使用的是Python3.3.2,所以在文件裡面沒有urllib2這個模組,import的時候會報錯,找不到該模組,應該是已經將他們整合在一起了。

下面是一個簡單的程式碼示例:

#encoding:UTF-8
import urllib.request
def getdata():
    url="http://www.baidu.com"
    data=urllib.request.urlopen(url).read()
    print(data)

getdata()

結果:


中文轉碼,修改一下程式碼:

#encoding:UTF-8
import urllib.request
def getdata():
    url="http://www.baidu.com"
    data=urllib.request.urlopen(url).read()
    z_data=data.decode('UTF-8')
    print(z_data)

getdata()

結果如下:


研究Python到現在有差不多一週的時間這樣,由於是剛入門,所以還有多東西需要學習的。比如這裡需要使用正則表示式提取資料還需要進一步學習。

好了,以後再慢慢研究。歡各路前輩指導。