1. 程式人生 > >Python爬蟲(一):編寫簡單爬蟲之新手入門

Python爬蟲(一):編寫簡單爬蟲之新手入門

最近學習了一下python的基礎知識,大家一般對“爬蟲”這個詞,一聽就比較熟悉,都知道是爬一些網站上的資料,然後做一些操作整理,得到人們想要的資料,但是怎麼寫一個爬蟲程式程式碼呢?相信很多人是不會的,今天寫一個針對新手入門想要學習爬蟲的文章,希望對想要學習的你能有所幫助~~廢話不多說,進入正文!

一、準備工作

1、首先程式碼使用python3.x編寫的,要有一個本地的python3環境。

python下載地址頁面:https://www.python.org/downloads/release/python-370/

2、然後要有一個開發工具,推薦PyCharm,一款很好的Python互動IDE。Python自帶編譯器 -- IDLE也可以。

PyCharm下載地址頁面:https://www.jetbrains.com/pycharm/download/

3、準備工作都做好就可以做開發在IDE裡編寫程式碼程式了。

二、簡單爬蟲程式碼開發

以豆瓣網為例,爬取豆瓣官網頁面,看看能獲取到什麼東西,程式碼如下:

程式碼:

# -*- coding: utf-8 -*-
import urllib.request

# 1、網址url  --豆瓣網
url = 'http://www.douban.com'

# 2、直接請求  返回結果
response = urllib.request.urlopen(url)

# 3、獲取狀態碼,如果是200表示獲取成功
print ('狀態碼:',response.getcode())

# 4、讀取內容
data = response.read()

# 5、設定編碼
data = data.decode('utf-8')

# 6、列印結果
print (data)

執行結果:

擷取部分程式碼如下,第一行是狀態碼:200,表明獲取成功,下面是爬取到的豆瓣頁面程式碼,由於內容過多,故擷取以下部分內容。

感興趣的小夥伴可以動手試試,歡迎交流~~