Python爬蟲(一):編寫簡單爬蟲之新手入門
阿新 • • 發佈:2018-11-09
最近學習了一下python的基礎知識,大家一般對“爬蟲”這個詞,一聽就比較熟悉,都知道是爬一些網站上的資料,然後做一些操作整理,得到人們想要的資料,但是怎麼寫一個爬蟲程式程式碼呢?相信很多人是不會的,今天寫一個針對新手入門想要學習爬蟲的文章,希望對想要學習的你能有所幫助~~廢話不多說,進入正文!
一、準備工作
1、首先程式碼使用python3.x編寫的,要有一個本地的python3環境。
python下載地址頁面:https://www.python.org/downloads/release/python-370/
2、然後要有一個開發工具,推薦PyCharm,一款很好的Python互動IDE。Python自帶編譯器 -- IDLE也可以。
PyCharm下載地址頁面:https://www.jetbrains.com/pycharm/download/
3、準備工作都做好就可以做開發在IDE裡編寫程式碼程式了。
二、簡單爬蟲程式碼開發
以豆瓣網為例,爬取豆瓣官網頁面,看看能獲取到什麼東西,程式碼如下:
程式碼:
# -*- coding: utf-8 -*- import urllib.request # 1、網址url --豆瓣網 url = 'http://www.douban.com' # 2、直接請求 返回結果 response = urllib.request.urlopen(url) # 3、獲取狀態碼,如果是200表示獲取成功 print ('狀態碼:',response.getcode()) # 4、讀取內容 data = response.read() # 5、設定編碼 data = data.decode('utf-8') # 6、列印結果 print (data)
執行結果:
擷取部分程式碼如下,第一行是狀態碼:200,表明獲取成功,下面是爬取到的豆瓣頁面程式碼,由於內容過多,故擷取以下部分內容。
感興趣的小夥伴可以動手試試,歡迎交流~~