零基礎想學Python爬蟲?這是斯坦福大學教授給你的快速入門指南!
本文主要內容:以最短的時間寫一個最簡單的爬蟲,可以抓取論壇的帖子標題和帖子內容。
本文受眾:沒寫過爬蟲的萌新。
入門
爬蟲是怎麼工作的?
當然在學習Python的道路上肯定會困難,沒有好的學習資料,怎麼去學習呢?
所以小編準備了一份零基礎入門Python的學習資料。新增小編學習交流群943752371即可獲取
想象你是一隻蜘蛛,現在你被放到了互聯“網”上。那麼,你需要把所有的網頁都看一遍。怎麼辦呢?沒問題呀,你就隨便從某個地方開始,比如說人民日報的首頁,這個叫initial pages,用$表示吧。
在人民日報的首頁,你看到那個頁面引向的各種連結。於是你很開心地從爬到了“國內新聞”那個頁面。太好了,這樣你就已經爬完了倆頁面(首頁和國內新聞)!暫且不用管爬下來的頁面怎麼處理的,你就想象你把這個頁面完完整整抄成了個html放到了你身上。
突然你發現, 在國內新聞這個頁面上,有一個連結鏈回“首頁”。作為一隻聰明的蜘蛛,你肯定知道你不用爬回去的吧,因為你已經看過了啊。所以,你需要用你的腦子,存下你已經看過的頁面地址。這樣,每次看到一個可能需要爬的新連結,你就先查查你腦子裡是不是已經去過這個頁面地址。如果去過,那就別去了。
1) 理論上如果所有的頁面可以從initial page達到的話,那麼可以證明你一定可以爬完所有的網頁。
2) 基本的http抓取工具,scrapy
3) 如果需要大規模網頁抓取,你需要學習分散式爬蟲的概念。
4) rq和Scrapy的結合:darkrho/scrapy-redis · GitHub
5) 後續處理,網頁析取 ( grangier/python-goose · GitHub),儲存(Mongodb)
準備工作
需要準備的東西: Python、scrapy、一個IDE或者隨便什麼文字編輯工具。
1.技術部已經研究決定了,你來寫爬蟲。
隨便建一個工作目錄,然後用命令列建立一個工程,工程名為miao,可以替換為你喜歡的名字。
1
scrapy startproject miao
隨後你會得到如下的一個由scrapy建立的目錄結構
在spiders資料夾中建立一個python檔案,比如miao.py,來作為爬蟲的指令碼。
內容如下:
# 這個是解析函式,如果不特別指明的話,scrapy抓回來的頁面會由這個函式進行解析。
# 對頁面的處理和分析工作都在此進行,這個示例裡我們只是簡單地把頁面內容打印出來。
def parse(self, response): print response.body
跑一個試試?
如果用命令列的話就這樣:
cd miao scrapy crawl NgaSpider
你可以看到爬蟲君已經把你壇星際區第一頁打印出來了,當然由於沒有任何處理,所以混雜著html標籤和js指令碼都一併打印出來了。
解析
接下來我們要把剛剛抓下來的頁面進行分析,從這坨html和js堆裡把這一頁的帖子標題提煉出來。
其實解析頁面是個體力活,方法多的是,這裡只介紹xpath。
0.為什麼不試試神奇的xpath呢
看一下剛才抓下來的那坨東西,或者用chrome瀏覽器手動開啟那個頁面然後按F12可以看到頁面結構。
每個標題其實都是由這麼一個html標籤包裹著的。
舉個例子:
<a id="t_tt1_33" class="topic" href="/read.php?tid=10803874">[合作模式] 合作模式修改設想</a>
可以看到href就是這個帖子的地址(當然前面要拼上論壇地址),而這個標籤包裹的內容就是帖子的標題了。
於是我們用xpath的絕對定位方法,把class='topic'的部分摘出來。
看看xpath的效果
在最上面加上引用:
from scrapy import Selector
把parse函式改成:
再次執行就可以看到輸出你壇星際區第一頁所有帖子的標題和url了。
遞迴
接下來我們要抓取每一個帖子的內容。
這裡需要用到python的yield。
yield Request(url=url, callback=self.parse_topic)
此處會告訴scrapy去抓取這個url,然後把抓回來的頁面用指定的parse_topic函式進行解析。
至此我們需要定義一個新的函式來分析一個帖子裡的內容。
完整的程式碼如下:
到此為止,這個爬蟲可以爬取你壇第一頁所有的帖子的標題,並爬取每個帖子裡第一頁的每一層樓的內容。
爬取多個頁面的原理相同,注意解析翻頁的url地址、設定終止條件、指定好對應的頁面解析函式即可。
Pipelines——管道
此處是對已抓取、解析後的內容的處理,可以通過管道寫入本地檔案、資料庫。
0.定義一個Item
在miao資料夾中建立一個items.py檔案。
此處我們定義了兩個簡單的class來描述我們爬取的結果。
寫一個處理方法
在miao資料夾下面找到那個pipelines.py檔案,scrapy之前應該已經自動生成好了。
我們可以在此建一個處理方法。
在爬蟲中呼叫這個處理方法
要呼叫這個方法我們只需在爬蟲中呼叫即可,
在配置檔案裡指定這個pipeline
找到settings.py檔案,在裡面加入
ITEM_PIPELINES = { 'miao.pipelines.FilePipeline': 400, }
這樣在爬蟲裡呼叫
yield item
的時候都會由經這個FilePipeline來處理。後面的數字400表示的是優先順序。
可以在此配置多個Pipeline,scrapy會根據優先順序,把item依次交給各個item來處理,每個處理完的結果會傳遞給下一個pipeline來處理。
可以這樣配置多個pipeline:
Middleware——中介軟體
通過Middleware我們可以對請求資訊作出一些修改,比如常用的設定UA、代理、登入資訊等等都可以通過Middleware來配置。
Middleware的配置
與pipeline的配置類似,在setting.py中加入Middleware的名字,
例如
破網站查UA, 我要換UA
某些網站不帶UA是不讓訪問的。
在miao資料夾下面建立一個middleware.py
這裡就是一個簡單的隨機更換UA的中介軟體,agents的內容可以自行擴充。
破網站封IP,我要用代理
比如本地127.0.0.1開啟了一個8123埠的代理,同樣可以通過中介軟體配置讓爬蟲通過這個代理來對目標網站進行爬取。
同樣在middleware.py中加入:
很多網站會對訪問次數進行限制,如果訪問頻率過高的話會臨時禁封IP。
如果需要的話可以從網上購買IP,一般服務商會提供一個API來獲取當前可用的IP池,選一個填到這裡就好。
一些常用配置
在settings.py中的一些常用配置
我就是要用Pycharm
如果非要用Pycharm作為開發除錯工具的話可以在執行配置裡進行如下配置:
Configuration頁面:
Script填你的scrapy的cmdline.py路徑,
比如我的是
/usr/local/lib/python2.7/dist-packages/scrapy/cmdline.py
然後在Scrpit parameters中填爬蟲的名字,
本例中即為:
crawl NgaSpider
最後是Working diretory,找到你的settings.py檔案,填這個檔案所在的目錄。
示例:
按小綠箭頭就可以愉快地調戲了。