1. 程式人生 > >高階Python網路爬蟲使用技術選擇指南

高階Python網路爬蟲使用技術選擇指南

一 相關背景

網路爬蟲(Web Spider)又稱網路蜘蛛、網路機器人,是一段用來自動化採集網站資料的程式。如果把網際網路比喻成一個蜘蛛網,那麼Spider就是在網上爬來爬去的蜘蛛。網路爬蟲不僅能夠為搜尋引擎採集網路資訊,而且還可以作為定向資訊採集器,定向採集某些網站下的特定資訊,如:汽車票價,招聘資訊,租房資訊,微博評論等。

二 應用場景

淺談Python網路爬蟲

圖1 應用場景

爬蟲技術在科學研究、Web安全、產品研發、輿情監控等領域可以做很多事情。如:在資料探勘、機器學習、影象處理等科學研究領域,如果沒有資料,則可以通過爬蟲從網上抓取;在Web安全方面,使用爬蟲可以對網站是否存在某一漏洞進行批量驗證、利用;在產品研發方面,可以採集各個商城物品價格,為使用者提供市場最低價;在輿情監控方面,可以抓取、分析新浪微博的資料,從而識別出某使用者是否為水軍。

三 本文目的

本文簡要介紹對於定向資訊採集所需瞭解基本知識和相關技術,以及python中與此相關的庫。同時提供對與資料抓取有關庫的封裝實現,目的是減少不必要的配置,便於使用,目前僅包含對urllib2, requests, mechanize的封裝。地址: https://github.com/xinhaojing/Crawler

四 執行流程

對於定向資訊的爬取,爬蟲主要包括資料抓取、資料解析、資料入庫等操作流程。其中:

(1)資料抓取:傳送構造的HTTP請求,獲得包含所需資料的HTTP響應;

(2)資料解析:對HTTP響應的原始資料進行分析、清洗以提取出需要的資料;

(3)資料入庫:將資料進一步儲存到資料庫(或文字檔案),構建知識庫。

淺談Python網路爬蟲

圖2.1 基本執行流程

淺談Python網路爬蟲

圖2.2 詳細執行流程

五 相關技術

爬蟲的相關技術包括:

(1)資料抓取:瞭解HTTP請求和響應中各欄位的含義;瞭解相關的網路分析工具,主要用於分析網路流量,如:burpsuit等。一般情況,使用瀏覽器的開發者模式即可;

(2)資料解析:瞭解HTML結構、JSON和XML資料格式,CSS選擇器、Xpath路徑表示式、正則表示式等,目的是從響應中提取出所需的資料;

(3)資料入庫:MySQL,SQLite、Redis等資料庫,便於資料的儲存;

淺談Python網路爬蟲

圖3 相關技術

以上是學習爬蟲的基本要求,在實際的應用中,也應考慮如何使用多執行緒提高效率、如何做任務排程、如何應對反爬蟲,如何實現分散式爬蟲等等。本文介紹的比較有限,僅供參考。

六 python相關庫

在爬蟲實現上,除了scrapy框架之外,python有許多與此相關的庫可供使用。其中,在資料抓取方面包括: urllib2(urllib3)、requests、mechanize、selenium、splinter;在資料解析方包括:lxml、beautifulsoup4、re、pyquery。

對於資料抓取 ,涉及的過程主要是模擬瀏覽器向伺服器傳送構造好的http請求,常見型別有:get/post。其中,urllib2(urllib3)、requests、mechanize用來獲取URL對應的原始響應內容;而selenium、splinter通過載入瀏覽器驅動,獲取瀏覽器渲染之後的響應內容,模擬程度更高。

具體選擇哪種類庫,應根據實際需求決定,如考慮效率、對方的反爬蟲手段等。通常,能使用urllib2(urllib3)、requests、mechanize等解決的儘量不用selenium、splinter,因為後者因需要載入瀏覽器而導致效率較低。

對於資料解析 ,主要是從響應頁面裡提取所需的資料,常用方法有:xpath路徑表示式、CSS選擇器、正則表示式等。其中,xpath路徑表示式、CSS選擇器主要用於提取結構化的資料,而正則表示式主要用於提取非結構化的資料。相應的庫有lxml、beautifulsoup4、re、pyquery。

表1 相關庫文件

類庫 文件
數 據 抓 取 urllib2 https://docs.python.org/2/library/urllib2.html
requests http://cn.python-requests.org/zh_CN/latest
mechanize https://mechanize.readthedocs.io/en/latest/
splinter http://splinter.readthedocs.io/en/latest/
selenium https://selenium-python.readthedocs.io/
數 據 解 析 lxml http://lxml.de/
beautifulsoup4 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html http://cuiqingcai.com/1319.html
re http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
pyquery https://pythonhosted.org/pyquery/

七.相關介紹

1資料抓取

(1)urllib2

urllib2是python自帶的一個訪問網頁及本地檔案的庫,通常需要與urllib一起使用。因為urllib提供了urlencode方法用來對傳送的資料進行編碼,而urllib2沒有對應的方法。

以下是對urllib2簡易封裝的說明,主要是將相關的特性集中在了一個類函式裡面,避免一些繁瑣的配置工作。

淺談Python網路爬蟲

淺談Python網路爬蟲

圖4 urllib2封裝說明

(2)requests和mechanize

requests是Python的第三方庫,基於urllib,但比urllib更加方便,介面簡單。其特點包括,關於http請求: 支援自定義請求頭,支援設定代理、支援重定向、支援保持會話[request.Session()]、支援超時設定、對post資料自動urlencode; 關於http響應: 可直接從響應中獲得詳細的資料,無需人工配置,包括:狀態碼、自動解碼的響應內容、響應頭中的各個欄位;還內建JSON解碼器。

mechanize是對urllib2部分功能的替換,能夠更好的模擬瀏覽器行為,在web訪問控制方面做得很全面。其特點包括:支援cookie設定、代理設定、重定向設定、簡單的表單填寫、瀏覽器歷史記錄和過載、referer頭的新增(可選)、自動遵守robots.txt、自動處理HTTP-EQUIV和重新整理等。

對requests和mechanize簡易封裝後的介面與urllib2一樣,也是將相關特性集中在了一個類函式裡面,這裡不在重複說明,可參考所給程式碼。

(3)splinter和selenium

selenium(python)和splinter可以很好的模擬瀏覽器行為,二者通過載入瀏覽器驅動工作。在採集資訊方面,降低了分析網路請求的麻煩,一般只需要知道資料頁面對應的URL即可。由於要載入瀏覽器,所以效率方面相對較低。

預設情況下,優先使用的是Firefox瀏覽器。這裡列出chrome和pantomjs(無頭瀏覽器)驅動的下載地址,方便查詢。

chrome和pantomjs驅動地址:

chrome : http://chromedriver.storage.googleapis.com/index.html?path=2.9/

pantomjs : http://phantomjs.org/download.html

2 資料解析

對於資料解析,可用的庫有lxml、beautifulsoup4、re、pyquery。其中,beautifulsoup4比較常用些。除了這些庫的使用,可瞭解一下xpath路徑表示式、CSS選擇器、正則表示式的語法,便於從網頁中提取資料。其中,chrome瀏覽器自帶生成Xpath的功能。

淺談Python網路爬蟲

圖5 chrome檢視元素的xpath

如果能夠基於網路分析,抓取到所需資料對應的頁面,接下來,從頁面中提取資料的工作就相對明確很多。具體的使用方法可參考文件,這裡不在詳細介紹。

八 反爬蟲

1. 基本的反爬蟲手段,主要是檢測請求頭中的欄位,比如:User-Agent、referer等。針對這種情況,只要在請求中帶上對應的欄位即可。所構造http請求的各個欄位最好跟在瀏覽器中傳送的完全一樣,但也不是必須。

2. 基於使用者行為的反爬蟲手段,主要是在後臺對訪問的IP(或User-Agent)進行統計,當超過某一設定的閾值,給予封鎖。針對這種情況,可通過使用代理伺服器解決,每隔幾次請求,切換一下所用代理的IP地址(或通過使用User-Agent列表解決,每次從列表裡隨機選擇一個使用)。這樣的反爬蟲方法可能會誤傷使用者。

3. 希望抓取的資料是如果通過ajax請求得到的,假如通過網路分析能夠找到該ajax請求,也能分析出請求所需的具體引數,則直接模擬相應的http請求,即可從響應中得到對應的資料。這種情況,跟普通的請求沒有什麼區別。

4. 基於JavaScript的反爬蟲手段,主要是在響應資料頁面之前,先返回一段帶有JavaScript程式碼的頁面,用於驗證訪問者有無JavaScript的執行環境,以確定使用的是不是瀏覽器。

通常情況下,這段JS程式碼執行後,會發送一個帶引數key的請求,後臺通過判斷key的值來決定是響應真實的頁面,還是響應偽造或錯誤的頁面。因為key引數是動態生成的,每次都不一樣,難以分析出其生成方法,使得無法構造對應的http請求。

比如網站 http://www.kuaidaili.com/ ,使用就是這種方式,具體可參見 https://www.v2ex.com/t/269337 。

在首次訪問網站時,響應的JS內容會發送帶yundun引數的請求,而yundun引數每次都不一樣。

淺談Python網路爬蟲

圖6動態引數yundun

目前測試時,該JavaScript程式碼執行後,傳送的請求不再帶有yundun引數,而是動態生成一個cookie,在隨後的請求中帶上該cookie,作用類似於yundun引數。

淺談Python網路爬蟲

圖7 動態cookie

針對這樣的反爬蟲方法,爬蟲方面需要能夠解析執行JavaScript,具體的方法可使用selenium或splinter,通過載入瀏覽器來實現。

來源:http://www.toutiao.com/a6415295977695543553/?tt_from=mobile_qq&utm_campaign=client_share&app=news_article&utm_source=mobile_qq&iid=9676009681&utm_medium=toutiao_android