1. 程式人生 > >Python爬蟲如何快速上手,並達到爬取大規模資料的水平

Python爬蟲如何快速上手,並達到爬取大規模資料的水平

網際網路的資料爆炸式的增長,而利用 Python 爬蟲我們可以獲取大量有價值的資料:

1.爬取資料,進行市場調研和商業分析

爬取知乎優質答案,篩選各話題下最優質的內容; 抓取房產網站買賣資訊,分析房價變化趨勢、做不同區域的房價分析;爬取招聘網站職位資訊,分析各行業人才需求情況及薪資水平。

2.作為機器學習、資料探勘的原始資料

比如你要做一個推薦系統,那麼你可以去爬取更多維度的資料,做出更好的模型。

3.爬取優質的資源:圖片、文字、視訊

爬取商品(店鋪)評論以及各種圖片網站,獲得圖片資源以及評論文字資料。

掌握正確的方法,在短時間內做到能夠爬取主流網站的資料,其實非常容易實現。

但建議你從一開始就要有一個具體的目標,在目標的驅動下,你的學習才會更加精準和高效。這裡給你一條平滑的、零基礎快速入門的學習路徑:

1.瞭解爬蟲的基本原理及過程

2.Requests+Xpath 實現通用爬蟲套路

3.瞭解非結構化資料的儲存

4.應對特殊網站的反爬蟲措施

5.Scrapy 與 MongoDB,進階分散式

01

瞭解爬蟲的基本原理及過程

大部分爬蟲都是按“傳送請求——獲得頁面——解析頁面——抽取並儲存內容”這樣的流程來進行,這其實也是模擬了我們使用瀏覽器獲取網頁資訊的過程。

簡單來說,我們向伺服器傳送請求後,會得到返回的頁面,通過解析頁面之後,我們可以抽取我們想要的那部分資訊,並存儲在指定的文件或資料庫中。

在這部分你可以簡單瞭解 HTTP 協議及網頁基礎知識,比如 POSTGET、HTML、CSS、JS,簡單瞭解即可,不需要系統學習。

02

學習 Python 包並實現基本的爬蟲過程

Python中爬蟲相關的包很多:urllib、requests、bs4、scrapy、pyspider 等,建議你從requests+Xpath 開始,requests 負責連線網站,返回網頁,Xpath 用於解析網頁,便於抽取資料。

如果你用過 BeautifulSoup,會發現 Xpath 要省事不少,一層一層檢查元素程式碼的工作,全都省略了。掌握之後,你會發現爬蟲的基本套路都差不多,一般的靜態網站根本不在話下,小豬、豆瓣、糗事百科、騰訊新聞等基本上都可以上手了。

來看一個爬取豆瓣短評的例子:
image

選中第一條短評,右鍵-“檢查”,即可檢視原始碼
image

把短評資訊的XPath資訊複製下來

我們通過定位,得到了第一條短評的 XPath 資訊: