1. 程式人生 > >爬蟲小工具合集|不會程式設計也能爬資料

爬蟲小工具合集|不會程式設計也能爬資料

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

當前的主流爬蟲手段是用Python程式設計,Python的強大毋庸置疑,但初學者學習Python還是需要一兩個月時間的。有沒有一些更簡單的爬取資料方法呢?答案是有的,DataCastle為你準備瞭如下小工具,對於每個小工具你只需要花十幾分鍾時間,跟著我的步驟走一遍就可以掌握它啦~

一、Microsoft Excel   

首先教大家一個用Excel爬取資料的方法,這裡用的Microsoft Excel 2013版本,下面手把手開始教學~

(1)新建Excel,開啟它,如下圖所示

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

(2)點選“資料”——“自網站”

0?wx_fmt=jpeg

(3)在彈出的對話方塊中輸入目標網址,這裡以全國實時空氣質量網站(http://www.pm25.in/rank)為例,點選轉到,再匯入

0?wx_fmt=jpeg

選擇匯入位置,確定

0?wx_fmt=jpeg

(4)結果如下圖所示,怎麼樣,是不是很贊?

0?wx_fmt=jpeg

(5)如果要實時更新資料,可以在“資料”——“全部更新”——“連線屬性”中進行設定,輸入更新頻率即可

0?wx_fmt=jpeg

0?wx_fmt=jpeg

二、Google Sheet

使用Google Sheet爬取資料前,要保證三點:使用Chrome瀏覽器、擁有Google賬號、電腦已翻牆。如果這三個條件具備了的話,下面我們就開始吧~

(1)開啟Google Sheet網站:http://www.google.cn/sheets/about/

0?wx_fmt=jpeg

(2)在首頁上點選“轉到Google表格”,然後登入自己的賬號,可以看到如下介面,再點選“+”建立新的表格

0?wx_fmt=jpeg

新建的表格如下:

0?wx_fmt=jpeg

(3)開啟要爬取的目標網站,一個全國實時空氣質量網站http://www.pm25.in/rank,目標網站上的表格結構如下圖所示

0?wx_fmt=jpeg

(4)回到Google sheet頁面,使用函式=IMPORTHTML(網址, 查詢, 索引),“網址”就是要爬取資料的目標網站,“查詢”中輸入“list”或“table”,這個取決於資料的具體結構型別,“索引”填阿拉伯數字,從1開始,對應著網站中定義的哪一份表格或列表

對於我們要爬取的網站,我們在Google sheet的A1單元格中輸入函式=IMPORTHTML("http://www.pm25.in/rank","table",1),回車後就爬得資料啦

0?wx_fmt=jpeg

0?wx_fmt=jpeg

(5)將爬取好的表格存到本地

0?wx_fmt=jpeg

是不是感覺超級簡單?smiley_4.png

三、you-get

這是一個程式設計師基於python 3開發的專案,已經在github上面開源,支援64個網站,包括優酷、土豆、愛奇藝、b站、酷狗音樂、蝦米……總之你能想到的網站都有! 還有一個黑科技的地方,即使是名單上沒有的網站,當你輸入連結,程式也會猜測你想要下載什麼,然後幫你下載。當然you-get要在python3環境下進行安裝,用pip安裝好後,在終端輸入“you get+你想下載資源的連結”就可以等著收藏資源了。

這裡給一個you-get的中文使用說明(http://dwz.cn/4rb53l),按照說明上寫的按步驟操作就可以啦。

如果你想學更高階的Python爬蟲,DataCastle為你準備了一套高效的學習路徑。

0?wx_fmt=jpeg

如何在短時間內入門爬蟲,並獲得爬取大量資料的能力?

DataCastle學院課程《Python爬蟲(入門+進階)》從具體的案例著手,通過實際操作,學習具體的知識點。

0?wx_fmt=jpeg

課程中工程化爬蟲及分散式爬蟲技術,讓你有獲取大規模資料的可能。此外,你還將瞭解資料庫(Mongodb)、pandas的基本知識,幫你儲存爬取的資料,同時可以對資料進行管理和清洗,便於後續分析處理。

來源:DataCastle資料城堡

近期精彩活動(直接點選檢視):

END

投稿和反饋請發郵件至[email protected]。轉載大資料公眾號文章,請向原文作者申請授權,否則產生的任何版權糾紛與大資料無關。

大資料

為大家提供與大資料相關的最新技術和資訊。

0?wx_fmt=jpeg0?wx_fmt=jpeg長按指紋 > 識別圖中二維碼 > 新增關注

近期精彩文章(直接點選檢視):

更多精彩文章,請在公眾號後臺點選“歷史文章”檢視,謝謝。