1. 程式人生 > >【轉】github熱門爬蟲

【轉】github熱門爬蟲

在開發實際專案的時候,你經常沒有足夠多的資料,需要自己去想辦法獲取,這個時候常常需要用到爬蟲。然而找來找去,很可能找了很久都找不到既免費又好用的爬蟲,今天就從好的爬蟲開始說起,這很可能是專案成功的開始。

作者&編輯 | 言有三

GitHub上有哪些好用的爬蟲

 

1 綜述類專案與學習資料

首先給大家介紹一些非常優秀的綜述和學習類專案,方便大家快速索引找到所需要的資源。

1.1、awesome-spider

地址:https://github.com/facert/awesome-spider

這是ID為facert的一個知乎工程師開源的,頭像如下,鑑定為大佬。

GitHub上有哪些好用的爬蟲

 

star6000+,內容如下:

GitHub上有哪些好用的爬蟲

 

這一款爬蟲,裡面蒐集了幾乎所有可以爬取的中文網址,從知乎豆瓣到知網,抖音微博到QQ,還有很多的不可描述的網站,你懂的。

1.2、Nyspider

地址:https://github.com/Nyloner/Nyspider

這是ID為Nyloner的一個今日頭條的工程師弄的,頭像如下:

GitHub上有哪些好用的爬蟲

 

star1000+,風格與上面的專案大有不同。

GitHub上有哪些好用的爬蟲

 

可以看出,都是各類網址。這很頭條,跟這位小哥哥的工作內容估計有關係。

1.3、awesome-python-login-model

地址:https://github.com/CriseLYJ/awesome-python-login-model

這是ID為CriseLYJ(職業不詳)的使用者,頭像如下。

GitHub上有哪些好用的爬蟲

 

這個專案用於模擬各種網址登陸,也包含一些簡單的爬蟲,star6000+。

GitHub上有哪些好用的爬蟲

 

先從這個專案開始分析各大網站的登入方式,非常有用,可謂摸清對手再動手。

1.4、python-spider

地址:https://github.com/Jack-Cherish/python-spider

這是ID為Jack-Cherish的東北大學的一個學生整理的學習python爬蟲的資料,這個頭像很學生。

GitHub上有哪些好用的爬蟲

 

star6000+,包含不少的實戰專案,非常適合想學習的朋友。

GitHub上有哪些好用的爬蟲

 

其他還有一些專案,不再一一介紹。

https://github.com/jhao104/proxy_pool
https://github.com/Ehco1996/Python-crawler

2 優秀圖片/視訊專案

筆者的精力多在影象和視訊,所以下面各自介紹一個功能強大,簡單好用的圖片和視訊爬蟲。

工具親測長期有效,省去了很多找爬蟲工具的時間,早用早好。

2.1、Google,Baidu,Bing三大搜素引擎圖片爬蟲

地址:https://github.com/sczhengyabin/Image-Downloader

這個爬蟲由ID為sczhengyabin的使用者整理,看頭像就知道不好惹。

GitHub上有哪些好用的爬蟲

 

可以按要求爬取百度、Bing、Google上的圖片,我已經用了幾年了,提供了非常人性化的GUI方便操作,使用方法如下:

使用python image_downloader_gui.py呼叫GUI介面,配置好引數(關鍵詞,路徑,爬取數目等),關鍵詞可以直接在這裡輸入也可以選擇從txt檔案中選擇。

可以配置需要爬取的樣本數目,這裡一次爬了2000張,妥妥的3分鐘搞定。

GitHub上有哪些好用的爬蟲

 

GitHub上有哪些好用的爬蟲

 

這個爬蟲足夠滿足小型專案初始資料集的積累(爬幾千張高質量圖片妥妥的),結果命名也非常整齊規範,最大的優勢就是穩定啊,不會三天兩天不能用了。

2.2、各大視訊網站爬蟲

地址:https://github.com/iawia002/annie

由ID為iawia002的使用者整理,看頭像來路也不簡單。

GitHub上有哪些好用的爬蟲

 

Annie是一款以go語言編碼的視訊下載工具,使用便捷並支援youtube,騰訊視訊,抖音等多個網站視訊和影象的下載,收錄站點如下,可以說是該有的都有的:

GitHub上有哪些好用的爬蟲

 

雖然這個專案可以下載圖片,但是我們還是來用它下載視訊吧,使用方法很簡單:

annie [可選引數]http://… (視訊網址)

GitHub上有哪些好用的爬蟲

 

視訊會下載到當前目錄,至於那些可選引數,趕緊去摸索吧。

GitHub上有哪些好用的爬蟲

 

要說網際網路圈裡最有權勢的那些人,搞爬蟲的高手一定位列其中,他們大概是掌握資訊最多的那批人了,善於整合抓取資源,如果身邊有這樣的大佬,一