利用搜索引擎,抓取圖片建立資料集
機器學習很火!深度神經網路很火!
目前這一切都是建立在大量的資料集之上。
But,公開資料集往往不能滿足實際應用需求,需要自己建立各類資料集。
今天介紹的是一個利用搜狗圖片搜尋引擎來,抓取圖片建立計算機視覺資料集的方法。
指令碼程式功能:
利用搜狗引擎,搜尋獲取圖片結果,分析協議並爬取原圖
支援斷點續傳
執行效果:

python指令碼執行效果

下載的圖片
原始碼:
下載 ofollow,noindex">Github上的原始碼
抓取程式開發過程簡述:
- 分析獲取抓取協議
1. 利用瀏覽器,開啟除錯模式
2. 輸入搜狗圖片搜尋主頁
3. 輸入“牧羊犬”,顯示第一頁結果
4. 向下滾屏,檢視後續結果
5. 分析整個互動過程,獲取到關鍵的互動協議
- 基於分析得到的關鍵互動協議完成開發
看原始碼應該能夠了解程式原理,如有需要了解詳情的可以留言交流。