1. 程式人生 > >機器視覺中常用開源資料集和免費標註工具

機器視覺中常用開源資料集和免費標註工具

科技巨頭如Google,微軟,亞馬遜等都紛紛宣佈在AI領域佈局,AI的影響隨著深度學習的應用日益深入。機器視覺作為一個熱門子領域,無論是在傳統金融行業還是最新自動駕駛領域都掀起了一股學習應用的浪潮。

這是多麼棒的一件事啊!

但是我們應該如何簡單的開始研究機器視覺?以下是幾個主要的步驟
1.收集大量的資料
2.標註這些資料
3.拿到GPUs-訓練ML模型需要強大的計算支撐
4.選擇一個演算法-訓練你的模型-檢測結果-教會你的模型它還不知道的東西

重複以上步驟直到你得到的滿意的模型準確率

以上5步中的每一步都有他們自己的技術和操作注意事項。在這篇文章中,我們會針對第2條(標註訓練資料)來進行簡單的講解

機器視覺得幾個廣泛應用案例:

自動駕駛車輛(waymo,Tesla,Cruise)-一個自動駕駛的車輛需要識別出它前方的物體(和後方!),是一輛車,路標,行人或者是一隻流浪的公雞。

無人機-亞馬遜想要利用無人機來為客戶送貨,那麼無人機需要知道在他們前方的物體以便於他們不會撞上飛行中的鳥或者電線。無人機也被廣泛應用於安全安防和軍隊偵查

地圖和衛星(mapbox,Here,Orbital Insight)-衛星拍攝圖片的數量呈現出爆發性增長!這些資料可以用來確認颱風中是否有幸存者,使地圖內容更豐富甚至通過計算沃爾瑪停車場的車輛來預測銷售情況

機器人--機器視覺用來構建可以識別並且從貨架上取下某類商品的機器人手臂或者工業自動化甚至玩網球

OCR/BFSI-對信用卡評級,貸款申請等文件自動轉寫或者轉寫其他的手寫文件等

醫療行業-在機器視覺協助的手術中,機器手臂需要識別特定的手術工具

智慧農業-有一位日本的研究員利用機器視覺幫助他父母的農場給黃瓜分類,他們發現ML在通過黃瓜尺寸,形狀,顏色和其他必要引數的分類表現突出

第一步首先是要收集資料,當你開始時,可以嘗試一下幾個很棒的免費或者付費資料集:

這些資料集對於學習機器視覺的新手而言是一個很好的開始。甚至對於一個不是很重要的專案,這些資料也足夠來搭建一個簡單的模型,但是對於很多公司型或者大型專案,顯然不夠

要想提升你們CV模型的準確度,你需要用模型在現實中需要檢測的資料型別來訓練它。這些資料通常是很細緻的,不同於我們通常可以從網上獲得資料集

有很多方法可以收集資料,比如你可以從網上爬取資料或者像谷歌那種巨頭一樣利用使用者收集的資料或者從汽車攝像機中收集的資料,你甚至可以向別人購買資料集

一旦你得到了資料,你就需要標註它們,你需要考慮2個問題

如何標註資料?

誰來標註資料

注意:本文中說的資料特指圖片資料

選擇影象標註工具

網上有很多可以免費試用的資料標註工具,然後選擇一個正確的標註工具有時候不是那麼簡單,下面是幾個選擇時可以參考的因素:

搭建工具執行需要花費的時間和精力

標註準確度

標註速度

一些流行的圖片標註工具(需要MIT許可)

Comma coloring--Comma 自動駕駛技術環境中幫助訓練機器學習,比如提供給你一張車載攝像頭的圖片並且要求你把圖片中的不同區域塗上不同的顏色,比如圖片中的哪個區域是天空,哪個區域是道路,識別交通訊號燈等等,這個工具是開源的

Annotorious-可以在網頁上的圖片上標註比如畫框並且註釋內容。比如在一張圖片中把狗框選出來並且註釋這是一條狗。需要MIT認證,可以免費用於商業和非商業專案

幫助機器視覺研究建立圖片資料庫。你可以通過訪問標註工具來增添這個資料集的內容

另外幾個靠譜的開源標註工具:


如果您對訓練資料採集和標註有需求的話,請訪問我們的網站www.sparkapi.ai或者聯絡email :[email protected]獲得更多資訊,如果可以幫助到您,我們將十分高興

相關推薦

機器視覺常用開源資料免費標註工具

科技巨頭如Google,微軟,亞馬遜等都紛紛宣佈在AI領域佈局,AI的影響隨著深度學習的應用日益深入。機器視覺作為一個熱門子領域,無論是在傳統金融行業還是最新自動駕駛領域都掀起了一股學習應用的浪潮。這是多麼棒的一件事啊!但是我們應該如何簡單的開始研究機器視覺?以下是幾個主要的

機器學習常用資料處理方法

1.離散值的處理: 因為離散值的差值是沒有實際意義的。比如如果用0,1,2代表紅黃藍,1-0的差值代表黃-紅,是沒有意義的。因此,我們往往會把擁有d個取值的離散值變為d個取值為0,1的離散值或者將其對映為多維向量。 2.屬性歸一化: 歸一化的目標是把各位屬

視覺SLAM常用資料

下面列舉幾個視覺SLAM常用的資料集。 常用的資料集有:KITTI資料集、EuRoC資料集、TUM資料集、Oxford資料集、ICL-NUIM資料集、RGBD Object資料集等等。 KITTI資料集 KITTI資料集由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦,是目前國際

計算機視覺-實驗常用影象資料

1.搜狗實驗室資料集: 網際網路圖片庫來自sogou圖片搜尋所索引的部分資料。其中收集了包括人物、動物、建築、機械、風景、運動等類別,總數高達2,836,535張圖片。對於每張圖片,資料集中給出了圖片的原圖、縮圖、所在網頁以及所在網頁中的相關文字。200多G 2

機器視覺 OpenCV—python 影象資料獲取工具(視訊取幀)

一、前言 之前在做影象分類的時候,人臉識別(開原始碼)的練手,資料集獲取麻煩(沒人願意將自己照片給人家做資料集),於是就用自己造資料集,但是拍照拍幾百張訓練效果不好,也嫌麻煩,乾脆就是視訊取幀的方式,在這之前使用專門的軟體。不過opencv自帶了視訊處理的API

機器學習筆記3-拆分資料訓練

拆分資料集和訓練集 from sklearn import cross_validation # for version 0.17 # For version 0.18 # from sklearn

機器學習、深度學習開源資料分享

轉自:機器學習演算法與Python學習 機器學習演算法與Python學習 微訊號guodongwei1991 功能介紹作為溝通學習的平臺,釋出機器學習與資料探勘、深度學習、Python實戰的前沿與動態,歡迎機器學習愛好者的加入,希望幫助你在AI領域更好的發展,期待與你相遇! 今天

神經網路訓練資料、驗證資料測試資料的區別

whats the difference between train, validation and test set, in neural networks? Answer: The training and validation sets are used during t

資料 | 開源資料(計算機視覺影象、定位、識別)

博主github:https://github.com/MichaelBeechan    博主CSDN:https://blog.csdn.net/u011344545    計算機視覺資料集:https://github.com/Michael

計算機視覺(影象分類、檢測、分割)資料比賽

1 ImageNet資料集和ILSVRC Imagenet資料集是目前深度學習影象領域應用得非常多的一個數據集,關於影象分類、定位、檢測等研究工作大多基於此資料集展開。Imagenet資料集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類

機器視覺工業相機常用引數

工業相機是機器視覺系統中的一個關鍵元件,其最基礎功能就是將光訊號轉變成為有序的電訊號。選擇合適的工業相機也是機器視覺系統設計中的重要環節,工業相機不僅是直接決定所採集到的影象解析度、影象質量等,同時也

機器學習Tensorflow基於MNIST資料識別自己的手寫數字(讀取測試自己的模型)

更新: 以下為原博: 廢話不多說,先上效果圖 整體來看,效果是非常不錯的,模型的訓練,參照官方程式碼mnist_deep.py,準確率是高達99.2% 那麼,我是怎麼實現的呢? 一.讀懂卷積神經網路程式碼(至少得把程式跑通) 首先參照Tensorfl

計算機視覺相關資料比賽

Imagenet資料集是目前深度學習影象領域應用得非常多的一個數據集,關於影象分類、定位、檢測等研究工作大多基於此資料集展開。Imagenet資料集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類別標註和影象中物體位置的標註。Image

C# + ArcEngine讀取檔案地理資料庫fileGDB資料要素類生成目錄樹

首先是得到了工作空間中的要素資料集,即EnumDataSet物件,通過第一個引數傳遞進來;第二個引數是樹節點,要把遍歷得到的資料集的名字新增到該節點上,也是通過引數傳遞進來;當然,此方法前面的程式碼是要讀取工作空間,得到要素資料集EnumDataSet物件,並建立好樹節點,最

刪除sas work邏輯庫資料巨集

/*****刪除sas work邏輯庫中的所有巨集*****/proc  catalog catalog=work.sasmacr force kill;run; quit;/*****刪除sas work邏輯庫中的資料集*****/proc datasets library

安全資料開源工具

    由於本人從事安全相關的行業的工作,接觸到很多想用機器學習解決網路安全相關的問題,不可避免的需要用到很多安全相關的開源資料集和工具,這裡記錄一下本人自己用過並感覺不錯的資料集和開源工具。當然,這可能只是安全領域資料集和開源工具極小的一部分,希望能起到拋磚引玉的目的吧,本

目標檢測/分類常用資料評價指標小彙集

二:混淆矩陣 (Confusion Matrix) 三:召回率(Recall)、精確率(Precision) 四: P-R曲線、平均精度(Average-Precision,AP)、F指標 五:受試者工作特徵曲線(Receiver Operating

Python 3個常用資料結構演算法

Python內建了許多非常有用的資料結構,比如列表(list)、集合(set)以及字典(dictionary)。就絕大部分情況而言

視覺處理常用的一些概念微小算法

機器視覺~ false positives 虛警率~ false negative 漏檢率~ recall 檢出率/查全率~ precision 正確率~ intergral images 積分幀(算法),該算法能夠快速算出區塊的灰度和An integral image helps you rapidly c

C#語言常用的判斷語句循環語句

只讀 代碼示例 賦值 循環 數字 其他 do while 表達 集合 C#語言中,我們常用的判斷語句和循環語句都有哪些呢? 1、if判斷 代碼格式:if(條件1){  代碼1 }else if(條件2){  代碼2