資料標註還能更快!谷歌釋出影象標註機器學習輔助工具
基於深度學習的現代計算機視覺模型,其效能主要取決於的大量已標註的可用訓練資料集,例如 Open Images 資料集。然而,如何獲得高質量的訓練資料,成為計算機視覺發展的主要瓶頸。如在無人駕駛、機器人和影象搜尋之類的應用中,使用的一些畫素級目標預測任務,比如語義分割任務,格外的需要更大更好的資料集。事實上,傳統的手工標註工具需要標註人仔細點選影象中每個物件的邊界,用來劃分影象中的目標,這項工作非常乏味:COCO+Stuff 資料集中標註單個影象就需要大概 19 分鐘,而標記整個資料集甚至需要 53000 個小時!

左圖| COCO 資料集中的一張圖片; 右圖|左圖的畫素級語義分割結果。(來源:Image credit)
谷歌的研究人員設計了一種機器學習驅動的工具,將在 2018 年 ACM 多媒體會議的“ Brave New Ideas ”環節展示,可以用於標註影象資料中每個目標的輪廓和背景,將其應用在標註分類資料上,可以讓標記資料集的生成速度提高至傳統方法的 3 倍。
該方法被谷歌稱之為流體標註(Fluid Annotation),從強語義分割模型的輸出開始,人工標註者可以使用使用者介面,通過機器輔助方法進行編輯修改。谷歌開發設計的介面允許標註者選擇要改正的內容和順序,讓他們能集中精力去處理機器尚未理解和標註的影象。

圖 | 對 COCO 資料集中的影象使用流體標註的視覺化介面。(來源:gamene)
為更準確的對影象進行標註,谷歌首先通過預訓練的語義分割模型(Mask-RCNN)來處理影象。這一過程會生成約 1000 個影象分割區域及其標籤和置信度。置信度最高的分割區域用來初始化標籤,呈現給標註者。
然後標註者可以:
(1)從機器生成的候選分類標籤中為當前區域選擇標籤。(2)對機器未覆蓋到的目標新增分割區域。機器會識別出最可能的預生成區域,標註者從中選擇分割效果最好的一個。(3)刪除現有分割區域。(4)改變重疊區域的深度順序。
Demo 連結:
ofollow,noindex"> https:// fluidann.appspot.com (PC 平臺可用)

圖 |使用傳統人工標註工具(中列)和流體標註工具(右列)在 COCO 資料集的三張影象上比較標註結果。雖然使用人工標註工具時,目標的邊界一般更準確,但同一物件的標註有時會存在差異,其主要是因為人類標註者通常對某一確定目標的類別有不同意見。圖片來源:sneaka(上),Dan Hurt(中),Melodie Mesiano(下)。
在讓影象標註變得更快、更容易這個問題上,流體標註工具的出現只是第一步。未來團隊的目標是改進對目標邊界的標註,進一步利用人工智慧提升介面執行速度,最終可以處理以前無法識別的類別,讓資料收集變得越來越高效和快捷。
參考:
https:// ai.googleblog.com/2018/ 10/fluid-annotation-exploratory-machine.html