1. 程式人生 > >影象分類、目標檢測、影象分割區別

影象分類、目標檢測、影象分割區別

1、影象分類

影象分類主要是基於影象的內容對影象進行標記,通常會有一組固定的標籤,而你的模型必須預測出最適合影象的標籤。這個問題對於機器來說相當困難的,因為它看到的只是影象中的一組數字流。

上圖片來自於Google Images

而且,世界各地經常會舉辦多種多樣的影象分類比賽。在Kaggle中就可以找到很多這樣的競賽。最著名的比賽之一就是ImageNet挑戰賽。ImageNet實際上是一個很神奇的影象庫(截止到編輯本文時,其中就約有1400萬張影象),擁有超過20000個影象標籤。這是由斯坦福大學計算機視覺實驗室維護的。ImageNet挑戰或大規模視覺識別挑戰(LSVRC)都是一個年度競賽,其中具有諸如目標分類,目標檢測和目標定位等各種子挑戰。LSVRC,特別是目標分類的挑戰,自從2012年,Alex Krizhevsky實施了著名的AlexNet,將影象的錯誤率降低到15.7%(在當時從未實現),便開始獲得了很多關注。而最新的結果顯示,微軟ResNet的錯誤率為3.57%,Google的Inception-v3已經達到3.46%,而Inception-v4則又向前進了一步。

來源於Alfredo Canziani,Adam Paszke和Eugenio Culurciello於2017年撰寫的文章《實際應用中深度神經網路模型的分析》(https://arxiv.org/pdf/1605.07678.pdf)

2、目標檢測

影象中的目標檢測涉及識別各種子影象並且圍繞每個識別的子影象周圍繪製一個邊界框。這裡有一個例子:

上圖片來自於Google Images

與分類相比,這個問題要稍微複雜一點,你必須對影象進行更多的操作和處理。現在最著名檢測方法叫做Faster-RCNN。RCNN是區域性卷積神經網路,它使用一種稱為候選區域生成網路(Region Proposal Network,RPN)的技術,實際上是將影象中需要處理和分類的區域區域性化。後來RCNN經過調整效率得以調高,現在稱之為faster – RCNN,一種用作候選區域生成方法的一部分用以生成區域性的卷積神經網路。目前最新的image-net挑戰(LSVRC 2017)有一個目標檢測的挑戰賽的冠軍,被一個名為“BDAT”的團隊所囊括,該團隊包括來自南京資訊工程大學和倫敦帝國理工學院的人員。

3、影象/例項分割

影象分割或例項分割包括對具有現有目標和精確邊界的影象進行分割。

圖片來自於是Google Images

它使用了一種叫做Mask R-CNN的技術,實際上就是我們前面看到的R-CNN技術上的幾個卷積層。微軟、Facebook和Mighty AI聯合釋出了這個稱為COCO的資料集。它與ImageNet很相似,但它主要用於分割和檢測。