1. 程式人生 > >【轉】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

【轉】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

轉自:https://www.jqr.com/news/009492

在計算機視覺發展的早期,人們主要關注影象中的人、動物或工具等明顯物件(things)。之後,Adelson提出要訓練系統識別其他物體的能力,如天空、造地、道路等沒有固定形狀的事物(stuff)。直到現在,仍然沒有一種方法能完美地區分不規則事物與獨立個體物件,這對影象識別任務和演算法生成特定物件來說都是一項挑戰。

要識別特定的事物,就要用分割的方法將影象分解。目前常用的有兩種分割方法:語義分割(semantic segmentation)和例項分割(instance segmentation)。語義分割常用來識別研究不規則事物,例如天空、草地。由於這類物件沒有特定的形狀,同時又不可數,所以語義分割只能簡單地給每一個畫素打上標籤。

相反,研究可數的、獨立事物,通常用目標檢測或例項分割的方法,從而檢測到每個物件,並用邊框或分割掩碼(segmentation mask)勾畫出來。

然而,對不規則物體的分類器,即語義分割,通常建立在膨脹後的充分卷積網路上。而物體檢測器,即例項分割,常用object proposals方法,並且基於區域。雖然有關兩種方法的演算法在過去十年中都得到了發展,但是否能有一種方法能同時識別不規則的背景與圖中獨立的個體呢?基於此,Facebook人工智慧實驗室(FAIR)的研究科學家何愷明博士與他的團隊近日公佈了一種新系統,名為全景分割(Panoptic Segmentation,簡稱PS)。顧名思義,全景分割就是要生成統一的、全域性式的分割影象。

簡單地說,其工作原理就是將影象中的每個畫素都分配一個語義標籤和一個例項ID。有同樣標籤和ID的畫素歸為同一物件;在檢測不規則事物(stuff)時,可忽視例項ID。下圖就是語義分割、例項分割以及全景分割的對比圖。

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

(a)原圖;(b)語義分割;(c)例項分割;(d)全景分割

全景分割的詳細介紹(PS)

假設給定一組語義類別L,L:={1,…,L}。全景分割演算法將給影象中的每個畫素打上標籤(li,zi)∈L × N,這裡li表示畫素i的語義類別,zi表示它的例項ID。例項(而非畫素)是演算法生成的單位,並且將用於之後的評估過程。對一張照片的ground truth標註方法也是一樣的。

語義標籤含有兩個子集:LSt

和LTh,分別代表stuff和things。如果一個畫素標籤li∈LSt,而它的例項ID與其無關。那麼這一stuff類別中的所有畫素都屬於同一事物,例如同一片天空。相反,如果所有畫素都屬於同一個(li,zi)類別,同時li∈LTh,那麼它們有可能是同一物體,例如同一輛車。

評估標準——PQ

全景分割的評估標準要符合三個特徵:全面、可解釋、簡單。研究人員們根據這些標準制定了全景質量(Panoptic Quality,簡稱PQ)標準。PQ方法主要衡量全景分割是否與真實圖片的相近程度。主要有兩個步驟:

  • 例項對應(instance matching)

  • PQ計算

例項對應(Instance Matching)

研究人員規定,只有當模型預測的分割視窗與原圖示記視窗的重疊率,即檢測評價函式(IoU)嚴格大於0.5時,二者才能匹配。這樣的要求就保證了最多隻有一個分割影象能與真實圖片相匹配。

全景質量(PQ)計算

我們對每一類別進行獨立的全景質量計算,然後再取平均值。對每一類別,唯一的匹配將預測分割影象與真實影象分成三類:真正(TP)、假正(FP)和假負(FN),分別表示匹配的分割、不匹配的預測分割影象和不匹配的真實影象。下圖為一示例:

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

顏色相同的表示IoU大於0.5

PQ的定義用公式表示為:

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

全景分割資料集

目前為止,只有三個資料集既有大量語義分割標註,又有例項分割標註。

  • Cityscapes:擁有5000張街景圖片,97%的圖片有畫素標註,共有19個類別,其中8個類別符合語義分割的特徵;

  • ADE20k:影象總量超過25000張,並經過公開標註。其中包括100種物體和59種事物。

  • Mapillary Vistas:同樣擁有25000張街景照片,解析度也大不相同。其中98%的圖片都經過了畫素標註,涵蓋28種事物與37種物體。

除此之外,未來我們還會把這一任務擴充套件到COCO上。

人類表現的如何?

全景分割和全景質量評估的優點之一是它也能測量人的表現。同時,對人類表現的研究也有助於研究人員瞭解這項任務的細節,並提升系統的效能。

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

上圖就展示了人類在上述三個資料集中的表現,除了全景質量(PQ)之外,還測試了分割質量(SQ)和檢測質量(DQ)。不過,人類識別物體的能力也並不完美,比如下面兩圖就說明人們在區分重疊物體以及分類的時候也會“眼花繚亂”。

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

第一排中,兩位標註員都識別出了汽車,但第一位卻把一輛汽車看成了兩輛;第二排中,圖中那人的腳確定是他自己的麼……

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

第一排中,目標物體應該是地毯(rug)而不是地板(floor);而第二排中的街景比較複雜,很多人都把後面的電車(tram)看做了建築(building)

繼續細分下來,全景分割是將事物(stuff)和物體(things)結合起來的,如果測試人類在這兩項中的表現,會有什麼結果呢?

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

如圖所示,研究人員將每一類都分出了事物和物體的小類,比如PQSt指對事物的全景分割能力,PQTh指對物體的全景分割能力。

在Cityscapes和ADE20k中,人類在事物和物體上的表現相差不大。但是在Vistas資料集上就差的有點多。

下圖展示了在每個資料集所包含的所有類別中,人類的全景分割能力。

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

紅色表示物體(thing),黃色表示事物(stuff),二者的比例比較平均,說明PQ平衡了它們的表現

另外,影象中物件的大小也會影響人們識別它的能力。下圖就統計了在大(L)、中(M)、小(S)三個尺寸下人類進行全景質量、分割質量和檢測質量的水平。

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

結果不言而喻,影象尺寸越大,表現越好。

機器表現得又怎樣呢?

看完了人類表現,現在我們要探討兩個問題:

  • 最先進的例項分割和語義分割系統如何在全景分割上工作?

  • 機器生成的結果與人類的相比怎麼樣?

對於選取的三個資料集,研究人員分別收集了合適的資料。對Cityscapes,他們採用了PSPNet和Mask R-CNN收集輸出資料,分別用於語義分割和例項分割。對於ADE20k,研究人員利用的是在2017 Places挑戰賽中的勝出者得出的結果作為資料集。對於Vistas,研究者採用了LSUN’17 影象分割挑戰賽中勝出者產生的1000張圖片作為資料集。準備好資料和演算法後,就開始讓機器進行全景分割測試啦!

首先是機器的例項分割表現(Vistas不在其中是因為在2017實力分割挑戰賽中只有一個記錄)。

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

APNO是預測中非重疊的AP。正如預測的那樣,去除重疊部分會損害AP,因為檢測器可以預測多個重疊的假設。有較高AP得分的同樣有較高的APNO,PQ也是如此

接下來是語義分割的表現,由於語義分割沒有重疊的片段,所以我們可以直接計算PQ。在下表中,我們比較了平均IoU值和PQ值。

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

最後,將上述兩個結果對比,如下表:

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

全景分割的輸出可見下圖:

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

左邊兩個出自Cityscapes資料集,右邊三個來自ADE20k(圖中陰影部分表示未匹配區域,黑色表示未標註區域)

以及人與機器的表現對比:

【原創】FAIR何愷明團隊推出全景分割,開闢影象分割新方向

在每個資料集上,人類的表現都要優於機器

對分割質量(SQ)來說,機器只落後於人類一點點,不過在檢測質量(DQ)方面,機器的水平則與人類差得多,尤其在ADE20k和Vistas資料集上,這種差距更明顯。這就說明機器識別,即目標檢測是目前最大的挑戰。

結語

希望今後的專案能夠以全景分割為出發點,引入更有趣的演算法,驅動影象識別領域的創新。研究人員希望未來能看到深度整合的端到端模型,同時具備PS的“雙重性質”(stuff和things);另外,由於PS不能有重疊的片段,因此某種高層次的“推理”可能是有益的。例如,基於向PS擴充套件科學系的NMS。最後,研究人員希望2018年能夠繼續挑戰全景分割,創造更多新成果。