1. 程式人生 > >【閱讀筆記】《Panoptic Segmentation》

【閱讀筆記】《Panoptic Segmentation》

本文記錄了博主在閱讀《Panoptic Segmentation》一文過程中記錄的筆記。更新於2018.12.27。

文章目錄

Useful links

COCO challenge 2018: panoptic segmentation


panoptic segmentation data set
Panoptic Segmentation API
中文介紹

Cityscapes
ADE20k
Mapillary Vistas

Introduction

全景分割(PS,Panoptic Segmentation)的task format: 每個畫素點都必須被分配給一個語義標籤(stuff、things中的各個語義)和一個例項id。具有相同標籤和id的畫素點屬於同一目標;對於stuff標籤,不需要例項id。

論文作者認為目前分割任務在things或stuff之間分別進行而非統一分割的一個很重要的原因是缺少合適的度量矩陣。因此,文中提出了一種適用於二者的panoptic quality

(PQ) metric。

與語義分割相比,全景分割的困難在於為了區分不同類別的例項,全連線網路的設計要更困難一些;
與例項分割相比,目標的分割必須是非重疊的(non-overlapping),因此對那些每個目標單獨標註一個區域是不同的。

Related Work

作者在這一部分寫的還是很有啟發性的,建議看一下。博主後面會更新這一部分。

Panoptic Segmentation Format

Task format: 全景分割的任務要求一個演算法能夠將圖片內的每一個畫素點 i

i 投射成 ( l i , z i ) (l_i,z_i) ,其中 l i l_i 是其語義分割的類別, z i z_i 是其例項分割的id。具有相同 z i z_i 標註的畫素點會被聚整合不同的部分。模稜兩可或無法確定類別的點可以被賦予一個空標註,也就是說不是所有的點都必須有一個語義標註。

Stuff and thing labels: 這裡,所有語義類別都要麼屬於stuff,要麼屬於thing,不會有一個類別既屬於Stuff又屬於thing。且,如果一個畫素被標註為stuff,那麼其例項類別就無所謂了,即預設所有具有相同stuff類別的物體都被認為是同一樣東西(如都是藍天);否則,只有具有相同例項類別的點才會被標註成同類目標(如同一輛車)。

與語義分割的關係: 如果所有的類別都是stuff,那麼PS確實與語義分割相同(但task metrics不同)。且引入了thing類別後,圖片中可能出現多個例項,這也對分割造成了影響。

與例項分割的關係: PS中不允許重疊,但是例項分割中可以有重疊區域。

Confidence scores: 與語義分割相同但不同於例項分割,PS不需要每個segment的置信概率。儘管不提供置信概率更貼近人類認知世界的方法;但是對於底層機器而言,置信概率還是有用的,因此論文作者提出也需要能夠提供置信概率的PS演算法。

Panoptic Segmentation Metric

論文作者認為,將stuff分割和thing分割統一起來的度量應當具有:

  • 完整性:這個度量需要統一對待stuff和thing,將任務中所有方面都考慮到。
  • 可解釋性: 我們追求可定義的度量,因為其可以促進交流和理解。
  • 簡單:該度量應當定義簡介,使用簡單,能夠被簡單地復現。

考慮到上面幾點,論文作者們提出了下面這個度量,其分為兩步:segment matching和給定matches下的PQ computation。

Segment Matching

兩個條件:

  • IoU(intersection over union)要嚴格大於0.5才算匹配(predicted segment與ground truth segment);
  • 不可以有重疊區域(non-overlapping property)。

上述這兩個條件就限制了,每一個點最多隻能有一個與之對應的ground truth segment(unique matching)。
這段話比較難理解,這裡放上原文以輔助:

… gives a unique matching: there can be at most one predicted segment matched with each ground truth segment.

針對上面這個陳述,原文中給出了Theorem 1並附有證明,感興趣可以看原文第四頁。

在這個基礎上,原文中歸納出了由定理1給出的兩個性質:

  • First, it is simple and efficient as correspondences are unique and trivial to obtain.
  • Second, it is interpretable and easy to understand (and does not require solving a complex matching problem as is commonly the case for these types of metrics).

這些性質還是比較難理解的,博主個人認為,這兩個性質的主要帶來的好處也就是,一個位置就只能給一個標籤了,不會像例項分割中那樣,一個點還可能給多個分割標籤(因為例項分割允許重疊),那麼這一個點就是獨特的了,對於該點所攜帶資訊的理解也就是唯一的了。這種唯一性就使得:首先,分割任務更簡單(因為不存在“一詞多義”);其次,可解釋(一個點就一個分割也就是一個含義)。這段理解如果各位在閱讀原文後有不同的理解,歡迎在評論區討論,這裡博主僅將個人理解放在這裡拋磚引玉。

另外,論文作者在文中還給出了一個博主認為很重要的結論:不需要考慮小於0.5的IoU,因為實際應用中,以IoU$\leq$0.5匹配的情況非常稀少。

PQ Computation

PQ:Panoptic Quality

論文作者首先單獨計算每個類別對應的PQ,隨後對所有類別取平均。這樣就使得PQ對於類別不均衡(class imbalabce)不敏感。

對於每個類別,unique matching將predicted segments和ground truth segments分為三類:true positives (TP), false positives (FP), 和false negatives (FN),分別對應配對的分割(matched pairs of segments),不配對的估計分割(unmatched predicted segments),不配對的真值分割(unmatched ground truth segments)。

下圖是一個例子:

在這裡插入圖片描述

給定上述三個類別,PQ由下式定義:

PQ = ( p , g ) T P IoU ( p , g ) T P + 1 2 F P + 1 2 F N \text{PQ}=\frac{\sum_{(p,g)\in TP}\text{IoU}(p,g)}{\vert TP\vert + \frac{1}{2}\vert FP\vert+\frac{1}{2}\vert FN \vert}

其中, 1 T P ( p , g ) T P IoU ( p , g ) \frac{1}{\vert TP\vert}\sum_{(p,g)\in TP}\text{IoU}(p,g) 很好理解,就是對於所有匹配上的分割求平均IoU,分母中增加的 1 2 F P + 1 2 F N \frac{1}{2}\vert FP\vert+\frac{1}{2}\vert FN\vert 是為了懲罰沒有匹配正確的點(因為分母增加後,PQ的值降低,即分割質量下降)。需要注意的是,無論segments的位置,它們都具有相同的權重。

另外,PQ通過變換也可以理解為分割質量(SQ,segmentation quality)與識別質量(PQ,recognition quality)的乘積:

PQ = ( p , g ) T P IoU ( p , g ) T P segmentation quality (SQ) × T P T P + 1 2 F P + 1 2 F N recognition quality (RQ) \text{PQ}=\underbrace{\frac{\sum_{(p,g)\in TP}\text{IoU}(p,g)}{\vert TP\vert}}_\text{segmentation quality (SQ)}\times\underbrace{\frac{\vert TP\vert}{\vert TP\vert + \frac{1}{2}\vert FP\vert + \frac{1}{2}\vert FN \vert}}_\text{recognition quality (RQ)}

其中RQ就是檢測中常用的質量估計 F 1 F_1 score。

空標註(Void labels)
在真值中有兩種空標註型別:超出類別畫素(out of class pixels)和模糊或未知畫素(ambiguous or unkown pixels)。在評估過程中,對應真值空標註的這些點不參與評估。具體移除方式文中有說明,見原文第5頁void labels。

組標註(Group labels)
在某些情況下,區分具有相同語義分割的不同相鄰例項有一定困難,此時一種常用的做法是用group labels替代instance ids。在PQ中,首先,不使用group labels;其次,對於包含一部分相同類別畫素點的unmatched predicted segments,這一部分將被去除並不視作false positives。

與現有度量的比較

語義分割度量
用於語義分割的現有度量主要包括畫素準確度(pixel accuracy)、平均準確度(mean accuracy)和IoU。然而這些分割方法都只關注了畫素級的正確率,而沒有考慮例項正確性,因此不適合用於thing類別的分割任務。

例項分割度量
標準的例項分割度量是平均精度(Average Precision,AP)。AP要求所有的目標分割都有一個置信概率用於估計precision/recall曲線。然而,這種方法無法度量語義分割或全景分割的輸出。

全景質量(Panoptic quality)
PQ不是單純的語義分割度量與例項分割度量的組合,SQ和RQ對於每一個類別(stuff和thing)都被計算了,分別用於評估分割和識別的精度。

全景分割資料庫

就論文作者已知的,目前只有三個資料庫同時包括稠密語義分割與例項分割標註:CityscapesADE20kMapillary Vistas。在全景分割中,這三種資料庫都被使用了,論文作者也將進一步擴充套件COCO資料集(其中stuff類別已經有了標註)。

關於資料庫的情況,博主直接截圖放在下面了:

在這裡插入圖片描述

人類行為研究

論文中從人類標註(human annotations)、人類表現(human performance)、stuff vs. things、小物體vs.大物體、IoU閾值和SQvs.RQ平衡幾個方面做了描述。博主認為這一部分的內容還是具有很大的啟發性的,然而博主目前的理解僅限於機械的翻譯,而沒有辦法對這一部分給出自己的理解,因此建議感興趣的話自行閱讀原文對應部分。當然博主後面如果有了不同的理解,會回來更新。