深度學習（十八）——YOLOv2(2), 語義分割

阿新 • • 發佈：2019-01-18

YOLOv2

Stronger（續）

Hierarchical classiﬁcation（層次式分類）

ImageNet的標籤參考WordNet（一種結構化概念及概念之間關係的語言資料庫）。例如：

這裡寫圖片描述

很多分類資料集採用扁平化的標籤。而整合資料集則需要結構化標籤。

WordNet是一個有向圖結構（而非樹結構），因為語言是複雜的（例如“dog”既是“canine”又是“domestic animal”），為了簡化問題，作者從ImageNet的概念中構建了一個層次樹結構（hierarchical tree）來代替圖結構方案。這也就是作者論文中提到的WordTree。

WordTree的細節，更偏NLP一些，這裡不再贅述。

參考

YOLO2

YOLOv2論文筆記

目標檢測之YOLOv2

其它目標檢測網路

A-Fast-RCNN

A-Fast-RCNN首次將對抗學習引入到了目標檢測領域，idea是非常創新的。

A-Fast-RCNN論文筆記

R-FCN

FCN在目標檢測領域的應用。

R-FCN: Object Detection via Region-based Fully Convolutional Networks

G-CNN

G-CNN是MaryLand大學的工作，論文主要的思路也是消除region proposal，和YOLO，SSD不同，G-CNN的工作借鑑了迭代的想法，把邊框檢測等價於找到初始邊框到最終目標的一個路徑。但是使用one-step regression不能處理這個非線性的過程，所以作者採用迭代的方法逐步接近最終的目標。

G-CNN: an Iterative Grid Based Object Detector

語義分割

Semantic segmentation是影象理解的基石性技術，在自動駕駛系統（具體為街景識別與理解）、無人機應用（著陸點判斷）以及穿戴式裝置應用中舉足輕重。

我們都知道，影象是由許多畫素（Pixel）組成，而“語義分割”顧名思義就是將畫素按照影象中表達語義含義的不同進行分組（Grouping）/分割（Segmentation）。

這裡寫圖片描述

上圖是語義分割網路ENet的實際效果圖。其中，左圖為原始影象，右圖為分割任務的真實標記（Ground truth）。

顯然，在影象語義分割任務中，其輸入為一張HxWx3的三通道彩色影象，輸出則是對應的一個HxW矩陣，矩陣的每一個元素表明了原圖中對應位置畫素所表示的語義類別（Semantic label）。

因此，影象語義分割也稱為“影象語義標註”（Image semantic labeling）、“畫素語義標註”（Semantic pixel labeling）或“畫素語義分組”（Semantic pixel grouping）。

由於影象語義分割不僅要識別出物件，還要標出每個物件的邊界。因此，與分類目的不同，相關模型要具有畫素級的密集預測能力。

目前用於語義分割研究的兩個最重要資料集是PASCAL VOC和MSCOCO。

參考：

從特斯拉到計算機視覺之“影象語義分割”

一個語義分割的專欄

影象語義分割之FCN和CRF

影象語義分割之特徵整合和結構預測

語義分割中的深度學習方法全解：從FCN、SegNet到各代DeepLab

Instance-Aware影象語義分割

如何通過CRF-RNN模型實現影象語義分割任務

堆疊解卷積網路實現影象語義分割頂尖效果

還在用ps摳圖摳瞎眼？機器學習通用背景去除產品誕生記

“見微知著”——細粒度影象分析進展綜述

賈佳亞：最有效的COCO物體分割演算法

見微知著：語義分割中的弱監督學習

基於深度學習的影象語義分割方法回顧

港中文-商湯聯合論文：自監督語義分割的混合與匹配調節

前DL時代的語義分割

從最簡單的畫素級別“閾值法”（Thresholding methods）、基於畫素聚類的分割方法（Clustering-based segmentation methods）到“圖劃分”的分割方法（Graph partitioning segmentation methods），在DL“一統江湖”之前，影象語義分割方面的工作可謂“百花齊放”。在此，我們僅以“Normalized cut”和“Grab cut”這兩個基於圖劃分的經典分割方法為例，介紹一下前DL時代語義分割方面的研究。

Normalized cut

Normalized cut （N-cut）方法是基於圖劃分（Graph partitioning）的語義分割方法中最著名的方法之一，於2000年Jianbo Shi和Jitendra Malik發表於相關領域頂級期刊TPAMI。

通常，傳統基於圖劃分的語義分割方法都是將影象抽象為圖（Graph）的形式 $G = (V, E)$ （ $V$ 為圖節點， $E$ 為圖的邊），然後藉助圖理論（Graph theory）中的理論和演算法進行影象的語義分割。

常用的方法為經典的最小割演算法（Min-cut algorithm）。不過，在邊的權重計算時，經典min-cut演算法只考慮了局部資訊。如下圖所示，以二分圖為例（將 $G$ 分為不相交的 $A, B$ 兩部分），若只考慮區域性資訊，那麼分離出一個點顯然是一個min-cut，因此圖劃分的結果便是類似 $n_{1}$ 或 $n_{2}$ 這樣離群點，而從全域性來看，實際想分成的組卻是左右兩大部分。

這裡寫圖片描述

針對這一情形，N-cut則提出了一種考慮全域性資訊的方法來進行圖劃分（Graph partitioning），即，將兩個分割部分 $A, B$ 與全圖節點的連線權重（ $a s s o c (A, V)$ 和 $a s s o c (B, V)$ ）考慮進去：

N_{c u t} (A, B) = \frac{c u t (A, B)}{a s s o c (A, V)} + \frac{c u t (A, B)}{a s s o c (B, V)}

如此一來，在離群點劃分中， $N_{c u t} (A, B)$ 中的某一項會接近1，而這樣的圖劃分顯然不能使得 $N_{c u t} (A, B)$ 是一個較小的值，故達到考慮全域性資訊而摒棄劃分離群點的目的。這樣的操作類似於機器學習中特徵的規範化（Normalization）操作，故稱為Normalized cut。N-cut不僅可以處理二類語義分割，而且將二分圖擴充套件為K路（K-way）圖劃分即可完成多語義的影象語義分割，如下圖例。

這裡寫圖片描述

深度學習（十八）——YOLOv2(2), 語義分割

YOLOv2

Stronger（續）

Hierarchical classiﬁcation（層次式分類）

參考

其它目標檢測網路

A-Fast-RCNN

R-FCN

G-CNN

語義分割

前DL時代的語義分割

Normalized cut

深度學習（十八）——YOLOv2(2), 語義分割

深度學習（十八）基於R-CNN的物體檢測

機器學習與深度學習系列連載：第二部分深度學習（十四）迴圈神經網路 2（Gated RNN - LSTM ）

機器學習與深度學習系列連載：第二部分深度學習（十一）卷積神經網路 2 Why CNN for Image？

機器學習與深度學習系列連載：第二部分深度學習（十四）迴圈神經網路 2（Gated RNN

深度學習（十七）——SSD, YOLOv2

機器學習與深度學習系列連載：第一部分機器學習（十八）模型評估

【轉】JMeter學習（十八）JMeter測試Java（二）

C++語言學習（十八）——異常處理

深度學習（十二）wide&deep model

GO語言學習（十八）Go 語言接口

深度學習（十一）RNN入門學習

深度學習（十九）基於空間金字塔池化的卷積神經網路物體檢測

機器學習之python學習（十八）

JMeter學習（十八）JMeter測試Java（二）

機器學習與深度學習系列連載：第二部分深度學習（十六）迴圈神經網路 4（BiDirectional RNN， Highway network， Grid-LSTM）

機器學習與深度學習系列連載：第二部分深度學習（十五）迴圈神經網路 3（Gated RNN - GRU）

機器學習與深度學習系列連載：第二部分深度學習（十二）卷積神經網路 3 經典的模型（LeNet-5，AlexNet ，VGGNet，GoogLeNet，ResNet）

機器學習與深度學習系列連載：第二部分深度學習（十八) Seq2Seq 模型

深度學習（十七）

深度學習（十八）——YOLOv2(2), 語義分割

YOLOv2

Stronger（續）

Hierarchical classiﬁcation（層次式分類）

參考

其它目標檢測網路

A-Fast-RCNN

R-FCN

G-CNN

語義分割

前DL時代的語義分割

Normalized cut

相關推薦