1. 程式人生 > >深度學習(十八)——YOLOv2(2), 語義分割

深度學習(十八)——YOLOv2(2), 語義分割

YOLOv2

Stronger(續)

Hierarchical classification(層次式分類)

ImageNet的標籤參考WordNet(一種結構化概念及概念之間關係的語言資料庫)。例如:

這裡寫圖片描述

很多分類資料集採用扁平化的標籤。而整合資料集則需要結構化標籤。

WordNet是一個有向圖結構(而非樹結構),因為語言是複雜的(例如“dog”既是“canine”又是“domestic animal”),為了簡化問題,作者從ImageNet的概念中構建了一個層次樹結構(hierarchical tree)來代替圖結構方案。這也就是作者論文中提到的WordTree。

WordTree的細節,更偏NLP一些,這裡不再贅述。

參考

YOLO2

YOLOv2論文筆記

目標檢測之YOLOv2

其它目標檢測網路

A-Fast-RCNN

A-Fast-RCNN首次將對抗學習引入到了目標檢測領域,idea是非常創新的。

A-Fast-RCNN論文筆記

R-FCN

FCN在目標檢測領域的應用。

R-FCN: Object Detection via Region-based Fully Convolutional Networks

G-CNN

G-CNN是MaryLand大學的工作,論文主要的思路也是消除region proposal,和YOLO,SSD不同,G-CNN的工作借鑑了迭代的想法,把邊框檢測等價於找到初始邊框到最終目標的一個路徑。但是使用one-step regression不能處理這個非線性的過程,所以作者採用迭代的方法逐步接近最終的目標。

G-CNN: an Iterative Grid Based Object Detector

語義分割

Semantic segmentation是影象理解的基石性技術,在自動駕駛系統(具體為街景識別與理解)、無人機應用(著陸點判斷)以及穿戴式裝置應用中舉足輕重。

我們都知道,影象是由許多畫素(Pixel)組成,而“語義分割”顧名思義就是將畫素按照影象中表達語義含義的不同進行分組(Grouping)/分割(Segmentation)。

這裡寫圖片描述

上圖是語義分割網路ENet的實際效果圖。其中,左圖為原始影象,右圖為分割任務的真實標記(Ground truth)。

顯然,在影象語義分割任務中,其輸入為一張HxWx3的三通道彩色影象,輸出則是對應的一個HxW矩陣,矩陣的每一個元素表明了原圖中對應位置畫素所表示的語義類別(Semantic label)。

因此,影象語義分割也稱為“影象語義標註”(Image semantic labeling)、“畫素語義標註”(Semantic pixel labeling)或“畫素語義分組”(Semantic pixel grouping)。

由於影象語義分割不僅要識別出物件,還要標出每個物件的邊界。因此,與分類目的不同,相關模型要具有畫素級的密集預測能力。

目前用於語義分割研究的兩個最重要資料集是PASCAL VOC和MSCOCO。

參考:

從特斯拉到計算機視覺之“影象語義分割”

一個語義分割的專欄

影象語義分割之FCN和CRF

影象語義分割之特徵整合和結構預測

語義分割中的深度學習方法全解:從FCN、SegNet到各代DeepLab

Instance-Aware影象語義分割

如何通過CRF-RNN模型實現影象語義分割任務

堆疊解卷積網路實現影象語義分割頂尖效果

還在用ps摳圖摳瞎眼?機器學習通用背景去除產品誕生記

“見微知著”——細粒度影象分析進展綜述

賈佳亞:最有效的COCO物體分割演算法

見微知著:語義分割中的弱監督學習

基於深度學習的影象語義分割方法回顧

港中文-商湯聯合論文:自監督語義分割的混合與匹配調節

前DL時代的語義分割

從最簡單的畫素級別“閾值法”(Thresholding methods)、基於畫素聚類的分割方法(Clustering-based segmentation methods)到“圖劃分”的分割方法(Graph partitioning segmentation methods),在DL“一統江湖”之前,影象語義分割方面的工作可謂“百花齊放”。在此,我們僅以“Normalized cut”和“Grab cut”這兩個基於圖劃分的經典分割方法為例,介紹一下前DL時代語義分割方面的研究。

Normalized cut

Normalized cut (N-cut)方法是基於圖劃分(Graph partitioning)的語義分割方法中最著名的方法之一,於2000年Jianbo Shi和Jitendra Malik發表於相關領域頂級期刊TPAMI。

通常,傳統基於圖劃分的語義分割方法都是將影象抽象為圖(Graph)的形式G=(V,E)V為圖節點,E為圖的邊),然後藉助圖理論(Graph theory)中的理論和演算法進行影象的語義分割。

常用的方法為經典的最小割演算法(Min-cut algorithm)。不過,在邊的權重計算時,經典min-cut演算法只考慮了局部資訊。如下圖所示,以二分圖為例(將G分為不相交的A,B兩部分),若只考慮區域性資訊,那麼分離出一個點顯然是一個min-cut,因此圖劃分的結果便是類似n1n2這樣離群點,而從全域性來看,實際想分成的組卻是左右兩大部分。

這裡寫圖片描述

針對這一情形,N-cut則提出了一種考慮全域性資訊的方法來進行圖劃分(Graph partitioning),即,將兩個分割部分A,B與全圖節點的連線權重(assoc(A,V)assoc(B,V))考慮進去:

Ncut(A,B)=cut(A,B)assoc(A,V)+cut(A,B)assoc(B,V)

如此一來,在離群點劃分中,Ncut(A,B)中的某一項會接近1,而這樣的圖劃分顯然不能使得Ncut(A,B)是一個較小的值,故達到考慮全域性資訊而摒棄劃分離群點的目的。這樣的操作類似於機器學習中特徵的規範化(Normalization)操作,故稱為Normalized cut。N-cut不僅可以處理二類語義分割,而且將二分圖擴充套件為K路(K-way)圖劃分即可完成多語義的影象語義分割,如下圖例。

這裡寫圖片描述

相關推薦

深度學習——YOLOv2(2), 語義分割

YOLOv2 Stronger(續) Hierarchical classification(層次式分類) ImageNet的標籤參考WordNet(一種結構化概念及概念之間關係的語言資料庫)。例如: 很多分類資料集採用扁平化的標籤。而整合資料集則需要

深度學習基於R-CNN的物體檢測

基於R-CNN的物體檢測作者:hjimce一、相關理論本篇博文主要講解2014年CVPR上的經典paper:《Rich feature hierarchies for Accurate Object D

機器學習深度學習系列連載: 第二部分 深度學習迴圈神經網路 2Gated RNN - LSTM

迴圈神經網路 2(Gated RNN - LSTM ) simple RNN 具有梯度消失或者梯度爆炸的特點,所以,在實際應用中,帶有門限的RNN模型變種(Gated RNN)起著至關重要的作用,下面我們來進行介紹: LSTM (Long Short-term Memory )

機器學習深度學習系列連載: 第二部分 深度學習卷積神經網路 2 Why CNN for Image?

卷積神經網路 2 Why CNN 為什麼處理圖片要用CNN? 原因是: 一個神經元無法看到整張圖片 能夠聯絡到小的區域,並且引數更少 圖片壓縮畫素不改變圖片內容 1. CNN 的特點 卷積: 一些卷積核遠遠小於圖片大小; 同樣的pat

機器學習深度學習系列連載: 第二部分 深度學習迴圈神經網路 2Gated RNN

迴圈神經網路 2(Gated RNN - LSTM ) simple RNN 具有梯度消失或者梯度爆炸的特點,所以,在實際應用中,帶有門限的RNN模型變種(Gated RNN)起著至關重要的作用,下面我們來進行介紹: LSTM (Long Short-term

深度學習——SSD, YOLOv2

SSD SSD是Wei Liu於2016年提出的演算法。 論文: 《SSD: Single Shot MultiBox Detector》 程式碼: 網路結構 YOLO有一些缺陷:每個網格只預測一個物體,容易造成漏檢;對於物體的尺

機器學習深度學習系列連載: 第一部分 機器學習模型評估

模型評估 模型評估中有三個關鍵問題:  如何獲得測試結果? 評估方法  如何評估效能優劣? 效能度量  如何判斷實質差別? 比較檢驗 2. 效能度量(performance measure)是衡量模型泛化能力的 評價標準,反映了任務需求 (1

【轉】JMeter學習JMeter測試Java

sets interval permsize int 文件 不同 時間 結果 argument 實例: 服務為:將輸入的兩個參數通過IO存入文件; 1、打開MyEclipse,編寫Java代碼 服務: package test; import java.io.F

C++語言學習——異常處理

right data ges cal 修飾符 當前 ins 最終 cati C++語言學習(十八)——異常處理 一、C語言異常處理 異常是指程序在運行過程中產生可預料的執行分支。如除0操作,數組訪問越界、要打開的文件不存在。Bug是指程序中的錯誤,是不被預期的運行方式。如野

深度學習wide&deep model

結合 稀疏 正則化 深度學習 img div 網絡 傳遞 討論 推薦系統在電商等平臺使用廣泛,這裏討論wide&deep推薦模型,初始是由google推出的,主要用於app的推薦。 概念理解 Wide & Deep模型,旨在使得訓練得到的模型能夠同時獲得

GO語言學習Go 語言接口

結構 數據 ble 語言 print 一起 實例 ... class Go 語言接口 Go 語言提供了另外一種數據類型即接口,它把所有的具有共性的方法定義在一起,任何其他類型只要實現了這些方法就是實現了這個接口。 實例 /* 定義接口 */ type inter

深度學習RNN入門學習

RNN入門學習 原文地址:http://blog.csdn.net/hjimce/article/details/49095371 作者:hjimce 一、相關理論 RNN(Recurrent Neural Networks)中文名又稱之為:迴圈神經網路(原來還有一個遞迴神經網路

深度學習基於空間金字塔池化的卷積神經網路物體檢測

原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一、相關理論    本篇博文主要講解大神何凱明2014年的paper:《Spatial Pyramid Pooling in Dee

機器學習之python學習

今天來學習python中的資料結構dict, 這個用的也是相對的較少!!! 你們也可以參考廖雪峰大神的python教學快速入門。 總結下來 dict與和list比較,dict有以下幾個特點: (1)查詢和插入的速度極快,不會隨著key的增加而增加; (2)需要佔用大量的記憶體

JMeter學習JMeter測試Java

例項: 服務為:將輸入的兩個引數通過IO存入檔案;   1、開啟MyEclipse,編寫Java程式碼 服務: package test; import java.io.File; import java.io.PrintWriter; public c

機器學習深度學習系列連載: 第二部分 深度學習迴圈神經網路 4BiDirectional RNN, Highway network, Grid-LSTM

深度學習(十六)迴圈神經網路 4(BiDirectional RNN, Highway network, Grid-LSTM) RNN處理時間序列資料的時候,不僅可以正序,也可以正序+逆序(雙向)。下面顯示的RNN模型,不僅僅是simple RNN,可以是LSTM,或者GRU 1 B

機器學習深度學習系列連載: 第二部分 深度學習迴圈神經網路 3Gated RNN - GRU

迴圈神經網路 3(Gated RNN - GRU) LSTM 是1997年就提出來的模型,為了簡化LSTM的複雜度,在2014年 Cho et al. 提出了 Gated Recurrent Units (GRU)。接下來,我們在LSTM的基礎上,介紹一下GRU。 主要思路是: •

機器學習深度學習系列連載: 第二部分 深度學習卷積神經網路 3 經典的模型LeNet-5,AlexNet ,VGGNet,GoogLeNet,ResNet

卷積神經網路 3 經典的模型 經典的卷積神經網路模型是我們學習CNN的利器,不光是學習原理、架構、而且經典模型的超引數、引數,都是我們做遷移學習最好的源材料之一。 1. LeNet-5 [LeCun et al., 1998] 我們還是從CNN之父,LeCun大神在98年提出的模

機器學習深度學習系列連載: 第二部分 深度學習) Seq2Seq 模型

Seq2Seq 模型 Seq2Seq 模型是自然語言處理中的一個重要模型,當然,這個模型也可以處理圖片。 特點是: Encoder-Decoder 大框架 適用於語言模型、圖片模型、甚至是預測 1. RNN相關的生成應用: (1) 作詩 (2) 圖片生成

深度學習

1、在殘差網路中利用1*1進行降維,即設計一個瓶頸層來使得網路更深可能不是一個好主意,網路的通道更多即網路更寬一些在實驗中可能更能利用GPU的運算資源。 2、一個訓練的技巧,當使用較小的學習率時使用較大的動量,使用較大的學習率時使用較小的動量,兩者的關係如圖所示: 3、如果損失函式的表