1. 程式人生 > >CNN在基於弱監督學習的影象分割中的應用

CNN在基於弱監督學習的影象分割中的應用

最近基於深度學習的影象分割技術一般依賴於卷積神經網路CNN的訓練,訓練過程中需要非常大量的標記影象,即一般要求訓練影象中都要有精確的分割結果。

對於影象分割而言,要得到大量的完整標記過的影象非常困難,比如在ImageNet資料集上,有1400萬張圖有類別標記,有50萬張圖給出了bounding box,但是隻有4460張影象有畫素級別的分割結果。對訓練影象中的每個畫素做標記非常耗時,特別是對醫學影象而言,完成對一個三維的CT或者MRI影象中各組織的標記過程需要數小時。

如果學習演算法能通過對一些初略標記過的資料集的學習就能完成好的分割結果,那麼對訓練資料的標記過程就很簡單,這可以大大降低花在訓練資料標記上的時間。這些初略標記可以是:1, 只給出一張影象裡面包含哪些物體, 2, 給出某個物體的邊界框, 3, 對影象中的物體區域做部分畫素的標準,例如畫一些線條、塗鴉等(scribbles)。

1, ScribbleSup: Scribble-Supervised Convolutional Networks for Semantic Segmentation (CVPR 2016)

香港中文大學的Di Lin提出了一個基於Scribble標記的弱監督學習方法。 Scribble是一個很方便使用的標記方法,因此被用得比較廣泛。如下圖,只需要畫五條線就能完成對一副影象的標記工作。

這裡寫圖片描述

ScribbleSup分為兩步,第一步將畫素的類別資訊從scribbles傳播到其他未標記的畫素,自動完成所有的訓練影象的標記工作; 第二步使用這些標記影象訓練CNN。在第一步中,該方法先生成super-pxels, 然後基於graph cut的方法對所有的super-pixel進行標記。

這裡寫圖片描述

Graph cut 的能量函式為:

iψi(yi|X,S)+i,jψij(yi,yj,X)

在這個graph中,每個super pxiel是graph中的一個節點,相接壤的super pixel之間有一條連線的邊。這個能量函式中的一元項包括兩種情況,一個是來自於scribble的,一個是來自CNN對該super pixel預測的概率。整個最優化過程實際上是求graph cut能量函式和CNN引數聯合最優值的過程:

iψscri(yi|X,S)+ilogP(yi|X,Θ)+i,jψij(yi,yj|X)

上式的最優化是通過交替求Y和\Theta的最優值來實現的。文章中發現通過三次迭代就能得到比較好的結果。

這裡寫圖片描述

2, Constrained Convolutional Neural Networks for Weakly Supervised Segmentation (ICCV 2015)

UC Berkeley的Deepak Pathak 使用了一個具有影象級別標記的訓練資料來做弱監督學習。訓練資料中只給出影象中包含某種物體,但是沒有其位置資訊和所包含的畫素資訊。該文章的方法將image tags轉化為對CNN輸出的label分佈的限制條件,因此稱為 Constrained convolutional neural network (CCNN).

這裡寫圖片描述

該方法把訓練過程看作是有線性限制條件的最優化過程:

這裡寫圖片描述

其中P(X)是一個隱含的類別分佈,Q(X)是CNN預測的類別分佈。目標函式是KL-divergence最小化。其中的線性限制條件來自於訓練資料上的標記,例如一幅影象中前景類別畫素個數期望值的上界或者下界(物體大小)、某個類別的畫素個數在某影象中為0,或者至少為1等。該目標函式可以轉化為為一個loss function,然後通過SGD進行訓練。

這裡寫圖片描述

實驗中發現單純使用Image tags作為限制條件得到的分割結果還比較差,在PASCAL VOC 2012 test資料集上得到的mIoU為35.6%,加上物體大小的限制條件後能達到45.1%, 如果再使用bounding box做限制,可以達到54%。FCN-8s可以達到62.2%,可見弱監督學習要取得好的結果還是比較難。

3, Weakly- and Semi-Supervised Learning of a DCNN for Semantic Image Segmentation

Google的George Papandreou 和UCLA的Liang-Chieh Chen等在DeepLab的基礎上進一步研究了使用bounding box和image-level labels作為標記的訓練資料。使用了期望值最大化演算法(EM)來估計未標記的畫素的類別和CNN的引數。

這裡寫圖片描述

對於image-level標記的資料,我們可以觀測到影象的畫素值x和影象級別的標記z,但是不知道每個畫素的標號y,因此把 y當做隱變數。使用如下的概率圖模式:
P(x,y,z;θ)=P(x)(Mm=1P(ym|x;θ))P(z|y)

使用EM演算法估計θ和y。E步驟是固定θ求y的期望值,M步驟是固定y使用SGD計算θ.

這裡寫圖片描述

對於給出bounding box標記的訓練影象,該方法先使用CRF對該訓練影象做自動分割,然後在分割的基礎上做全監督學習。

通過實驗發現,單純使用影象級別的標記得到的分割效果較差,但是使用bounding box的訓練資料可以得到較好的結果,在VOC2012 test資料集上得到mIoU 62.2%。另外如果使用少量的全標記影象和大量的弱標記影象進行結合,可以得到與全監督學習(70.3%)接近的分割結果(69.0%)。

4, Learning to Segment Under Various Forms of Weak Supervision (CVPR 2015)

Wisconsin-Madison大學的Jia Xu提出了一個統一的框架開處理各種不同型別的弱標記:影象級別的標記、bounding box和部分畫素標記如scribbles。該方法把所有的訓練影象分成共計n個super-pixel,對每個super-pixel提取一個d維特徵向量。因為不知道每個super-pixel所屬的類別,相當於無監督學習,因此該方法對所有的super-pixel做聚類,使用的是最大間隔聚類方法(max-margin clustering, MMC),該過程的最優化目標函式是:

12tr(WTW)+λnp=1Cc=1ξ(wc;xp;hcp)

其中W是一個特徵矩陣,每列代表了對於的類別的聚類特徵。ξ是一個間隔代價函式,代表了將第p個super-pixel劃分到第c類的代價。在這個目標函式的基礎上,根據不同的弱標記方式,可以給出不同的限制條件,因此該方法就是在相應的限制條件下求最大間隔聚類。

這裡寫圖片描述

該方法在Siftflow資料集上得到了比較好的結果,比state-of-the-art的結果提高了10%以上。

小結:在弱標記的資料集上訓練影象分割演算法可以減少對大量全標記資料的依賴,在大多數應用中會更加貼合實際情況。弱標記可以是影象級別的標記、邊框和部分畫素的標記等。訓練的方法一般看做是限制條件下的最優化方法。另外EM演算法可以用於CNN引數和畫素類別的聯合求優。

參考文獻

1, Di Lin, Jifeng Dai, Jiaya Jia, Kaiming He, and Jian Sun.”ScribbleSup: Scribble-Supervised Convolutional Networks for Semantic Segmentation”. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016

2, Pathak, Deepak, Philipp Krahenbuhl, and Trevor Darrell. “Constrained convolutional neural networks for weakly supervised segmentation.” Proceedings of the IEEE International Conference on Computer Vision. 2015.

3, Papandreou, George, et al. “Weakly-and semi-supervised learning of a DCNN for semantic image segmentation.” arXiv preprint arXiv:1502.02734 (2015).

4, Xu, Jia, Alexander G. Schwing, and Raquel Urtasun. “Learning to segment under various forms of weak supervision.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.

相關推薦

CNN基於監督學習影象分割應用

最近基於深度學習的影象分割技術一般依賴於卷積神經網路CNN的訓練,訓練過程中需要非常大量的標記影象,即一般要求訓練影象中都要有精確的分割結果。 對於影象分割而言,要得到大量的完整標記過的影象非常困難,比如在ImageNet資料集上,有1400萬張圖有類別標

關於馬爾科夫隨機場(MRF)在影象分割應用的個人理解

首先明確幾個基本概念(個人理解): 先驗概率: 基於歷史經驗得到的當前事件發生的概率 後驗概率: 根據資料或證據得到的事件發生的概率 (由因到果) 似然概率: 已知事件發生的概率下資料或證據發生的概率 (由果到因) 影象分割和目標識別都可以看成一個影象中各個畫素點做l

見微知著:語義分割監督學習

點選上方“深度學習大講堂”可訂閱哦!編者按:語義分割是AI領域的一個重要分支,被廣泛應用於自動駕

監督學習在醫學影像的探索

編者按:近日。由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦的2018全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開。在大會的醫療影像專場中。微軟亞洲研究院副院長張益肇發表了題為“弱監督學習在醫學影像中的探索”的精彩演

論文閱讀筆記3——基於域適應監督學習的目標檢測Cross-Domain Weakly-Supervised Object Detection through Progressive Domain A

本文是東京大學發表於 CVPR 2018 的工作,論文提出了基於域適應的弱監督學習策略,在源域擁有充足的例項級標註的資料,但目標域僅有少量影象級標註的資料的情況下,儘可能準確地實現對目標域資料的物體檢測。 ■ 連結 | https://www.paperweekly.site/papers/21

2018.11.13——cv監督學習

在做分割時,訓練網路,我們通常使用已經有pixel-level label ,但精確到每個畫素的標註成本很大。而且好多資料集的分類類別固定,演算法即便很優秀,但不能工業化應用。 弱監督就是圖片上僅有bounding box可以用來訓練,去做分割,提供的語義資訊少於畫素級別的

監督學習,無監督學習監督學習,無監督學習

什麼是機器學習? 機器學習的定義有很多種,而且到目前為止也沒有一個公認的定義,想要了解更多可以參考一下知乎https://www.zhihu.com/question/33892253的解答,有客觀的回答,有深刻的幽默。 在這裡我

監督學習和小目標檢測

在簡書上看到一篇弱監督學習的帖子,由於沒有使用簡書的習慣,因此分享下這篇帖子,感興趣的直接去參考原作者。侵刪 作者:baiyu33 連結:https://www.jianshu.com/p/7b0161975225 來源:簡書   本文收集整理弱監督學習和小目標檢測方面的資料。

Opencv學習——影象分割之分水嶺演算法

分水嶺演算法是比較經典的影象分割演算法。最近看到一副區域檢測和統計的影象,感覺可以通過分水嶺演算法進行實現,於是順便對opencv的分水嶺演算法進行學習。如圖需要分割的影象: opencv有自帶的分水嶺分割示例,分割影象為硬幣影象,如圖: 由於示例是

醫學影象分割常用的度量指標

接下來給大家介紹一下醫學影象中常用的幾個度量指標,主要參考MICCAI2007 - 首先定義以下識別符號: Vgt V g

硬聚類(HCM)和模糊聚類(FCM)在彩色影象分割的具體應用

      示例工程見:       一年前我寫過模糊聚類演算法(FCM)和硬聚類演算法(HCM)的VB6.0實現及其應用  一文,之後,有不少同仁向我詢問如何將這個演算法應用在彩色影象的分割上,鑑於影象資料的特殊性,這裡簡單的談談在影象中聚類演算法的需要注意一些細節。           C均值

深度學習 影象分割開原始碼(附連結,超級全)

轉自github,感謝作者mrgloom的整理 Awesome Semantic Segmentation Networks by architecture Semantic segmentation Instance aware segmentation

簡要介紹監督學習

by 南大周志華摘要監督學習技術通過學習大量訓練資料來構建預測模型,其中每個訓練樣本都有其對應的真值輸出。儘管現有的技術已經取得了巨大的成功,但值得注意的是,由於資料標註過程的高成本,很多工很難獲得如全部真值標籤這樣的強監督資訊。因此,能夠使用弱監督的機器學習技術是可取的。本文綜述了弱監督學習的一些研究進展,

程明明:面向監督影象理解

點選上方“深度學習大講堂”可訂閱哦!編者按:若言琴上有琴聲,放在匣中何不鳴?若言聲在指頭上,何不

影象分割:1.基於閾值的影象分割方法(最大熵值分割法)

 利用影象熵為準則進行影象分割有一定歷史了,學者們提出了許多以影象熵為基礎進行影象分割的方法。我們介紹一種由Kapuret al提出來,現在仍然使用較廣的一種影象熵分割方法。 給定一個特定的閾值q(0<=q<K-1),對於該閾值所分割的兩個影象區域C0,C1,其估

深度學習在 CTR 應用

核心 融合 輸出 -s 情況 ... 能夠 rec 數據 歡迎大家前往騰訊雲技術社區,獲取更多騰訊海量技術實踐幹貨哦~ 作者:高航 一. Wide&&Deep 模型 首先給出Wide && Deep [1] 網絡結構: 本質上是線性模

opencv學習筆記五十七:基於分水嶺的影象分割

#include<opencv2\opencv.hpp> using namespace cv; using namespace std; int main(int arc, char** argv) { Mat src = imread("1.jpg");

深度學習 --- CNN的變體在影象分類、影象檢測、目標跟蹤、語義分割和例項分割的簡介(附論文連結)

以上就是卷積神經網路的最基礎的知識了,下面我們一起來看看CNN都是用在何處並且如何使用,以及使用原理,本人還沒深入研究他們,等把基礎知識總結完以後開始深入研究這幾個方面,然後整理在寫成部落格,最近的安排是後面把自然語言處理總結一下,強化學習的總結就先往後推一下。再往後是系統的學習一下演算法和資料

基於深度學習影象分割總結

一、影象分割類別 隨著深度學習的發展,在分割任務中出現了許多優秀的網路。根據實際分割應用任務的不同,可以大致將分割分為三個研究方向:語義分割、例項分割、全景分割。這三種分割在某種意義上是具有一定的聯絡的。 語義分割: 畫素級別的語義分割,對影象中的每個畫素都劃分出對應的

影象語義分割(12)-重新思考空洞卷積: 為監督和半監督語義分割設計的簡捷方法

論文地址 :Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation 1. 摘要   儘管弱監督分割方法的精度有所提升,但是和全