1. 程式人生 > >如何妙筆勾檀妝:畫素級語義理解

如何妙筆勾檀妝:畫素級語義理解

編者按:在徐凝的《宮中曲》中有這樣一句詩,“一日新妝拋舊樣”,描繪了中唐時期宮中女人換妝的場景,而另一句詩“檀妝唯約數條霞”,講的則是複雜的檀妝其實只需寥寥數筆來勾勒。

而在計算機視覺世界中,畫素級語義理解技術,則賦予了機器對人臉進行換妝的能力,其通過細粒度分割的方式,將面部的不同區域在畫素級剝離開來,從而將換妝的過程簡化為寥寥數筆。

今天,來自中科院資訊工程研究所的劉偲副研究員 ,將為大家講述如何利用畫素級語義分割技術,在計算機視覺領域用寥寥數筆來為影象換妝。

文末,大講堂特別提供文中提到所有文章的下載連結。

640?wx_fmt=png&wxfrom=5&wx_lazy=1&retryload=1

本次報告的主題為“影象的畫素級語義理解”,本文將從語義分割演算法出發,著重介紹其在場景解析、人臉解析、以及人體解析中的應用情況。文中所有應用成果均來自於中科院資訊工程研究所網路空間技術實驗室,http://liusi-group.com/

640?wx_fmt=png

物體分類作為計算機視覺一大重要研究方向,其目的是對圖片整體進行分類,如上左圖所示,物體分類判斷圖中含有桌子、人、燈。而當我們進一步想對圖片的區域性進行分類時,便需要進行物體檢測,如上中圖所示,用方框畫出物體的位置並判斷框中物體是桌子、人或是燈。當我們想更進一步,對圖片中的每個畫素進行分類時,我們便進入了一個更加細緻的領域,那就是畫素級的語義分割,如上右圖,每個畫素都標上了對應的類別。可以看出,從物體分類到物體檢測再到語義分割,任務的粒度越來越細。今天我所要介紹的主要內容便是三者中最為細緻的語義分割。

640?wx_fmt=png

影象的畫素級語義理解應用場景非常廣泛,在自動駕駛、醫療影像處理、視訊監控以及增強現實(AR)中都有很大的使用空間。例如在自動駕駛中可以通過對獲取到的影象進行分割,以輔助車輛更好地對前方場景進行分析和判斷;在醫療影像處理中,可以通過對影象進行解

析,準確地發現並定位患者體內的病變組織,從而為治療提供更多的可靠資訊。

影象語義分割相關研究概述

640?wx_fmt=png

首先回顧一下一些經典的影象分割資料集及演算法。

640?wx_fmt=png

早期語義分割資料集,通常包含圖片數量、物體類別較少,例如2005年由微軟提出的MSRC包含23類物體,591張圖片。2008年的LabelMe則含有183類物體,3萬多張圖片。2009年第一個道路語義分割的資料集CamVid釋出。2011年的SIFTFLOW類別數為33類,含有2688張圖片。2012年的PASCAL VOC含有21類物體以及2913張圖片,該資料集後來成為了語義分割任務中一個重要的benchmark dataset。後來2014年在PASCAL VOC的基礎上,PASCAL CONTEXT將物體類別以及圖片數量都進行了大幅地擴充。

640?wx_fmt=png

2013年針對人臉分割的Helen分割資料集釋出,同年釋出的還有香港中文大學的人體分割資料集PPSS。隨後,2014年釋出的PASCAL PART將PASCAL VOC中物體的部位進行細分,提供了更加細緻的分割標註。同年微軟提出了COCO資料集,豐富的圖片和類別使其成為了又一重要的benchmark dataset。隨後,針對道路圖片的Cityscape以及含有深度資訊的SUN RGB-D資料集也被髮布了出來。

640?wx_fmt=png

2016年的DAVIS資料集將instance級的分割與視訊相結合,提出了視訊中的物體分割這一更加具有挑戰的任務,類似的還有2017年釋出的GyGO資料集。2017年中山大學、商湯科技集團等釋出了一個更加完善的人體分割資料庫LIP(Look into Person),同年釋出的ADE20K則將物體類別推向了極致,資料集中標註了將近2700類的物體。近期由FAIR釋出的Panoptic Segmentation則整合了已有的多個數據集並提出了一個新的分割任務。

640?wx_fmt=png

現在我們來介紹一下語義分割演算法的前世今生。早期的演算法中有引數型方法的代表Texton Boost,也有Label Transfer等非參的方法。2012年發表於TPAMI的Learning Hierarchical Features for Scene Labeling則是第一篇將深度學習應用於語義分割的演算法。

640?wx_fmt=png

2015年由Long等人提出的Fully Convolutional Networks for Semantic Segmentation(FCN)不僅獲得了當年CVPR的best paper候選,還引領了之後語義分割演算法使用全卷積網路的方向。之後的Segnet提出了複用encoding特徵的辦法,帶有洞的卷積(Dilated Convolution)擴大了網路的視野域,極大地提升了分割的精度,成為了語義分割網路的“標配”。 2015年樑小丹博士和我本人合作發表於TPAMI的Deep Human Parsing with Active Template Regression首次將語義分割應用於人像解析。我們的另一篇工作Matching-CNN meets KNN: Quasi-parametric human parsing則將KNN的方法與CNN進行結合,提升了網路對人體進行解析的能力。

640?wx_fmt=png

之後Deeplab演算法結合了dilated convolution以及fully connected crfs,提升了分割效能。RefineNet則提出了一種將高層語義特徵以及底層特徵進行融合的結構,極大地改進了效能。隨後商湯科技公司提出的PSPNet引入了Pyramid Pooling Module,在獲得了多個尺度特徵的基礎上,通過結合這些特徵得到更好的分割結果。曠視科技提出的Large Kernel Matters則使用了較大的卷積以及一個Boundary Refinement模組來提升網路的整體效能。

640?wx_fmt=png

之後FAIR的Mask RCNN提出RoI Align層,在faster-rcnn的基礎上實現了instance級的語義分割。隨後Deeplab的改進版MaskLab提出一種新的方向特徵,改進了instance級分割效果。

回顧完語義分割的資料集以及常見演算法。下面我們將介紹我們組在這方面的工作。

640?wx_fmt=png

我將從場景解析、人臉解析以及人體解析三個方面來分別作介紹。

場景解析

640?wx_fmt=png

首先,我們先介紹北交的劉婷,趙耀,韋世奎,UIUC魏雲超和我合作的解析方面的工作。

桌布作為家中裝飾的一個非常重要的部分,常常決定了整個房間的氣氛。於是很多人在裝修時一定會想看一下自己的房間適合換上什麼樣的桌布。因此,我們提出了一個可以對牆壁桌布進行解析以及更換的模型。

640?wx_fmt=png

具體來說,在給定輸入的圖片之後,我們先用一個基於VGG16的Deeplab-LargeFOV模型提取特徵。此外,我們加入了兩個1x1的卷積對con4和conv5的特徵進行提取以得到影象的邊緣資訊,之後再將邊緣資訊與語義分割的結果進行融合,得到最終的分割結果。根據分割的結果,我們就可以對桌布進行顏色和紋理的更換。該工作發表於2017年的ACM Multimedia會議。下圖是一些結果展示。

640?wx_fmt=png

人臉解析

介紹完場景解析的工作後,我們將介紹人臉解析方面的工作。

640?wx_fmt=png

首先我們定義一下這裡所說的人臉解析問題。如上圖所示,對於給定的一張人臉圖片,我們希望得到不同語義部位的分割結果,換句話說就是將影象中的每個畫素標註為對應的類別。

640?wx_fmt=png

上圖是我們課題組在CVPR2017所發表的一份工作。通過加入一個可學習的放縮層,可以讓網路自動地去調節視野域以得到最好的分割結果。為此我們設計了兩個不同版本的網路,其中單支路版本使用一個resize factor對特徵進行變換,並使用變換後的特徵進行前向計算,得到最終分割結果。而多支路的版本則可以根據需要設定多個支路並讓每個支路學習到不同的resize factor,最終將這些特徵進行合併、並進行前向計算,得到分割結果。

640?wx_fmt=png

上圖是我們的方法與其他人臉解析演算法的定量及定性結果比對。可以看出我們的演算法顯著提升瞭解析的效果。仔細看圖中右方的結果圖,可以看出在嘴脣、眉毛、眼睛等部位的結果上,我們的方法結果更好。

640?wx_fmt=png

基於人臉解析,我們開展了多項工作。主要有智慧美妝、妝容遷移、人臉老化三個工作。

640?wx_fmt=png

首先是智慧美妝部分。電商的發展以及美妝業的巨大市場催生了對智慧美妝產品的需求。

640?wx_fmt=png640?wx_fmt=png

根據人臉解析的結果,我們可以將指定的美妝產品應用於圖片,最終得到美妝的結果。具體來說,在得到人臉解析結果後我們將選擇的化妝產品應用於相應的區域。有了這一系統,我們可以在不用手動化妝、卸妝的情況下嘗試不同的妝容效果。

640?wx_fmt=png

一些女生看到明星的照片時,常常會想看自己化上同樣的妝是什麼樣子。為此我們設計了一個基於深度學習的妝容遷移演算法。

640?wx_fmt=png640?wx_fmt=png

如上面兩圖所示。我們通過人臉解析演算法得到妝容的關鍵區域,然後使用風格遷移的演算法將不同區域的妝容轉移至對應的區域。根據不同的參考妝容可以獲得不同的遷移結果。通過控制遷移時的引數,我們還可以控制妝容的濃淡。相應工作發表於IJCAI 2016。

640?wx_fmt=png

人臉解析的第三個應用是人臉老化。人臉老化對於跨年齡驗證、走失人口尋找都有重要意義,而且具有一定的娛樂價值。在我們的工作中,先通過人臉解析提取人臉的主要部分,然後使用圖片以及對應的年齡資訊訓練一個生成對抗網路(GAN)。在訓練好模型後,將一個人的照片以及想轉換到的年齡資訊輸入進這個模型,就可以得到相應年齡段的照片。該論文發表於ACM MM 2017。 

640?wx_fmt=png

上圖右方兩行圖片中,有一行是我們的網路生成的結果,有一行是真實的圖片。各位猜一猜哪一行是真實的,哪一行是生成的。

正確答案是:第一行是生成的圖片,第二行是真實的圖片。不知道各位猜對了沒有~

640?wx_fmt=png

上圖是兩個不同人物的生成結果。我們生成了這兩個人在0-10歲、19歲-29歲、40-49歲、及60歲以後四個年齡段的結果。可以從下面的動圖裡看到整個變化過程。

640?wx_fmt=gif640?wx_fmt=gif

人體解析

640?wx_fmt=png

最後介紹一下人體解析的相關工作。

與人臉解析部分相同,我們首先定義一下人體解析問題。對於一個給定的人物圖片,人體解析的主要任務是將圖片中人體的不同部位進行分類,最後獲得畫素級的分類結果。如上圖所示。

640?wx_fmt=png

那麼研究人體解析有什麼樣的重要性呢?舉兩個經典案例,在周克華搶劫案以及長春盜車殺嬰案件中,雖然案發城市已經有完備的監控裝置,但由於缺乏相應的分析能力,導致視訊的篩選和分析仍需人力來進行,被人們形容為“有眼無珠”。如果能減少相應的人力消耗並提高分析速度,將會給社會帶來很大的積極影響。

640?wx_fmt=png640?wx_fmt=png

如上圖所示。設計好的分割模型可以準確地將人體影象進行分割,同時屬性預測模型可以對人像進行準確的預測。這樣一來,當我們拿到一個描述,例如圖中“棕色上衣、黑色緊身褲,拿著白色行李箱的女性”時,計算機便可以快速地在海量監控資料中自動地找到匹配的圖片或視訊。

640?wx_fmt=png

上圖是我們CVPR2017的一個工作的網路結構框圖。該工作充分利用了多幀的資訊,得到了很好的人體分割結果。下面我們將介紹網路的各個部分以及相應的功能。

640?wx_fmt=png

首先我們使用一個基於FCN(全卷積網路)的分割網路對視訊中的不同幀進行分割。

640?wx_fmt=png640?wx_fmt=png

然後我們使用分割時所使用的特徵進行光流的估計,得到幀與幀之間的光流資訊。

640?wx_fmt=png

最後我們根據光流資訊對不同幀的結果進行融合。最終得到目標幀的分割結果。下圖是我們分割演算法以及屬性預測演算法的動態演示圖。

640?wx_fmt=gif

總結與展望

最後,我總結一下今天的分享並做一些展望。

640?wx_fmt=png

今天我首先分享了我們在場景解析方面的工作,主要是桌布虛擬更換以及圖片去霧霾工作(由於篇幅未展開)。

640?wx_fmt=png

然後介紹了我們小組在人臉解析方面的工作,包括妝容遷移、人臉老化、智慧美妝。

640?wx_fmt=png

最後我介紹了我們在人體解析方面的工作,主要是視訊監控中的人體解析任務。

640?wx_fmt=png

當然,影象的畫素級語義理解還有很多的研究方向,例如影象去噪、影象修復、自動上色、超解析度、去模糊等等。

640?wx_fmt=png

對於未來的發展,我們認為主要有三個趨勢。

  • 首先是模型的小型化,未來深度學習的模型將逐漸從計算、儲存能力豐富的GPU叢集走向CPU平臺或是嵌入式裝置中,這對模型的大小以及計算複雜度都將有更嚴格的限制。

  • 第二個趨勢就是資料標註的低成本化,未來將會有更多的弱監督、半監督演算法湧現,加上遷移學習的發展,我們對於資料的人工標註將會越來越少。相應的成本也將越來越低。

  • 最後是資訊源的多模態化,現在的影象解析工作大多基於普通的RGB三通道圖片。但隨著資訊源的增多,我們可以獲得深度資訊、雷達探測資訊等更多的資料。通過這些資料的整合,我們將進一步提升解析演算法的效能。

以上就是我今天的分享,大家如果感興趣可以關注我們的主頁 http://liusi-group.com/。

文中劉老師提到的文章下載連結為: 

https://pan.baidu.com/s/1pMuaqHd

--end--

640?wx_fmt=jpeg

主編:袁基睿     編輯:楊茹茵

該文章屬於“深度學習大講堂”原創,如需要轉載,請聯絡 ruyin712。

作者資訊:

作者簡介:

640?wx_fmt=jpeg

劉偲, 現為中科院資訊工程研究所網路空間技術實驗室副研究員。本科畢業於北京理工大學校級實驗班,博士畢業於中科院自動化所,曾於新加坡國立大學任研究助理及博士後。其研究領域是計算機視覺和多媒體分析,具體包括影象的語義分割,例項分割,影象標註,影象編輯等。2017-2019年中科協青年人才託舉工程入選者,微軟亞洲研究院鑄星計劃研究員,CCF-騰訊犀牛鳥科研基金獲得者。個人主頁:http://liusi-group.com

往期精彩回顧

640?wx_fmt=jpeg640?wx_fmt=png640?wx_fmt=png

歡迎關注我們!

深度學習大講堂是由中科視拓運營的高質量原創內容平臺,邀請學術界、工業界一線專家撰稿,致力於推送人工智慧與深度學習最新技術、產品和活動資訊!

中科視拓(SeetaTech)將秉持“開源賦能共發展”的合作思路,為企業客戶提供人臉識別、計算機視覺與機器學習領域“企業研究院式”的技術、人才和知識服務,幫助企業在人工智慧時代獲得可自主迭代和自我學習的人工智慧研發和創新能力。

中科視拓目前正在招聘: 人臉識別演算法研究員,深度學習演算法工程師,GPU研發工程師, C++研發工程師,Python研發工程師,嵌入式視覺研發工程師,運營經理。有興趣可以發郵件至:[email protected],想了解更多可以訪問,www.seetatech.com

640?wx_fmt=jpeg640?wx_fmt=jpeg

中科視拓

640?wx_fmt=jpeg

深度學習大講堂

點選閱讀原文開啟中科視拓官方網站

相關推薦

如何妙筆語義理解

編者按:在徐凝的《宮中曲》中有這樣一句詩,“一日新妝拋舊樣”,描繪了中唐時期宮中女人換妝的場景,

全卷積網路從影象理解理解-FCN影象分割邊緣檢測

作者:果果是枚開心果 連結:https://zhuanlan.zhihu.com/p/20872103 來源:知乎 著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。卷積神經網路(CNN):影象級語義理解的利器 自2012年AlexNet提出並重新整理了當年ImageNet物體分類競賽的世

Qimage操作

這篇文章主要闡述瞭如何使用Qt在畫素級別上對影象進行操作,並實現了一些影象效果,這些效果主要有:灰度,模糊,銳化,新增相框,金屬質感,改變影象飽和度,亮度還有白平衡。 scanLine 返回某一行資料,轉換為QRgb指標可進行直接有效的畫素存取操作。 介紹 文章中,我們將討論在Qt中修改

淺談JavaSE效能優化(1)——BufferedImage與渲染

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

Opencv開發筆記五的讀寫(一)

一、講講什麼是畫素 畫素是指由影象的小方格即所謂的畫素(pixel)組成的,這些小方塊都有一個明確的位置和被分配的色彩數值,這些小方塊內放的數和所放的位置據決定了影象在某個位置所顯示的顏色,比如某一塊區域放的都是數字0(255),則該片區域會顯示出黑色(白色),可以將畫素視

CMOS 影象感測器簡介(1)結構

  隨著工藝的發展,CMOS影象感測器的效能已經趕上或超越CCD,再加上CMOS影象感測器在工藝上能很大程度與傳統CMOS晶片相容,它已經成為相機的主流感測器型別。由於只能硬體的迅猛發展,很多應用場景都將碰到CMOS感測器,因此本文從基礎出發,介紹CMOS影象感

利用分格的方法制作更多有趣的特效化和popup mask

不管是繪製halftone圖形,還是製作TriangularBillboard,都離不開一個環節,那就是格子的劃分。 在格子的基礎上,還可以發展出許多有趣的效果,最常見的就是畫素化。 首先增加兩個property,用以控制在橫向和縱向分格的數量。 Properti

【GAN ZOO閱讀】Unsupervised Pixel–Level Domain Adaptation with GAN 使用GAN的無監督的域適應

原文連結,引用請標明出處 部分譯文參考自 https://blog.csdn.net/forever1993/article/details/78405280 摘要 收集註釋良好的影象資料集來訓練現代機器學習演算法對於許多工而言過於昂貴。 一個有吸引力的替代方案是渲染資料,並在其中自

實用小工具尺子

對於搞畫圖或者設計開發的菇涼或者童鞋來說,絕不容許有1畫素的差別啊,但是電腦螢幕,我們要怎麼測量啊?如果有一個能夠測量電腦螢幕的畫素尺子,就可以了,今天就給大家推薦這個實用的小工具。下載後不用安裝,直接雙擊開啟就可以用啦! 下面給大家介紹幾種功能:

Python 影象處理 OpenCV (2)處理與 Numpy 操作以及 Matplotlib 顯示影象

![](https://cdn.geekdigging.com/opencv/opencv_header.png) 前文傳送門: [「Python 影象處理 OpenCV (1):入門」](https://www.geekdigging.com/2020/05/17/5513454552/) ## 普通

未來直播 “神器”,視訊分割是如何實現的 | CVPR 冠軍技術解讀

> 被譽為計算機視覺領域 “奧斯卡” 的 CVPR 剛剛落下帷幕,2021 年首屆 “新內容 新互動” 全球視訊雲創新挑戰賽正火熱進行中,這兩場大賽都不約而同地將關注點放在了視訊目標分割領域,本文將詳細分享來自阿里達摩院的團隊在 CVPR DAVIS 視訊目標分割比賽奪冠背後的技術經驗,為本屆大賽參賽選

語義分割、例項分割、全景分割 傻傻分不清?

在計算機視覺中,影象分割是個非常重要且基礎的研究方向。簡單來說,影象分割(image segmentation)就是根據某些規則把圖片中的畫素分成不同的部分(加不同的標籤)。 影象分割中的一些常見的術語有:superpixels(超畫素)、Semantic Segmentation(語義分割)、Instan

OpenCV訪問影象中的

OpenCV影象處理運算元都是一個函式。 作用: 接受一個輸入或多個輸入,產生輸出影象。 格式: g(x)=f(h(x))//單個輸入, 或 g(x)=f(h0(x),h1(x),...,hn(x))//多個輸入 影象處理變換中典型的操作:點操作 點操作: 影象亮度和對

Direct3D基礎——預備知識多重取樣、格式、記憶體池、交換鏈和頁面置換、深度快取、頂點運算、裝置效能

多重取樣 用畫素矩陣表示影象的時候往往會出現塊狀效應,多重取樣便是一項用於平滑塊狀影象的技術。 圖片來自:DirectX9.03D遊戲開發程式設計基礎 左邊那條是一條鋸齒線,右邊是一條經過取樣的反走樣線,看上去要平滑的多。 D3DMULTISAMPLE_TYPE列舉型別包含

論文學習 + 論文寫作 | 最前沿的亞運動補償 + 視訊超分辨Detail-revealing Deep Video Super-resolution

目錄 O. Abstract I. Introduction II. Relative Work III. Sub-pixel Motion Compensation (SPMC) 摘抄本 0. Abstract 1. Introduction 2. Re

岡薩雷斯數字影象處理(二)第二章數字圖形基礎(上)——影象內插,相鄰,鄰接性,距離度量

1.影象內插:從根本上看,內插是用已知資料來估計未知位置的數值的處理。 例如,假設一幅大小為500500畫素的影象要放大1.5倍到75075畫素,一種簡單的放大方法是建立一個假想的750750網格,它與原始影象有相同的間隔,然後將其收縮,使它準確的與原影象匹配。顯然,收縮後的750750網格

《OpenCV3程式設計入門》——5.1 訪問影象中的--顏色空間縮減及LUT函式Look up table操作

1、顏色空間縮減 顏色空間縮減的做法是:將現有顏色空間值除以某個輸入值,以獲得較少的顏色數。即做減法,比如顏色值0到9可取為新值0,10到19可取為10,以此類推。 有一個簡單的公式來實現顏色空間縮減: 在處理畫素時,每個畫素需要進行一遍上述公式計算,也需要一定的時間花銷。我們可以把25

OpenCVMat訪問

1. at方式 單通道: mat.at<uchar>(row,col); 三通道:每一個畫素的位置都包含了三個uchar資料,三通道使用Vec3b; Vec3b v= mat.at<Vec3b>(row,col);//v[0]、v[1]、v[2] 【注

iOS音視訊—FFmepg基礎知識命令列工具使用&封裝格式&視訊編碼音訊編碼資料瞭解&視訊音訊取樣資料格式

iOS音視訊相關目錄 FFmepg基礎知識 封裝格式 1、封裝格式:mp4、mov、flv、wmv等等… 2、作用:視訊流+音訊流按照格式進行儲存在一個檔案中 3、MPEG2-TS格式:傳輸流,又稱TS、TP、MPEG-TS或M2T,用於音效、影象與資料的通訊協議。屬於

sklearn影象與平行隨機森林的重要性

此示例顯示了使用來評估影象分類任務(面)中畫素的重要性。 畫素越熱,越重要。下面的程式碼還說明了如何在多個任務中並行化預測的構造和計算。 print(__doc__) from time import time import matplotlib.pyplot as plt from s