1. 程式人生 > >從CVPR2013看計算機視覺研究的三個趨勢

從CVPR2013看計算機視覺研究的三個趨勢



申明:本文非筆者原創,原文轉載自:http://www.bfcat.com/index.php/2013/07/compute-visioni-trends/


tombone‘s blog 最近一直在update關於CVPR2013的感受,今天,他在部落格中分享了 [CVPR 2013] Three Trending Computer Vision Research Areas

我沒機會參加這樣的盛會,但是通過瀏覽今年CVPR錄用文章的列表,以及最近幾年頂級會議文章的趨勢,根據他總結的三個趨勢,我也談談我的看法。

1) RGB-D 資料的分析

幾年前的

計算機視覺領域中,大部分關於目標檢測,識別的工作還都是基於2維影象資料進行的,但是,人們越來越覺得,單純的顏色資料具有很大的歧義性,尤其是在目標的邊界附近,顏色相近的時候難以區分前景和背景。另外,遮擋對於目標跟蹤,識別也造成了很大的挑戰,如果沒有深度資訊,遮擋在很多時候是難以判斷的。然而,隨著Kinect的問世,低廉的售價讓獲取深度資訊並與彩色影象配準變得很容易。這樣,越來越多的研究就開始將中心放在具有深度資訊的 2.5D資料上面。從2010年開始,美國的一些實驗室例如CMU的RI,到處都可以見到用Kinect做實驗的人,賓大的四旋翼飛行器也開始試著裝上kinect來進行輔助。這兩年,國內也有越來越多的人利用這一資料,進行重建,導航,識別等研究。

隨著新一代kinect的即將問世,加上Leap motion等類似產品的發展,相信RGB-D資料分析將會是以後室內場景中計算機視覺研究的重心。

<a href="http://www.bfcat.com/wp-content/uploads/2013/07/haojiangcvpr13.jpg" class="cboxElement" rel="example4" 3243"="" style="text-decoration: none; color: rgb(1, 150, 227);"> H. Jiang and J. Xiao. 
A Linear Approach to Matching Cuboids in RGBD Images
. In CVPR 2013. [ pdf]

2) 中層patch的分析會是一個熱點

在區域性特徵很難具有足夠的描述力的情況下,中層特徵的提取和分析就顯得更加重要。在ECCV 2012年 CMU的 Saurabh Singh 提出了中層patch的想法,提取的patch包含更加豐富的資訊,至少是目標部件級別的,而不是沒有任何語義資訊的區域性描述。SIGGRAPH2012那篇註明的文章,“What makes Paris look like Paris?”。

Unsupervised Discovery of Mid-Level Discriminative PatchesSaurabh Singh, Abhinav Gupta, Alexei A. Efros. In ECCV, 2012.

Carl DoerschSaurabh Singh, Abhinav Gupta, Josef Sivic, and Alexei A. Efros. What Makes Paris Look like Paris? In SIGGRAPH 2012. [pdf]

在今年的CVPR中,也有不少關於從場景中學習mid-level parts的文章

Blocks that Shout: Distinctive Parts for Scene Classification. Mayank Juneja, Andrea Vedaldi, CV Jawahar, Andrew Zisserman. In CVPR, 2013. [pdf]

Representing Videos using Mid-level Discriminative Patches. Arpit Jain, Abhinav Gupta, Mikel Rodriguez, Larry Davis. CVPR, 2013. [pdf]

Part Discovery from Partial Correspondence. Subhransu Maji, Gregory Shakhnarovich. In CVPR, 2013. [pdf]

3) 深度學習以及特徵學習也在蓬勃上升時期

tombone是這麼說的。ms Google的每一個人現在都在做深度學習。這到底能解決所有的視覺問題嗎?很懷疑。但是,深度學習的興起讓每一個研究者都想參與其中。換句話說,如果你不知道 Geoff Hinton 是誰,你就out了。

對於這個問題,我覺得在慢慢具備海量資料處理能力的今天,深度學習確實是解決問題的一個很好的途徑。但是,另一方面,我們也不能寄希望於一個萬能的模型,如果有人想指望將訓練影象扔進某個非常NB的分類器裡面,就能得到自己想要的結果,那也是不現實的。計算機視覺中的很多困難我覺得不光是計算效能的問題,而且我們對其認識的還不夠。一個視覺演算法的效果好不好,不光取決於模型,更重要的是前端的特徵。

因此,深度學習必須結合好的特徵學習,才是解決問題的王道。