從CVPR2013看計算機視覺研究的三個趨勢
申明:本文非筆者原創,原文轉載自:http://www.bfcat.com/index.php/2013/07/compute-visioni-trends/
tombone‘s blog 最近一直在update關於CVPR2013的感受,今天,他在部落格中分享了 [CVPR 2013] Three Trending Computer Vision Research Areas。
我沒機會參加這樣的盛會,但是通過瀏覽今年CVPR錄用文章的列表,以及最近幾年頂級會議文章的趨勢,根據他總結的三個趨勢,我也談談我的看法。
1) RGB-D 資料的分析
幾年前的
隨著新一代kinect的即將問世,加上Leap motion等類似產品的發展,相信RGB-D資料分析將會是以後室內場景中計算機視覺研究的重心。
<a href="http://www.bfcat.com/wp-content/uploads/2013/07/haojiangcvpr13.jpg" class="cboxElement" rel="example4" 3243"="" style="text-decoration: none; color: rgb(1, 150, 227);"> H. Jiang and J. Xiao.2) 中層patch的分析會是一個熱點
在區域性特徵很難具有足夠的描述力的情況下,中層特徵的提取和分析就顯得更加重要。在ECCV 2012年 CMU的 Saurabh Singh 提出了中層patch的想法,提取的patch包含更加豐富的資訊,至少是目標部件級別的,而不是沒有任何語義資訊的區域性描述。SIGGRAPH2012那篇註明的文章,“What makes Paris look like Paris?”。
Unsupervised Discovery of Mid-Level Discriminative PatchesSaurabh Singh, Abhinav Gupta, Alexei A. Efros. In ECCV, 2012.
Carl Doersch, Saurabh Singh, Abhinav Gupta, Josef Sivic, and Alexei A. Efros. What Makes Paris Look like Paris? In SIGGRAPH 2012. [pdf]
在今年的CVPR中,也有不少關於從場景中學習mid-level parts的文章
Blocks that Shout: Distinctive Parts for Scene Classification. Mayank Juneja, Andrea Vedaldi, CV Jawahar, Andrew Zisserman. In CVPR, 2013. [pdf]
Representing Videos using Mid-level Discriminative Patches. Arpit Jain, Abhinav Gupta, Mikel Rodriguez, Larry Davis. CVPR, 2013. [pdf]
Part Discovery from Partial Correspondence. Subhransu Maji, Gregory Shakhnarovich. In CVPR, 2013. [pdf]
3) 深度學習以及特徵學習也在蓬勃上升時期
tombone是這麼說的。ms Google的每一個人現在都在做深度學習。這到底能解決所有的視覺問題嗎?很懷疑。但是,深度學習的興起讓每一個研究者都想參與其中。換句話說,如果你不知道 Geoff Hinton 是誰,你就out了。
對於這個問題,我覺得在慢慢具備海量資料處理能力的今天,深度學習確實是解決問題的一個很好的途徑。但是,另一方面,我們也不能寄希望於一個萬能的模型,如果有人想指望將訓練影象扔進某個非常NB的分類器裡面,就能得到自己想要的結果,那也是不現實的。計算機視覺中的很多困難我覺得不光是計算效能的問題,而且我們對其認識的還不夠。一個視覺演算法的效果好不好,不光取決於模型,更重要的是前端的特徵。
因此,深度學習必須結合好的特徵學習,才是解決問題的王道。