1. 程式人生 > >CVPR 2018 | 騰訊AI Lab入選21篇論文詳解

CVPR 2018 | 騰訊AI Lab入選21篇論文詳解

騰訊 AI CVPR




近十年來在國際計算機視覺領域最具影響力、研究內容最全面的頂級學術會議CVPR,近日揭曉2018年收錄論文名單,騰訊AI Lab共有21篇論文入選,位居國內企業前列,我們將在下文進行詳解,歡迎交流與討論。

去年CVPR的論文錄取率為29%,騰訊AI Lab 共有6篇論文入選,點擊 這裏可以回顧。2017年,騰訊 AI Lab共有100多篇論文發表在AI頂級會議上,包括ICML(4篇)、ACL(3篇)、NIPS(8篇)等。

我們還堅持與學界、企業界和行業「共享AI+未來」,已與美國麻省理工大學、英國牛津大學、香港科技大學、香港中文大學等多所海內外知名院校開展學術合作,並通過年度學術論壇、聯合研究、訪問學者、博士生及研究生獎學金等多種形式,推動前沿研究探索、應用與人才培養。



計算機視覺未來方向與挑戰


計算機視覺(Computer Vision)的未來,就是多媒體AI崛起,機器之眼被慢慢打開的未來。多媒體有的時候又稱為富媒體,是對圖像、語音、動畫和交互信息的統稱。多媒體AI就是對這些所有內容的智能處理。一份國際報告顯示,到2021年,視頻將占全球個人互聯網流量的比例,將從15年的70%增長到82%,成為信息的主要載體。目前我們計算機視覺中心的工作重點,從以往單純的圖像轉向視頻AI,研究視頻的編輯、理解、分析和生成等。

第一個方向是研究如何讓AI理解視頻中更深層、更細節的信息,分析視頻裏人物與人物間、人物與物體間,到物體與場景間的具體關系,這是業界熱門且亟待突破的研究方向。

第二個方向,不僅要研究視覺信號,還著眼於多模態信息,如計算機視覺加文本、加語音等信號的結合。比如視覺+文本上,我們的圖像與視頻描述生成技術已有一定 進展

第三個方向是多媒體AI在垂直領域的應用。如在機器人領域,用視覺信息讓AI感知周圍世界,構建整個空間信息,進行導航和避障等操作。在醫療領域,分析醫療影像數據,結合病歷文本信息等,讓AI深入參與到輔助診療中。

這個領域的未來挑戰,更多是對具體應用場景,比如安防、無人駕駛等難度大的具體應用場景,進行更細致規劃和技術延伸。



騰訊AI Lab 21篇入選論文詳解


1. 面向視頻理解的端到端動作表示學習

End-to-End Learning of Motion Representation for Video Understanding

本文由AI Lab主導完成,並入選Spotlight文章。盡管端到端的特征學習已經取得了重要的進展,但是人工設計的光流特征仍然被廣泛用於各類視頻分析任務中。為了彌補這個不足,作者創造性地提出了一個能從數據中學習出類光流特征並且能進行端到端訓練的神經網絡:TVNet。當前,TV-L1方法通過優化方法來求解光流,是最常用的方法之一。作者發現,把TV-L1的每一步叠代通過特定設計翻譯成神經網絡的某一層,就能得到TVNet的初始版本。因此,TVNet能無需訓練就能被直接使用。更重要的是,TVNet能被嫁接到任何分類神經網絡來構建從數據端到任務端的統一結構,從而避免了傳統多階段方法中需要預計算、預存儲光流的需要。最後,TVNet的某些參數是可以被通過端到端訓練來進一步優化,這有助於TVNet學習出更豐富以及與任務更相關的特征而不僅僅是光流。在兩個動作識別的標準數據集HMDB51和UCF101上,該方法取得了比同類方法更好的分類結果。與TV-L1相比,TVNet在節省光流提取時間和存儲空間的基礎上,明顯提高了識別精度。

2. 基於遞歸的左右雙目對比模型的立體匹配

Left-Right Comparative Recurrent Model for Stereo Matching

本文由AI Lab主導完成。充分利用左右雙目的視差信息對於立體視差估計問題非常關鍵。左右一致性檢測是通過參考對側信息來提高視差估計質量的有效方法。然而,傳統的左右一致性檢測是孤立的後處理過程,而且重度依賴手工設計。本文提出了一種全新的左右雙目對比的遞歸模型,同時實現左右一致性檢測和視差估計。在每個遞歸步上,模型同時為雙目預測視差結果,然後進行在線左右雙目對比並識別出很可能預測錯誤的左右不匹配區域。本文提出了一種“軟註意力機制”更好地利用學習到的誤差圖來指導模型在下一步預測中有針對性地修正更新低置信度的區域。通過這種左右對比的遞歸模型,生成的視差圖質量能夠不斷提高。在KITTI 2015、Scene Flow和Middlebury標準庫上的實驗驗證了本方法的有效性,並顯示本方法能取得最高的立體匹配視差估計性能。

下載地址

3. MRF中的CNN:基於內嵌CNN的高階時空MRF的視頻對象分割

CNN in MRF: Video Object Segmentation via Inference in A CNN-Based Higher-Order Spatio-Temporal MRF

本文由AI Lab獨立完成。本文討論了視頻對象分割的問題,其中輸入視頻的第一幀初始對象的掩膜是給定的。作者提出了一個新的時空馬爾可夫隨機場(MRF)模型來解決問題。與傳統的MRF模型不同,作者提出的模型中像素之間的空間相關性由卷積神經網絡(CNN)編碼。具體而言,對於給定的對象,可以通過用該對象預先訓練的CNN來預測一組空間相鄰像素進行分割標記的概率。因此,集合中像素之間的更高階更豐富的依賴關系可以由CNN隱式建模。然後通過光流建立時間依賴關系,所得到的MRF模型結合了用於解決視頻對象分割的空間和時間線索。然而,由於其中非常高階的依賴關系,在MRF模型中執行推理非常困難。為此,作者提出了一種新穎的嵌入CNN的近似算法來有效地執行MRF模型中的推理。該算法通過叠代交替執行兩個步驟:時間融合步驟和前饋CNN步驟。通過使用一種簡單的基於外觀的分割CNN進行初始化,作者提出的模型性能超過了DAVIS 2017挑戰賽的獲獎方法,而無需借助模型集成或任何專用檢測器。

4. CosFace: 面向深度人臉識別的增強邊緣余弦損失函數設計

CosFace: Large Margin Cosine Loss for Deep Face Recognition

本文由AI Lab獨立完成。由於深度卷積神經網絡(CNN)的研究進展,人臉識別已經取得了革命性的進展。人臉識別的核心任務包括人臉驗證和人臉辨識。然而,在傳統意義上的深度卷積神經網絡的softmax代價函數的監督下,所學習的模型通常缺乏足夠的判別性。為了解決這一問題,近期一系列損失函數被提出來,如Center Loss,L-Softmax,A-Softmax。所有這些改進算法都基於一個核心思想:增強類間差異並且減小類內差異。

在本文中,作者從一個新的角度來解決這個問題,並設計了一個新的損失函數,即增強邊緣余弦損失函數(LMCL)。更具體地說,通過對特征向量和權向量的L2歸一化,把softmax損失函數轉化為余弦損失函數,這樣做消除了半徑方向的變化,並在此基礎上引入了一個余弦邊界值m來進一步最大化所學習的特征在角度空間的決策間距。因此,采用這種歸一化和增強余弦決策邊距的方法,能夠更有效的起到最大化類間差異和最小化類內差異的作用。作者在最權威的人臉公開測試集上進行了實驗評估,這些測試集包括MegaFace Challenge, Youtube Faces (YTF),和Labeled Face in the Wild (LFW),取得了極其優異的性能,驗證了研發的新方法的有效性。

5. 類人化標註:多樣性和獨特性圖像標註

Tagging like Humans: Diverse and Distinct Image Annotation

本文由 AI Lab主導完成。作者提出了一種全新的自動圖像標註的生成式模型,名為多樣性和獨特性圖像標註(D2IA)。受到人類標註集成的啟發,D2IA將產生語義相關,獨特且多樣性的標簽。第一步,利用基於行列式點過程(DPP)的序列采樣,產生一個標簽子集,使得子集中的每個標簽與圖像內容相關,且標簽之間語義上是獨特的(即沒有語義冗余)。第二步,對DPP模型加上隨機擾動得到不同的概率分布,進而可以通過第一步中的序列采樣產生多個不同的標簽子集。作者利用生成對抗網絡(GAN)來訓練D2IA,在兩個基準數據集上開展了充分的實驗,包括定量和定性的對比,以及人類主觀測試。實驗結果說明,相對於目前最先進的自動圖像標註方法,本文的方法可以產生更加多樣和獨特的標簽。

6. 用當前重構過去的正則化RNN的描述生成

Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present

本文由 AI Lab主導完成。近年來,基於編碼-解碼框架的描述生成技術被廣泛的研究並應用於不同的領域,如圖像的描述生成和代碼的註釋生成等。本文提出了一種新的名為自動重構網絡(ARNet)的框架,這種框架可以與傳統的編解碼框架相結合,並以端到端的方式對輸入數據生成描述。ARNet使用RNN中當前時刻的隱狀態去重構前一個時刻的隱狀態,基於此,ARNet可以鼓勵當前時刻的隱狀態去包含前一個時刻隱狀態的更多信息,同時這樣可以對RNN中的隱狀態的變化起到正則化的作用。實驗表明,本文所提出的ARNet在圖像描述和代碼註釋任務上可以提高現今編解碼網絡的性能。另外,ARNet可以顯著地緩解描述生成技術中訓練過程與推斷過程的不一致的問題。

7. 視頻描述的重構網絡

Reconstruction Network for Video Captioning

本文由 AI Lab主導完成。在論文中,利用自然語言描述視頻序列的視覺內容使這個問題得到解決。不同於以前的視頻生成描述工作,主要利用視頻內容中的線索生成語言描述,本文提出一個重構網絡(RecNet)和編碼器- ×××- 重構器結構,該結構可同時利用前向信息流(從視頻到語句)和後向信息流(從語句到視頻)生成視頻描述。具體來說,編碼器 - ×××利用前向信息流產生基於被編碼視頻語義特征的句子描述。作者設計了兩種重構器來利用後向信息流,基於×××的隱藏狀態序列重構視頻特征。由編碼器 - ×××得到的傳統損失和由重構器造成的重構損失以端到端的形式聯合訓練RecNet。在基準數據集上的實驗結果表明,所提出的重構器可以增強編碼器 - ×××模型性能,並可顯著提高視頻描述的準確性。

8. 基於門限融合網絡的圖像去霧方法

Gated Fusion Network for Single Image Dehazing

本文與×××信息工程研究所、加州大學默賽德分校等合作完成。本文提出一種基於門限融合網絡的霧霾圖像的復原方法。該門限融合網絡由一個編碼解碼網絡構成。其中,編碼網絡用於對霧霾圖像本身及其多種變換圖像進行特征編碼,解碼網絡則用於估計這些變換圖像對應的權重。具體而言,對一張霧霾圖像,作者對其進行多種變換,包括圖像白平衡、對比度增強和伽馬矯正等操作提取圖像內部的不同顏色或對比度特征,然後將得到的變換圖像輸入到門限融合卷積神經網絡中,利用神經網絡對霧霾圖像的每個變換圖像估計一個權重矩陣,再利用權重矩陣對所有的變換圖像進行融合獲得最終的去霧結果圖。另外,為了去除恢復結果中容易出現的光圈效應,作者提出了多尺度門限融合網絡,可以有效增加網絡感知野並減少光圈效應。在大量合成圖片和真實圖片上的實驗證明作者提出的方法可以有效恢復霧霾圖像的細節信息。

9. 基於雙向註意融合機制和上下文門控的密集視頻描述

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

本文由 AI Lab主導完成。密集視頻描述是一個時下剛興起的課題,旨在同時定位並用自然語言描述一個長視頻中發生的所有事件或行為。在這個任務中,本文明確並解決了兩個挑戰,即:(1)如何利用好過去和未來的信息以便更精確地定位出事件,(2)如何給×××輸入有效的視覺信息,以便更準確地生成針對該事件的自然語言描述。第一,過去的工作集中在從正向(視頻從開頭往結尾的方向)生成事件候選區間,而忽視了同樣關鍵的未來信息。作者引入了一種雙向提取事件候選區間的方法,同時利用了過去和未來的信息,從而更有效地進行事件定位。第二,過去的方法無法區分結束時間相近的事件,即給出的描述是相同的。為了解決這個問題,作者通過註意力機制將事件定位模塊中的隱狀態與視頻原始內容(例如,視頻C3D特征)結合起來表征當前的事件。進一步地,作者提出一種新穎的上下文門控機制來平衡當前事件內容和它的上下文對生成文字描述的貢獻。作者通過大量的實驗證明了所提出的註意力融合的事件表征方式相比於單獨地使用隱狀態或視頻內容的表征方式要表現得更好。通過將事件定位模塊和事件描述模塊統一到一個框架中,本文的方法在ActivityNet Captions數據庫上超過了之前最好的方法,相對性能提升100%(Meteor分數從4.82到9.65)。

10. 基於多階段生成對抗網的延時攝影視頻的生成

Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks

本文由 AI Lab主導完成。在戶外拍攝一張照片之後,我們可以預測照片裏面接下來發生的事情嗎?比如,雲彩會怎麽移動?作者通過展示一個兩階段的生成對抗網來生成逼真的延時攝影視頻對這個問題進行了回答。給定第一幀圖像,本文的模型可以預測未來幀。在其兩階段模型裏面,第一個階段生成具有逼真內容的延時攝影視頻。第二個階段對第一個階段的結果進行優化,主要體現在增加動態的運動信息,使之與真實的延時攝影視頻更加接近。為了使最終生成的視頻具有生動的運動信息,作者引入格拉姆矩陣來更加精確地描述運動信息。作者建立了一個大規模的延時攝影視頻數據集,並且在這個數據集上面測試了其方法。通過使用該模型,可以生成分辨率為128x128,多達32幀的逼真的延時攝影視頻。定性和定量實驗都證明該方法相比已有最好模型的優越性。

下載地址

11. VITAL:對抗式學習之視覺跟蹤

VITAL: VIsual Tracking via Adversarial Learning

本文與澳大利亞阿德萊德大學、香港城市大學、加州大學默賽德分校等合作完成。現有的檢測式跟蹤的框架由兩個階段組成,即在目標物體周圍大量采樣和對每個樣本進行正負分類。現有的基於深度學習結構的檢測式跟蹤的效果受限於兩個問題。第一,每一幀中正樣本高度重疊,他們無法捕獲物體豐富的變化表征。第二,正負樣本之間存在嚴重的不均衡分布的問題。本文提出VITAL這個算法來解決這兩個問題。為了豐富正樣本,作者采用生成式網絡來隨機生成遮罩。這些遮罩作用在輸入特征上來捕獲目標物體的一系列變化。在對抗學習的作用下,作者的網絡能夠識別出在整個時序中哪一種遮罩保留了目標物體的魯邦性特征。與此同時,在解決正負樣本不均衡的問題中,本文提出了一個高階敏感損失來減小簡單負樣本對於分類器訓練的影響。在標準數據庫中大量的實驗證明,本文提出的跟蹤器優於目前已有的方法。

12. 再訪空洞卷積: 一種簡單的弱監督和半監督語義分割方法

Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation

本文與美國伊利諾伊大學香檳分校、×××大學合作完成。盡管弱監督語義分割已經取得了突出的進展,但相比於全監督的語義分割,弱監督語義分割效果依然不理想。作者觀察到這其中的效果差距主要來自於僅僅依靠圖像級別的標註,無法得到密集完整的像素級別的物體位置信息用來訓練分割模型。本文重新探索空洞卷積並且闡明了它如何使分類網絡生成密集的物體定位信息。通過依靠不同的倍率的空洞卷積來顯著增大卷積核的感受野,分類網絡能定位物體的非判別性區域,最終產生可靠的物體區域,有助於弱監督和半監督的語義分割。盡管該方法過程簡單,但是能取得目前最高的語義分割性能。具體地說,該方法在弱監督語義分割和半監督語義分割的情況下,在Pascal VOC 2012測試集上能達到目前最高的60.8%和67.6% mIOU。

13. 使用語義保持對抗嵌入網絡的zero-shot視覺識別

Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks

本文與南洋理工大學、哥倫比亞大學、浙江大學合作完成。本文提出了一種稱為語義保持敵對嵌入網絡(SP-AEN)的新型框架,用於zero-shot視覺識別(ZSL),其中測試圖像及其類別在訓練期間都是不可見的。 SP-AEN旨在解決固有的問題 - 語義丟失 - 在基於嵌入的ZSL的流行家族中,如果某些語義在訓練期間不好被區分,則在訓練期間會被丟棄,但是對測試樣本是有意義的。具體而言,SP-AEN通過引入獨立的視覺 - 語義空間嵌入來防止語義損失。該嵌入將語義空間分解為兩個可爭議相互矛盾的目標的兩個子空間:分類和重建。通過對這兩個子空間的對抗學習,SP-AEN可以將重構子空間的語義轉移到可區分子空間,從而實現對未見類的zero-shot識別。與以前的方法相比,SP-AEN不僅可以改善分類效果,還可以生成照片般真實的圖像,顯示語義保存的有效性。在CUB,AWA,SUN和aPY上,SP-AEN的harmonic平均值分別為12.2%,9.3%,4.0%和3.6%,明顯優於最先進的ZSL方法。

14. 用於跨模態檢索的自監督對抗哈希網絡

Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval

本文與西安電子科技大學、悉尼大學合作完成。由於深度學習的成功,最近跨模式檢索獲得了顯著改進。但是,仍然存在一個關鍵的瓶頸,即如何縮小多模態之間的距離,進一步提高檢索的準確性。本文提出了一種自我監督對抗哈希(SSAH)方法,這是早期試圖將對抗性學習納入以自我監督方式的跨模態哈希研究中。這項工作的主要貢獻是作者采用了幾個對抗網絡來最大化不同模態之間的語義相關性和表示一致性。另外,作者利用自我監督的語義網絡以多標簽註釋的形式發現高級語義信息,指導特征學習過程以保持共同語義空間和海明空間中的模態之間的關系。對三個基準數據集進行的大量實驗表明,所提出的SSAH優於最先進的方法。

15. 左右非對稱層跳躍網絡

Left/Right Asymmetric Layer Skippable Networks

本文與復旦大學合作完成。最近的神經科學研究表明,左右大腦在處理低空間頻率和高空間頻率的信息時是非對稱的。受到這項研究的啟發,作者提出了一種新的左右非對稱層跳躍網絡,用於由粗到精的物體分類。該網絡包含兩個分支來同時處理粗粒度與細粒度分類。同時,作者首次提出了層跳躍機制,它學習了一個門控網絡來決定是否在測試階段來略過某些層。層跳躍機制賦予了該網絡更好的靈活性以及更大的容量。作者在多種常用數據庫上進行了測試,結果表明該網絡在處理由粗到精的物體分類問題上優於其他方法。

16. 利用空間變化循環神經網絡對動態場景去模糊

Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks

本文與南京理工大學、加州大學默塞德分校等合作完成。由於相機抖動,景深和物體運動,動態場景去模糊是空間變化的。已有的利用先驗圖像信息或者龐大的深度神經網絡的方法無法有效地處理這個問題,同時他們計算開銷很大。與已有的方法不同,作者提出一個空間變化的神經網絡來解決動態場景去模糊。作者提出的算法包含了三個卷積神經網絡和一個循環卷積神經網絡。其中卷積神經網絡用來提取特征,學習循環卷積神經網絡的系數和圖像重建。在卷積神經網絡抽取的特征指引下,循環卷積神經網絡恢復出清晰的圖像。作者的分析表明,該算法具有較大的接受範圍,同時模型尺寸較小。與此同時,本文分析了空間變化循環卷積網路和反卷積的關系。分析表明空間變化循環卷積網絡能夠對反卷積建模。作者以端到端訓練的方式,提出一個較小的深度學習模型,其速度優於已有的方法。在標準數據庫上定量和定性的評估表明該方法在精度,速度和模型大小方面優於已有的方法。

17. 利用深度往復式高動態範圍轉換進行圖像校正

Image Correction via Deep Reciprocating HDR Transformation

本文與大連理工大學、香港城市大學合作完成。圖像校正的目的在於對一幅輸入圖像進行調整,使其視覺柔和的同時在過曝光和欠曝光的區域恢復出圖像細節。然而,現有的圖像校正的方法主要依據於圖像像素操作,使得從過曝光或者欠曝光區域恢復出圖像細節十分困難。為此,作者回顧了圖像生成的過程,並註意到細節均保留在高動態區域中,人眼可感知。然而,在非線性成像生成低動態範圍的過程中有部分細節丟失。基於此發現,作者將圖像修復問題歸為深度往復式高動態範圍轉換的過程,同時提出一個創新的方法——首先從高動態範圍域中恢復出丟失的細節,然後將此細節轉換到低動態範圍的圖像中作為輸出結果。以這種方式,作者提出一個端到端的深度往復式高動態範圍轉換模型。該模型由兩個卷積神經網絡組成,第一個功能為高動態範圍細節重建,另外一個為低動態範圍細節校正。在標準數據庫下的實驗表明,相比於已有的圖像校正方法,作者提出的方法更加有效。

18. 端到端的卷積語義嵌入

End-to-end Convolutional Semantic Embeddings

本文與美國羅切斯特大學合作完成。最近已經廣泛研究了圖像和句子的語義嵌入。深度神經網絡在學習豐富而魯棒的視覺和文本表示方面的能力為開發有效的語義嵌入模型提供了機會。目前,最先進的語義學習方法首先采用深度神經網絡將圖像和句子編碼到一個共同的語義空間中。然後,學習目標是確保匹配圖像和句子對之間的相似度比隨機抽樣對更大。通常,卷積神經網絡(CNN)和遞歸神經網絡(RNN)分別用於學習圖像和句子表示。一方面,已知CNN在不同級別產生強健的視覺特征,並且RNN以捕獲順序數據中的依賴性而聞名。因此,這個簡單的框架可以充分有效地學習視覺和文本語義。另一方面,與CNN不同,RNN不能產生中間級別(例如,文本中的短語級別)表示。因此,只有全局表示可用於語義學習。由於圖像和句子中的層次結構,這可能會限制模型的性能。在這項工作中,作者應用卷積神經網絡來處理圖像和句子。因此,通過在卷積層上引入新的學習目標,作者可以采用中級表示來輔助全局語義學習。實驗結果表明,本文提出的具有新學習目標的文本CNN模型導致比現有技術方法更好的性能。

19. 一種有效防止負遷移或災難性遺忘的深度人臉檢測的自適應算法

Deep Face Detector Adaptation without Negative Transfer or Catastrophic Forgetting

本文與美國弗羅裏達中央大學、Adobe Research合作完成。沒有任何一個人臉檢測器能夠適用於所有場景,所以如何使檢測器自適應不同場景從而提高在目標場景的準確率,就變得很有必要。作者提出一種新穎的針對深度人臉檢測器的自適應算法。給定目標域的代表性的圖像,無論它們是否被標記,該算法都能夠有效的將檢測器針對目標域進行優化。這個過程不需要存儲任何源域的數據——原來用以訓練檢測器的數據。作者設計了一種殘差目標函數來顯式的避免在遷移學習中臭名昭著的負轉移問題。與此同時,它不會對來自源域的知識造成災難性的幹擾或遺忘,使得自適應以後的人臉檢測器不僅在目標域的準確率更高, 並且在源域中與原始檢測器保持大致相同的性能。從某種角度看,該方法和很流行的自然語言模型插值技術有一定相似,它有可能開創一個新的方向:如何從不同域的數據逐步訓練好的人臉檢測器。作者報告了廣泛的實驗結果,以驗證在兩種深度人臉檢測器上的效果。

20. 基於幾何指導下的卷積神經網絡的視頻表征自監督學習

Geometry-Guided CNN for Self-supervised Video Representation learning

本文與清華大學、北京郵電大學、加州大學聖地亞哥分校、斯坦福大學合作完成。人工標註視頻以訓練高質量的視頻識別模型通常費力且昂貴,因此,在學習視頻表征的方向上,已經有一些興趣和工作來探索不需要人工監督的、有噪聲的、和間接的訓練信號。然而,這些信號往往很粗糙——為整段視頻提供監督,或者很微弱——比如強制機器解決對人來說都很難的識別問題。在本文中,作者改為探索不需人工標註的幾何信息,這是輔助視頻表征的自監督學習的一種全新的信號。作者將像素級幾何信息從合成圖像裏提取為流場或者從3D電影裏提取為視差圖。雖然幾何和高級的語義看似不相關,但令人驚訝的是,作者發現由這些幾何線索訓練的卷積神經網絡可以被有效地應用於語義視頻理解的任務。此外,作者還發現漸進式的訓練策略——而不是盲目地將不同的幾何線索源匯集在一起——可以為視頻識別提供更好的神經網絡。在視頻動態場景識別和動作識別的結果表明,作者的幾何指導下的卷積神經網絡明顯優於其他類型的自監督信號訓練的競爭方法。

21. 學習在黑暗中看世界

Learning to See in the Dark

本文與美國伊利諾伊大學香檳分校、Intel Labs合作完成。在低光照甚至黑暗條件下拍出高質量的照片一直是非常有挑戰性的科研問題,這主要是由於低光子數和低信噪比給相機成像帶來了很大的困難。曝光時間過短會給圖像帶來噪點,而長時間曝光又容易導致圖像模糊,費時費力,在現實中可行性低。傳統算法提出了各種去噪、去模糊和增強技術,但是它們的有效性在極端條件下是非常有限的,例如夜晚的視頻成像。為了支持基於深度學習的低光圖像處理流水線的開發,作者收集了一個大規模的夜間成像數據集,它由短曝光夜間圖像以及相應的長曝光參考圖像組成。使用這個數據集,作者開發了一個基於全卷積網絡端到端訓練的低光圖像處理流水線。該網絡直接讀入原始傳感器數據,然後前向輸出一張高清圖像。這個技術克服了傳統圖像處理流水線需要多模塊且夜間成像效果差的不足。本文展示了新數據集頗具前景的結果,並分析了影響性能的因素,以及未來研究的機會。


CVPR 2018 | 騰訊AI Lab入選21篇論文詳解