ECCV 2018獎項公佈:德國團隊獲最佳論文,吳育昕、何愷明上榜

ofollow,noindex" target="_blank">機器之心 原創
機器之心編輯部 報道
ECCV 2018獎項公佈:德國團隊獲最佳論文,吳育昕、何愷明上榜
今日,ECCV 2018 獲獎論文公佈,來自德國航空航天中心、慕尼黑工業大學的研究者獲得最佳論文獎項;吳育昕與何愷明合作的《Group Normalization》、Albert Pumarola 等人合作的《GANimation: Anatomically-aware Facial Animation from a Single Image》獲得了最佳論文榮譽提名獎。
當前,在人工智慧大浪潮下,學術會議成為產業界甚至公眾密切關注的事件。
前有 NIPS 門票開放註冊 11 分鐘後被搶光 ,而正在火熱進行的 ECCV 官網也提前釋出通知表示,大會已經滿額,不要自發來參與此大會。
作為計算機視覺領域的三大頂會之一,ECCV 今年的火爆程度超乎尋常。據資料顯示,今年大會參會人數近 3200 人,是上屆(2016)的兩倍。
論文接收方面,本屆大會收到論文投稿 2439 篇,接收 776 篇(31.8%),59 篇 oral 論文,717 篇 poster 論文。在活動方面,ECCV 2018 共有 43 場 Workshop 和 11 場 Tutorial。
除了介紹本屆大會的參會與論文接收情況,會議主辦方在週三的晚宴中還公佈了今年的獲獎論文:
最佳論文
最佳論文獎由來自德國航空航天中心、慕尼黑工業大學的團隊獲得。值得一提的是港中文大學教授、商湯科技聯合創始人湯曉鷗是頒獎委員會成員之一。
論文:Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
-
作者:Martin Sundermeyer、En Yen Puang、Zoltan-Csaba Marton、Maximilian Durner、Rudolph Triebel
-
機構:德國航空航天中心、慕尼黑工業大學
-
論文連結:http://openaccess.thecvf.com/content_ECCV_2018/papers/Martin_Sundermeyer_Implicit_3D_Orientation_ECCV_2018_paper.pdf
摘要:我們提出了一個基於 RGB 的實時目標檢測和 6D 姿勢估計流程。我們的新型 3D 目標朝向估計方法基於去噪自編碼器(DenoisingAutoencoder)的一種變體,其使用域隨機化(Domain Randomization)在 3D 模型的模擬檢視上進行訓練。我們稱之為「增強自編碼器」(AugmentedAutoencoder,AAE),它和現有方法相比具備多項優勢:無需真實的姿勢標註訓練資料,可泛化至多種測試感測器,且內在地能夠處理目標和檢視對稱性。該方法不學習從輸入影象到目標姿勢的顯性對映,而是提供樣本在潛在空間中定義的目標朝向隱性表徵。在 T-LESS 和 LineMOD 資料集上的實驗表明,我們的方法優於基於模型的類似方法,可以媲美需要真實姿態標註影象的當前最優方法。
具體而言,我們的方法在單張 RGB 影象上執行,由於不需要深度資訊,其可用性大大提高。儘管我們注意到深度圖可以被選擇性地合併以改進估計。第一步,我們應用一個單次多框檢測器(Single Shot Multibox Detector,SSD)來提供物體邊界框和識別符號。在生成的場景裁剪圖上,我們採用了新的 3D 朝向估計演算法,該演算法基於先前預訓練的深度網路架構。雖然深度網路也在現有方法中使用,但我們的方法不同之處在於,我們在訓練期間沒有從 3D 姿態標註資料中顯式地學習。相反,我們從渲染的 3D 模型檢視中隱式地學習表徵。
本論文提出方法的原理圖如下所示:
圖 1:具有同質轉化 H_cam2obj ∈ R^(4x4)(右上)和深度精製結果 H^(refined)_cam2obj(右下)的 6D 目標檢測管道
圖 4:AAE(增強自編碼器)的訓練過程。
圖 5:具有遮擋測試輸入的自編碼器 CNN 架構。
表 5:LineMOD:使用不同訓練和測試資料的目標召回(ADD 標準),結果來自 [35]。
最佳論文獲獎團隊接受頒獎
榮譽提名論文
論文:GroupNormalization
-
作者:吳育昕、何愷明
-
機構:Facebook AI Research (FAIR)
-
論文連結:https://arxiv.org/abs/1803.08494
摘要:批歸一化(BN)是深度學習發展史中的一項里程碑技術,使得大量神經網路得以訓練。但是,批量維度上的歸一化也衍生出一些問題——當批量統計估算不準確導致批量越來越小時,BN 的誤差快速增大,從而限制了 BN 用於更大模型的訓練,也妨礙了將特徵遷移至檢測、分割、視訊等計算機視覺任務之中,因為它們受限於記憶體消耗,只能使用小批量。在本論文中,我們提出了作為批歸一化(BN)簡單替代的組歸一化(GN)。GN 把通道分為組,並計算每一組之內的均值和方差,以進行歸一化。GN 的計算與批量大小無關,其精度也在各種批量大小下保持穩定。在ImageNet上訓練的 ResNet-50 上,當批量大小為 2 時,GN 的誤差比 BN 低 10.6%。當使用經典的批量大小時,GN 與 BN 相當,但優於其他歸一化變體。此外,GN 可以自然地從預訓練階段遷移到微調階段。在 COCO 的目標檢測和分割任務以及 Kinetics 的視訊分類任務中,GN 的效能優於或與 BN 變體相當,這表明 GN 可以在一系列不同任務中有效替代強大的 BN;在現代的深度學習庫中,GN 通過若干行程式碼即可輕鬆實現。
圖 1:ImageNet分類誤差 vs. 批大小。這是在ImageNet訓練集上用 8 個工作站(GPU)訓練、在驗證集上進行評估的 ResNet-50 模型。
具體內容參見: FAIR何愷明等人提出組歸一化:替代批歸一化,不受批量大小限制
論文:GANimation: Anatomically-aware Facial Animation from a Single Image
-
作者:Albert Pumarola、Antonio Agudo、Aleix M. Martinez、Alberto Sanfeliu、Francesc Moreno-Noguer
-
機構:西班牙機器人與工業資訊研究所、俄亥俄州立大學
-
論文連結:https://arxiv.org/abs/1807.09251
摘要:近期生成對抗網路(GAN)在人臉表情合成任務中取得了驚人的表現。其中最成功的架構是 StarGAN,它使用特定域的影象來調整 GAN 生成過程,即一系列相同表情的人臉影象。儘管該方法很有效,但它只能生成不連續的表情,而這是由資料集決定的。為了解決這個侷限,本文提出了一種基於動作單元(AU)標註的新型 GAN 條件化方法,該方法在連續流形中描述了定義人臉表情解剖結構的運動。我們的方法允許控制每個 AU 的啟用值大小,並將其組合。此外,我們還提出了一個完全無監督的策略來訓練該模型,僅需要用啟用 AU 標註的影象,並利用注意力機制使我們的網路對背景和光照條件變化具備魯棒性。擴充套件評估結果表明,我們的方法在合成更多樣表情(按解剖結構的肌肉運動),以及處理自然影象的能力上都超越了對比的條件生成模型。
圖 1:從單張影象生成的人臉動畫。研究者提出了一種解剖結構上連貫的方法,該方法不侷限於離散數量的表情,可以對給定的影象進行動畫化處理, 並在一些連續的影象域中生成新的表情。在這些例子中,只給出最左邊的影象輸入 I_yr(由綠色方框圈出),引數α控制微笑表情中包含的目標動作單元的啟用程度。此外, 該系統可以處理非自然光照條件下的影象, 如最下面一行的例子。
以下是部分動畫示例:
具體內容參見: ECCV 2018 | GANimation 讓圖片秒變 GIF 表情包,秒殺 StarGAN
除了最佳論文,ECCV 2018 還頒佈了 Everingham 獎、Koenderink 獎兩大獎項。前者是為了紀念 Mark Everingham,後者是為了獎勵經得起時間考驗的計算機視覺基礎研究。
Everingham 獎
-
獲獎人:Alan Smeaton、Wessel Kraaij、Paul Over、George Awad
-
貢獻:自 2003 年以來參與了一系列資料集和研討會,推動了大規模視訊檢索方面的進展。
-
獲獎人:Changchang Wu
-
貢獻:為運動恢復結構(structure from motion)提供了一個記錄完備的軟體庫。
Koenderink 獎
論文:Hamming Embedding and Weak Geometric Consistency for Large Scale Image Search
-
作者:Herve Jegou, Matthijs Douze, and Cordelia Schmid
-
機構:INRIA Grenoble, LEAR, LJK
-
論文連結:https://lear.inrialpes.fr/pubs/2008/JDS08/jegou_hewgc08.pdf
論文:Semi-supervised On-LineBoostingfor Robust Tracking
-
作者:Helmut Grabner, Christian Leistner, Horst Bischof
-
機構:奧地利格拉茨科技大學計算機圖形與視覺研究所、瑞士蘇黎世聯邦理工學院計算機視覺實驗室
-
論文連結:http://www.vision.ee.ethz.ch/boostingTrackers/Grabner2008Semi-supervisedOn-lineboosting.pdf
理論 ECCV 2018 何愷明 計算機視覺
相關資料
Artificial Intelligence
在學術研究領域,人工智慧通常指能夠感知周圍環境並採取行動以實現最優的可能結果的智慧體(intelligent agent)
來源: Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.
Attention mechanism
我們可以粗略地把神經注意機制類比成一個可以專注於輸入內容的某一子集(或特徵)的神經網路. 注意力機制最早是由 DeepMind 為影象分類提出的,這讓「神經網路在執行預測任務時可以更多關注輸入中的相關部分,更少關注不相關的部分」。當解碼器生成一個用於構成目標句子的詞時,源句子中僅有少部分是相關的;因此,可以應用一個基於內容的注意力機制來根據源句子動態地生成一個(加權的)語境向量(context vector), 然後網路會根據這個語境向量而不是某個固定長度的向量來預測詞。
來源:機器之心
Neural Network
(人工)神經網路是一種起源於 20 世紀 50 年代的監督式機器學習模型,那時候研究者構想了「感知器(perceptron)」的想法。這一領域的研究者通常被稱為「聯結主義者(Connectionist)」,因為這種模型模擬了人腦的功能。神經網路模型通常是通過反向傳播演算法應用梯度下降訓練的。目前神經網路有兩大主要型別,它們都是前饋神經網路:卷積神經網路(CNN)和迴圈神經網路(RNN),其中 RNN 又包含長短期記憶(LSTM)、門控迴圈單元(GRU)等等。深度學習是一種主要應用於神經網路幫助其取得更好結果的技術。儘管神經網路主要用於監督學習,但也有一些為無監督學習設計的變體,比如自動編碼器和生成對抗網路(GAN)。
來源:機器之心
Autoencoder
自動編碼器是用於無監督學習高效編碼的人工神經網路。 自動編碼器的目的是學習一組資料的表示(編碼),通常用於降維。 最近,自動編碼器已經越來越廣泛地用於生成模型的訓練。
來源: Wikipedia
Boosting
Boosting是一種主要用於減少偏差的機器學習整合元演算法,也是監督學習的一個變化,是一種將弱學習器轉換為強學習器的機器學習演算法家族。 Boosting是基於Kearns和Valiant(1988,1989)提出的問題:一組弱學習器能創造一個強大的學習器嗎?一個弱的學習器被定義為一個分類器,它與真實的分類只有輕微的相關性(它可以比隨機猜測更好地標註示例)。相反,強大的學習器是一個與真實分類任意相關的分類器。
來源: Wikipedia
Computer Vision
計算機視覺(CV)是指機器感知環境的能力。這一技術類別中的經典任務有影象形成、影象處理、影象提取和影象的三維推理。目標識別和麵部識別也是很重要的研究領域。
來源:機器之心
ImageNet
Generative Adversarial Networks
生成對抗網路是一種無監督學習方法,是一種通過用對抗網路來訓練生成模型的架構。它由兩個網路組成:用來擬合數據分佈的生成網路G,和用來判斷輸入是否“真實”的判別網路D。在訓練過程中,生成網路-G通過接受一個隨機的噪聲來儘量模仿訓練集中的真實圖片去“欺騙”D,而D則儘可能的分辨真實資料和生成網路的輸出,從而形成兩個網路的博弈過程。理想的情況下,博弈的結果會得到一個可以“以假亂真”的生成模型。
Mapping
對映指的是具有某種特殊結構的函式,或泛指類函式思想的範疇論中的態射。 邏輯和圖論中也有一些不太常規的用法。其數學定義為:兩個非空集合A與B間存在著對應關係f,而且對於A中的每一個元素x,B中總有有唯一的一個元素y與它對應,就這種對應為從A到B的對映,記作f:A→B。其中,y稱為元素x在對映f下的象,記作:y=f(x)。x稱為y關於對映f的原象*。*集合A中所有元素的象的集合稱為對映f的值域,記作f(A)。同樣的,在機器學習中,對映就是輸入與輸出之間的對應關係。
來源: Wikipedia
Normalization
規範化:將屬性資料按比例縮放,使之落入一個小的特定區間,如-1.0 到1.0 或0.0 到1.0。 通過將屬性資料按比例縮放,使之落入一個小的特定區間,如0.0到1.0,對屬性規範化。對於距離度量分類演算法,如涉及神經網路或諸如最臨近分類和聚類的分類演算法,規範化特別有用。如果使用神經網路後向傳播演算法進行分類挖掘,對於訓練樣本屬性輸入值規範化將有助於加快學習階段的速度。對於基於距離的方法,規範化可以幫助防止具有較大初始值域的屬性與具有較小初始值域的屬相相比,權重過大。有許多資料規範化的方法,包括最小-最大規範化、z-score規範化和按小數定標規範化。
來源:Jiawei Han;Micheline Kamber著 資料探勘概念與技術 機械工業出版社
Deep learning
深度學習(deep learning)是機器學習的分支,是一種試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對資料進行高層抽象的演算法。 深度學習是機器學習中一種基於對資料進行表徵學習的演算法,至今已有數種深度學習框架,如卷積神經網路和深度置信網路和遞迴神經網路等已被應用在計算機視覺、語音識別、自然語言處理、音訊識別與生物資訊學等領域並獲取了極好的效果。
來源: LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.
SenseTime
商湯科技成立於2014年,專注於計算機視覺和深度學習的原創技術,是中國領先的人工智慧頭部公司,估值超過20億美金。以“堅持原創,讓AI引領人類進步”為使命,商湯科技建立了國內頂級的自主研發的深度學習超算中心,併成為中國一流的人工智慧演算法供應商。商湯科技不僅在技術實力上領跑行業,商業營收亦領先同行業,在多個垂直領域的市場佔有率居首位。目前,商湯科技已與國內外多個行業的400多家領軍企業建立合作,包括Qualcomm、英偉達、本田、中國移動、銀聯、萬達、蘇寧、海航、中央網信辦、華為、小米、OPPO、vivo、微博、科大訊飛等知名企業及政府機構,涵蓋安防、金融、智慧手機、移動網際網路、汽車、智慧零售、機器人等諸多行業,為其提供基於人臉識別、影象識別、視訊分析、無人駕駛、醫療影像識別等技術的完整解決方案。2017年7月,商湯科技宣佈完成4.1億美元B輪融資,創下當時全球人工智慧領域單輪融資額紀錄,成為世界級的人工智慧獨角獸企業。新一輪融資後,商湯科技加大力度開展包括自動駕駛、醫療影像以及深度學習晶片等領域的研發工作。商湯科技現已在香港、北京、深圳、上海、成都、杭州、日本京都和東京成立分部,彙集世界各地頂尖人才,合力打造一家世界一流的原創人工智慧技術公司。中國“智”造,“慧”及全球。
涉及領域
Xiaoou Tang
湯曉鷗,現任香港中文大學資訊工程系系主任,兼任中國科學院深圳先進技術研究院副院長。中央組織部“千人計劃”入選者,全球人臉識別技術的“開拓者”和“探路者”,商湯科技聯合創始人。2014年3月,湯曉鷗團隊釋出研究成果,基於原創的人臉識別演算法,準確率達到98.52%,首次超越人眼識別能力(97.53%)。
涉及領域
來源:https://baike.baidu.com/item/%E6%B1%A4%E6%99%93%E9%B8%A5/7200225?fr=aladdin

機器之心是國內領先的前沿科技媒體和產業服務平臺,關注人工智慧、機器人和神經認知科學,堅持為從業者提供高質量內容和多項產業服務。