1. 程式人生 > >商湯科技20篇論文入選ICCV 2017,披露最新研究主線

商湯科技20篇論文入選ICCV 2017,披露最新研究主線

來源自 商湯科技
量子位 出品 | 公眾號 QbitAI

本月22-29日,是兩年一度的國際計算機視覺大會(ICCV)召開的日子。

於往屆ICCV相比,本屆 ICCV堪稱火爆。據組委會統計,ICCV 2017共收到2143篇論文投稿,其中621篇被選為大會論文,錄用比例29%。其中包含45篇口頭報告(Oral)和56篇亮點報告(Spotlight),參會人數預計將超過3000人。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

本屆ICCV中,商湯科技與香港中大-商湯科技聯合實驗室共發表了20篇論文,其中包括3篇Oral (錄取率僅2.09%)和1篇Spotlight,領先於Facebook(15篇)、Google Research(10篇)等科技巨頭。

ICCV是計算機視覺領域最高水平的國際學術會議,在其中發表的論文的量與質可以衡量一個公司或者研究機構的學術水平,以及其對未來科技發展潮流的把握。從商湯科技的20篇論文中,可以看到其在研究上重點發力的主線——

跨模態分析:讓視覺與自然語言聯合起來

在過去幾年,隨著深度學習的廣泛應用,計算機視覺取得了突破性的發展,很多傳統任務(比如影象分類,物體檢測,場景分割等)的效能大幅度提高。但是在更高的水平上,計算機視覺開始遇到了新的瓶頸。要獲得新的技術進步,一個重要的方向就是打破傳統視覺任務的藩籬,把視覺理解與自然語言等其它模態的資料結合起來。

在這一方向上,商湯科技有4篇論文被ICCV 2017錄用,包括一篇Oral。

代表:《Towards Diverse and Natural Image Descriptions via a Conditional GAN (Oral)》

作者:Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin.

0?wx_fmt=png

看圖說話,也就是根據影象生成描述性標題,是今年來非常活躍的研究領域。現有的方法普遍存在一個問題,就是產生的標題很多是訓練集中的表述的簡單重複,讀起來味同嚼蠟。這一問題的根源在於學習目標過分強調與訓練集的相似性。

這篇論文提出了一種新型的基於Conditional GAN的訓練方法,把描述生成模型與評估模型合同訓練。這樣,評估的標準從“像不像訓練集”變成“像不像人說話”,從而驅動生成模型產生更加自然、生動,並具有豐富細節的描述。這一工作為看圖說話任務提供了新的思路。在User Study中,這種新的方法以6:4的勝率戰勝了傳統的方法。

另外兩篇paper則從相反的方向思考,力圖利用相關文字的資訊來幫助提高視覺理解的能力。

代表:《Scene Graph Generation from Objects, Phrases and Caption Regions》

作者:Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

0?wx_fmt=png

這篇論文把三個有密切關係的任務——物體檢測,場景圖生成,以及影象區域的描述聯合在一起,並且利用它們之間的關係建立了一個多層次的場景描述模型—— Multi-level Scene Description Network (MSDN)。

通過這個聯合模型,傳統上分離開來的三個任務可以結合在一起進行端對端的訓練,從而使得每個任務都獲得性能的提升。尤其在代表對影象綜合理解能力的場景圖生成任務上,效能提高超過了3%。

代表:《Learning to Disambiguate by Asking Discriminative Questions》

作者:Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

0?wx_fmt=png

這篇論文探索了一個新的方向,即透過提出有鑑別力的問題來區分不同的視覺實體。比如當你需要區分一隻白色的狗和一隻黑色的狗的時候,可以提出關於顏色的問題。

為了支援這個方向的探索,作者在這項工作中建立了一個新的資料集,裡面含有了超過一萬組包含成對影象與多個相關問題的樣本;並且提出了一種新型的弱監督訓練方法,可以在缺乏細緻標註的條件下,同時學習到一個具有區分度的問題生成器,以及能提供準確答案的鑑別模型。

代表:《Identity-Aware Textual-Visual Matching with Latent Co-attention》

作者:Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

0?wx_fmt=png

特徵匹配是跨模態學習的核心環節。這篇論文提出了一個新的文字與視覺特徵匹配的框架。這個框架由兩個階段組成。

第一階段能迅速排除明顯錯誤的配對,併為第二階段的訓練提供效度更高的訓練樣本。第二階段通過一個新的關聯注意力模型(co-attention model),把文字中的單詞關聯到影象中的特定區域。

在三個公開資料集上(CUHK-PEDES, CUB, Flowers),本文提出的方法都顯著超過現行的主流方法。

視訊分析:讓計算機看懂視訊

雖然深度學習在影象分析中取得了巨大的成功,它在視訊的理解與分析中的應用還有很長的路要走。相比於影象,視訊資料具有更大的資料量以及更豐富的結構,因而也為視覺分析技術提出了更高水平的挑戰。

商湯科技在數年前就開始了把深度學習用於視訊分析與理解的探索,提出了包括Temporal Segmental Networks (TSN)在內的多種有很大影響並被廣泛應用的視訊分析架構,並在ActivityNet 2016取得了冠軍。

在2017年,商湯科技以及相關實驗室繼續把這個方向的探索推向縱深,並在ICCV 2017發表了兩項重量級的工作,包括一篇Oral。

代表:《RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos. (Oral)》

作者:Wenbin Du; Yali Wang; Yu Qiao.

0?wx_fmt=png

通常的視訊分析模型大部分是基於video-level的類別進行監督學習的,這種方法的侷限是難以學習到複雜的運動結構。這篇論文另闢蹊徑,著力於動態人體的建模,並提出了一個新型的可以端對端訓練的深度網路架構 Recurrent Pose Attention Network (RPAN)。

該架構不僅可以自適應地整合人體運動姿態的特徵,還能很好地學習其時空演化結構。這項工作一方面為視訊動作理解提供了新的方法,另一方面作為副產品也獲得了一個不錯的粗粒度姿態估計的模型。

代表:《Temporal Action Detection with Structured Segment Networks》

作者:Yue Zhao, Yuanjun Xiong, Zhirong Wu, Xiaoou Tang, Dahua Lin.

0?wx_fmt=png

時域上的動作檢測是近兩年興起的新型視訊分析任務。相比於傳統的動作分類,這個任務更具有挑戰性,不僅需要判斷一個運動或者事件的型別,還需要獲得它的準確起止時間。這個任務在實際場景中有很大的潛在價值,比如它可以從長時間的運動視訊或者電影中自動定位到相關的精彩片段。

這篇論文提出了一種新型的視訊動作檢測模型,它在TSN的基礎上引入了三段結構模型以更有效地捕捉運動起始段與終結段的特徵。基於這一架構,動作分類器與時間定位器可以端到端聯合訓練。這個方法在多個大型視訊資料集上(包括THOMOS和ActivityNet)取得了比現有方法超過10個百分點的提升。

生成對抗網路:讓計算機學習創作

最近兩年,由於生成對抗網路(Generative Adversarial Networks)的提出,生成模型(generative model)的學習成為一個新興的研究方向。

和傳統的鑑別模型(discriminative model)主要關注資訊提煉不同,生成模型需要從零開始,或者基於資訊量非常有限的給定條件,產生出完整的影象,因此特別具有挑戰性。

這個研究方向在消費領域具有巨大的應用價值,同時它也可以通過產生訓練樣本的方式反哺傳統領域的研究。商湯科技在這個新興領域也積極開展研究,取得不少新的成果,並在ICCV 2017發表了兩項相關工作,包括一篇Oral。

代表:StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks.n (Oral)

作者:Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

0?wx_fmt=png

生成高質量的影象是生成模型研究的核心問題。這篇文章提出了一個新型的生成框架,StackGAN,它能夠根據簡短的文字描述生成解析度為256 x 256的高質量圖片。生成如此高解析度的照片是一個極具挑戰性的問題,此前的生成模型通常只能產生大小為64 x 64的圖片。

本文提出的方法把這個困難的任務分解為兩個階段。在第一階段,先根據文字描述產生粗粒度的草圖,以第一階段的結果作為輸入,第二階段產生高解析度的影象,並補充豐富的細節。此文還進一步提出了一種新型的條件增強技術,以改進訓練過程的穩定性。

和現有的生成網路相比,StackGAN在生成圖片的質量的解析度上獲得了非常顯著的進步。

代表:《Be Your Own Prada: Fashion Synthesis with Structural Coherence》

作者:Shizhan Zhu, Dahua Lin, Raquel Urtasun, Sanja Fidler, Chen Change Loy.

0?wx_fmt=png

這篇文章探索了一個極具應用價值的方向,把生成模型引入時尚領域:提出一種嶄新的方法產生換裝照片。具體而言,給定一個人的照片,以及對換裝的描述,此文提出的方法可以根據對換裝的描述,比如“黑色的短袖長裙”,產生換裝後的照片。

和一般的生成任務相比,換裝任務更具挑戰性,換裝照不僅需要符合文字描述,而且需要和原照片中人體的姿態相吻合。此文提出一個兩階段的框架解決這個問題:第一階段產生一個和人體姿態吻合的分割槽圖,第二階段以此為基礎生成具有精細細節的服裝影象。

除了在新興方向上積極開拓,商湯科技在一些重要的核心領域,包括人臉檢測、物體檢測、人體姿態估計、實際場景中的身份再識別等,也持續投入,精益求精,在本屆ICCV發表多篇相關論文。

商湯科技ICCV 2017論文列表

  1. “StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks”. Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

  2. “Scene Graph Generation from Objects, Phrases and Caption Regions”. Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

  3. “Online Multi-Object Tracking Using Single Object Tracker with Spatial and Temporal Attention”. Qi Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, Nenghai Yu.

  4. “Learning Feature Pyramids for Human Pose Estimation”. Wei Yang, Wanli Ouyang, Shuang Li, Xiaogang Wang.

  5. “Learning Chained Deep Features and Classifiers for Cascade in Object Detection”. Wanli Ouyang, Xiaogang Wang, Kun Wang, Xin Zhu.

  6. “Identity-Aware Textual-Visual Matching with Latent Co-attention”. Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

  7. “Towards Diverse and Natural Image Descriptions via a Conditional GAN”. Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin.

  8. “Temporal Action Detection with Structured Segment Networks”. Yue Zhao, Yuanjun Xiong, Zhirong Wu, Dahua Lin.

  9. “Learning to Disambiguate by Asking Discriminative Questions”. Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

  10. “Be Your Own Prada: Fashion Synthesis with Structural Coherence”. Shizhan Zhu, Raquel Urtasun, Sanja Fidler, Dahua Lin, Chen Change Loy.

  11. “Recurrent Scale Approximation for Object Detection in CNN”. Yu LIU, Hongyang Li, Junjie Yan, Xiaogang Wang, Xiaoou Tang.

  12. “Orientation Invariant Feature Embedding and Spatial Temporal Re-ranking for Vehicle Re-identification”. Zhongdao Wang, Luming Tang, Xihui Liu, Zhuliang Yao, Shuai Yi, Jing Shao, Junjie Yan, Shengjin Wang, Hongsheng Li, Xiaogang Wang.

  13. “Multi-label Image Recognition by Recurrently Discovering Attentional Regions”. Zhouxia Wang, Tianshui Chen, Guanbin Li, Ruijia Xu, Liang Lin.

  14. “HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis”. Xihui Liu, Haiyu Zhao, Maoqing Tian, Lu Sheng, Jing Shao, Shuai Yi, Junjie Yan, Xiaogang Wang.

  15. “Learning Deep Neural Networks for Vehicle Re-ID with Visual-spatio-temporal Path Proposals”. Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang.

  16. “Deep Dual Learning for Semantic Image Segmentation”. Ping Luo, Guangrun Wang, Liang Lin, Xiaogang Wang.

  17. “Detecting Faces Using Inside Cascaded Contextual CNN”. Kaipeng Zhan, Zhanpeng Zhang, Hao Wang, Zhifeng Li, Yu Qiao, Wei Liu.

  18. “Single Shot Text Detector With Regional Attention”. Pan He; Weilin Huang, Tong He, Qile Zhu, Yu Qiao, Xiaolin Li.

  19. “RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos”. Wenbin Du, Yali Wang, Yu Qiao.

  20. “Range Loss for Deep Face Recognition With Long-Tailed Training Data”. Xiao Zhang, Zhiyuan Fang, Yandong Wen, Zhifeng Li, Yu Qiao.

縱覽ICCV 2017

最後,附所有ICCV 2017錄用論文列表地址:

http://openaccess.thecvf.com/ICCV2017.py

論文均可下載檢視~

加入社群

量子位AI社群10群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot4入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微訊號qbitbot4,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

0?wx_fmt=jpeg

量子位 QbitAI

վ'ᴗ' ի 追蹤AI技術和產品新動態


相關推薦

科技20論文入選ICCV 2017披露最新研究主線

來源自 商湯科技 量子位 出品 | 公眾號 QbitAI 本月22-29日,是兩年一度的國際計算機視覺大會(ICCV)召開的日子。 於往屆ICCV相比,本屆 ICCV堪稱火爆。據組委會統計,ICCV 2017共收到2143篇論文投稿,其中621篇被選為大會論文,錄用比例29%。其中包含45篇口頭報告(

科技43論文橫掃2017ICCV 實習生摘得五項世界冠軍

華人學者7月在夏威夷CVPR 掀起的中國風尚未完全褪去,近日又在水城威尼斯ICCV 引爆中國學術

機器學習和深度學習引用量最高的20論文(2014-2017

機器學習和深度學習的研究進展正深刻變革著人類的技術,本文列出了自 2014 年以來這兩個領域發表的最重要(被引用次數最多)的 20 篇科學論文,以饗讀者。 機器學習,尤其是其子領域深度學習,在近些年來取得了許多驚人的進展。重要的研究論文可能帶來使全球數十億人受益的技術突破。這一領域的研究目前發展

NIPS2018 | 騰訊AI Lab入選20論文含2Spotlight

參加 2018 AI開發者大會,請點選 ↑↑↑ 被譽為神經計算和機器學習領域兩大頂級會議之一的NIPS於近日揭曉收錄論文名單,此次為第32屆會議,將於 12 月 3 日至 8 日在加拿大蒙特利爾舉辦。 騰訊AI Lab第三次參加NIPS,共有20篇論文入選,其中2篇

科技:“天地人”三才陣 進擊AI頂級巔峰

人工智能2017年末,整個產業圈,變成了人工智能的賽場。先是12月15日,工信部印發AI三年行動計劃,力爭到2020年,推進人工智能核心技術和標誌性產品形成國際競爭優勢;隨即,王健林表示萬達未來主要研究方向是人工智能;而在此前烏鎮的世界互聯網大會上,阿裏巴巴馬雲、騰訊馬化騰、百度李彥宏和蘋果的庫克更是忙不叠的

創業3年估值達300億科技做對了什麽?

湯曉鷗4月9日上午,商湯科技SenseTime對外宣布完成6億美元C輪融資。這是繼去年七月宣布B輪融資4.1億美元後,商湯科技再次獲得的又一筆巨額融資。 創業3年估值達300億,商湯科技做對了什麽? 據悉,商湯科技C輪融資由阿裏巴巴集團領投,新加坡主權基金淡馬錫、蘇寧等投資機構和戰略夥伴跟投。據外媒報道,商湯

AI獨角獸科技的內部服務容器化歷程

商湯科技 容器管理 本文由阿爾曼,商湯科技運維工程師於4月26日晚在Rancher微信群所做的技術分享整理而成。商湯科技是專註於計算機視覺領域的AI公司。本次分享結合了容器平臺團隊幫助公司業務/內部服務容器化歷程,介紹商湯科技在容器化歷程中使用的工具、擁有的最佳實踐及值得分享的經驗教訓。搜索微信號Ra

科技筆試演算法題(手寫卷積)

#include<iostream> #include<algorithm> #include<vector> using namespace std; int main() { int M, N; int t

深度學習領域引用量前20論文簡介

轉自:七月演算法點選開啟連結 深度學習是機器學習和統計學交叉領域的一個子集,在過去的幾年裡得到快速的發展。強大的開源工具以及大資料爆發使其取得令人驚訝的突破進展。本文根據微軟學術(academic.microsoft.com)的引用量作為評價指標,從中選取了20篇頂尖論文。注意,引用量會隨著時間發

大資料研發崗面經小結(涉及阿里網易 雲音樂以及科技

Mysql的索引型別及其實現原理;同時哪些儲存引擎支援B樹索引,哪些支援Hash索引;為什麼mysql索引要用B+樹而MongoDB用B樹? Mysql查詢如何優化;主鍵和唯一索引的區別;事務的隔離機制,mysql預設是哪一級; MyISAM和InnoDB儲存引擎的區別; Mysql查詢優化,慢查詢怎麼去定位

推薦|深度學習領域引用最多的20論文建議收藏!

作者:Pedro Lopez,資料科學家,從事金融與商業智慧深度學習是機器學習和統計學交叉領域的

推薦|深度學習領域引用量最多的前20論文簡介

來源:全球人工智慧作者:Pedro Lopez,資料科學家,從事金融與商業智慧。譯者:海棠,審閱

計蒜客 科技的行人檢測(困難)

觀察列出來的式子,發現對於某一個點實際上是四個未知數兩個方程,有無窮多個解。但是和另外一個點聯立就可以解出來了。這樣的話我們列舉兩個點再驗證,複雜度O(n3)可以通過中等難度。 如果我們隨機兩個點,有0.25的概率正確,這就意味著多試幾次就可以了。比如試20次

SenseTime(科技)HPC團隊:如何實現Caffe訓練GoogLeNet加速近14倍

高效能運算的概念很早就被大家所熟知,但是隨著近幾年深度學習的發展,高效能運算才開始得到越來越多的關注。SenseTime(商湯科技)作為一家專注於計算機視覺和深度學習原創技術的科技創新公司,為解決深度學習模型大、訓練時間長等業界普遍面對的問題,組建了一支在應用演

科技自動駕駛研究員2019校招筆試第一題-跳臺階(每次可跳1~m級跳到第n級的跳法總數)

遞推公式如下: n<=m時 v[n]=2<<(n-2) n>m時 v[n]=2*v[n-1]-v[n-1-m] 輸入n超過10^18,考慮是維護一個供迭代的雙向佇列做動

[]一個狗媽媽有70塊肉狗寶寶距離狗媽媽60步。每次狗媽媽最多拿40塊肉每走2步需要吃掉一塊肉則它最多能把 多少 塊肉拿給狗寶寶。

題目:一個狗媽媽有70塊肉,狗寶寶距離狗媽媽60步。每次狗媽媽最多拿40塊肉,每走2步需要吃掉一塊肉,則它最多能把 多少 塊肉拿給狗寶寶。 根據題意,如果滿載直接到終點會浪費掉30肉,而最優解一定要將這30肉消耗掉,以換取滿載的情況下距離寶寶最近,因此一定要在起點與終點之

論文ICCV 2017,2015 best paper(附論文下載地址)

一、2017 Awards Honorable mentions Nicholas Rhinehart, Kris M. Kitani First Person Activity Forecasti

面經手冊 · 第20《Thread 執行緒狀態轉換、方法使用、原理分析》

![](https://img-blog.csdnimg.cn/2020120309281124.png) 作者:小傅哥 部落格:[https://bugstack.cn](https://bugstack.cn) Github:[https://github.com/fuzhengwei/CodeGuide

CVPR 2018 | 騰訊AI Lab入選21論文詳解

騰訊 AI CVPR 近十年來在國際計算機視覺領域最具影響力、研究內容最全面的頂級學術會議CVPR,近日揭曉2018年收錄論文名單,騰訊AI Lab共有21篇論文入選,位居國內企業前列,我們將在下文進行詳解,歡迎交流與討論。 去年CVPR的論文錄取率為29%,騰訊AI Lab 共有6篇論文入選,點

2018熱點總結:BERT最熱GANs最活躍20分鐘就有一論文...

作者 | Ross Taylor 譯者 | linstancy 整理 | Jane 出品 | AI科技大本營       【導讀】本文的作者 Ross Taylor 和 Robert Stojnic 在今年一起啟動了一個名為“Pa