1. 程式人生 > >【轉】賈佳亞港中文團隊冠軍技術分享:最有效的COCO物體分割演算法

【轉】賈佳亞港中文團隊冠軍技術分享:最有效的COCO物體分割演算法

轉自:http://www.sohu.com/a/201822261_473283

【新智元導讀】物體分割(instance segmentation)是如今視覺領域最熱最核心的一個問題。在這屆國際影象識別權威競賽MS COCO當中,香港中文大學團隊UCenter取得了物體分割任務第一名,相對去年的冠軍,團隊取得了9.1個點的提升,相對提升達24%。他們通過深度剖析FPN、Mask R-CNN、PSPNet的資訊傳遞機制,提出了多路網路(Multi-Path Network),旨在更好地運用網路資訊。

10月29日,在威尼斯水城舉行的ICCV 2017“Joint COCO and Places Recognition Challenge” Workshop落下帷幕,來自Facebook、MSRA(微軟亞洲研究院)、Google、商湯科技、曠視科技等科技公司以及卡耐基梅隆大學、香港中文大學,上海交通大學、中國科學院自動化研究所等頂級高校的多支團隊參加了本次競賽。

經過激烈角逐,由香港中文大學在讀博士生、商湯科技研究員組成的“UCenter”團隊超過微軟亞洲研究院與Facebook FAIR團隊,拿下了COCO例項分割(instance segmentation)任務的第一名。這是COCO比賽最難的問題之一,因為需要分割每一個畫素,判斷這個畫素屬於哪一個類別哪一個例項。相對去年的冠軍,UCenter團隊取得了9.1個點的提升,相對提升達24%。

此外,在COCO物體檢測任務中,UCenter團隊拿到了亞軍,相對去年冠軍,提升了9.5個點,相對提升22%。

團隊組成,參加大規模公開比賽任務練手練兵

“UCenter”團隊由劉樞、亓魯、秦海芳、石建萍和賈佳亞組成。賈佳亞教授是香港中文大學終身教授,騰訊優圖實驗室傑出科學家。石建萍博士是賈佳亞教授以前的博士生,現就職於商湯科技。劉樞、亓魯是香港中文大學的在讀博士生,也是賈佳亞教授現在的學生,石建萍博士是他們的Mentor。秦海芳參與比賽時是商湯科技的實習生。

參與這個比賽是石建萍與其博士導師賈佳亞教授一起計劃的聯合培養課題。他們都認為,類似COCO這樣的大規模公開比賽任務,不僅是驗證演算法的邊界,提煉真正有用技術方案一個很好的平臺,更是培養和鍛鍊學生極好的練兵場。

劉樞對例項分割這個任務相對比較熟悉,因為這個方向是他在賈老師組內攻讀PhD的主要研究方向。亓魯與秦海芳則是剛剛接觸使用深度學習解決物體檢測與例項分割這個任務。商湯科技寬鬆友好的學術氛圍以及遠超高校實驗室的計算資源為同學們的演算法研究提供了有力支援,也幫助幾位同學的成長。

香港中文大學賈佳亞教授的視覺研究組在今年也有相當不錯的ICCV論文發表。在之前的報道里提到,他的學生在騰訊優圖實習或工作期間共同合作發表了三篇ICCV oral論文

(每篇接受率只有2.1%)。一鍵卸妝的黑科技也出自此他們在騰訊的工作。

除此之外,在去年最大的ImageNet場景分析比賽(scene parsing challenge 2016),他們剛進入第二年的博士生趙恆爽就以主力參與者身份,通過在商湯的暑期實習和與其他學生和商湯研究員的合作,取得第一名,比基準方法有了差不多10個點的提升。此方法在當時最大的道路場景分割資料集上(Cityscapes testing set)也是排名第一。除此之外,賈佳亞中文大學視覺研究組裡的同學現在每年有很多機會在全球各個業界頂尖研究院和高校交流和實習。

COCO-17 例項分割第一名演算法細節:多路網路(Multi-Path Network)

在本次的COCO競賽中,與其他參賽團隊一樣,UCenter團隊以Mask R-CNN作為例項分割的基礎框架。不同的是,他們通過深度剖析FPN、Mask R-CNN、PSPNet的資訊傳遞機制,提出了多路網路(Multi-Path Network),旨在更好地運用網路資訊。他們的改變主要集中在以下三點。

首先,與傳統FPN中按照物體候選區域大小將其分配到對應層級特徵圖上的方式不同,他們將物體候選區域對映到所有的特徵層級去獲取對應的特徵,將其融合之後供後續分類網路使用。UCenter團隊發現,對於每個候選區域,不同層級的資訊都是有用的,採用這樣的方法,相比傳統FPN,大物體能夠獲取底層的細節資訊,小物體可以獲取更多由高層更大感受野提供的上下文資訊,在候選區域內不同層級上面有用的資訊可以被有效利用。

其次,他們發現,低層級的特徵圖對預測大物體也是十分有效。於是他們在FPN的基礎上,增加了一個自下而上的分支,幫助更好的傳遞底層資訊到最高層級。低層級特徵在之前的工作中也有被應用,但基本都是為了預測小物體或者精細化一些細節,而低層級特徵對於大物體的作用在之前並沒有被很認真地探討過。

最後,在掩膜預測的部分,他們也進行了改進。在Mask R-CNN中,進行掩膜預測的是一個小的全卷積網路,這樣速度快,而且特徵都可以直接對齊到圖片。但是他們發現,全連線層與全卷積層是有一些互補的特徵,比如全卷積層是位置敏感的,不同的位置的預測是由不同的引數給出的,而且每個位置的預測都是基於全域性資訊。於是,他們將這兩種網路結合在一起進行掩膜的預測,從而得到更高質量的結果。

這些改變使訓練的網路在不同大小的物體上面取得更為顯著的提高,相應的技術細節也即將投稿於CVPR2018。

值得一提的是,UCenter團隊並沒有在超參方面進行精調,而是直接採用Mask RCNN和FPN的文章中的超參,相信他們更希望通過使用更好的模型而不是更好的超參取勝。他們使用的初始模型也全部來源於網路上已經開源的模型。

他們也提到,現在GPU的視訊記憶體已經成為模型效能提升的一個瓶頸。他們在比賽期間主要使用的是TitanXP,只有12G視訊記憶體,即使使用了sublinear memory optimization的方法優化視訊記憶體佔用,使用大型初始網路時,視訊記憶體壓力依然很大。為了能夠充分使用這些機器,他們使用較小的圖片進行訓練,更貼近工業界實際生產和應用環境需求。基於小型初始網路的經驗,他們相信使用完整的圖片以及更大尺度訓練,模型效能會得到進一步提升。

UCenter團隊成員表示,在CVPR截稿之後,他們會整理程式碼並將其開源,分享給更多的計算機視覺工作者、愛好者。

新智元世界人工智慧大會,賈佳亞教授分享計算機視覺新認知

11月8日,在新智元AI World 2017世界人工智慧大會上,賈佳亞教授將發表演講,分享計算機視覺的新認知。

賈佳亞教授介紹說:“計算機視覺的研究和應用經歷了一個長時間的發展,其中有一大段時間是不被企業界重視的。

“在這個演講中,我會把先進的計算機視覺研究成果做一個重新劃分和歸類,展示給大家一個有很多具體內容的視覺研究畫卷。一直以來,我們都在創新;所以我也會給大家看到新的有趣的應用,同時撥開雲遮霧繞,還原視覺AI的技術真實水平。最後我也會和大家介紹騰訊優圖實驗室視覺AI的發展。”

賈佳亞 騰訊優圖實驗室傑出科學家

香港中文大學終身教授賈佳亞博士加盟騰訊優圖實驗室。作為傑出科學家,賈佳亞教授將負責計算機視覺、影象處理、模式識別、機器學習等人工智慧領域的研 究,及人工智慧與各種應用場景結合的深度探索。

賈佳亞教授是香港中文大學終身教授,擁有香港科技大學聯合微軟亞洲研究院計算機 科學博士學位。加入騰訊前,賈佳亞教授曾與微軟研究院、谷歌、高通、英特爾、Adobe 等影象和人 工智慧研究機構開展過深度聯合研究工作。他是前期和中期計算機視覺最著名的專家 之一。在香港中文大學任職期間,他創立的視覺實驗室對影象濾波、影象去模糊、影象增強、影象稀疏處理、多頻段影象訊號的融合,以及大範圍運動估計等研究做出了 巨大的貢獻。其中,影象濾波和逆向視覺問題解法被許多高校教科書、課件和開源視覺程式碼庫(包括 OpenCV)收錄,同時也在視覺商業系統中得到廣泛應用。現階段,其實驗室在語義分割、自然語言和視覺聯合系統、人像深度處理和幾何深度理解等領域均取得了重要成果。