雙重注意力網路:中科院自動化所提出新的自然場景影象分割框架(附原始碼)

ofollow,noindex" target="_blank">機器之心 翻譯
張倩 淑婷 參與
雙重注意力網路:中科院自動化所提出新的自然場景影象分割框架(附原始碼)
場景分割是語義分割領域中重要且具有挑戰的方向。為了有效完成場景分割任務,需要區分一些容易混淆的類別,並考慮不同外觀的物體。本文提出了一個新的自然場景影象分割框架,稱為雙重注意力網路(DANet),引入了一種自注意力機制來分別捕捉空間維度和通道維度上的視覺特徵關聯。在處理複雜多樣的場景時,本文提出的方法比以往的方法更為靈活、有效,在三個具有挑戰性的場景分割資料集(Cityscapes、PASCAL Context 和 COCO Stuff)上取得了當前最佳分割效能。
場景分割是語義分割領域中重要且具有挑戰的方向,其可以應用於自動駕駛,增強現實,影象編輯等領域。場景分割需要預測出影象中的畫素點屬於某一目標類或場景類,其影象場景的複雜多樣(光照,視角,尺度,遮擋等)對於場景的理解和畫素點的判別造成很大困難。當前主流場景分割方法大致可分為以下兩種型別:一是通過使用多尺度特徵融合的方式增強特別的表達,例如空間金字塔結構 (PSP,ASPP) 或者高層淺層特徵融合 (RefineNet)。但是這些方式沒有考慮到不同特徵之間的關聯依賴,而這對於場景的理解確實十分重要。另一是利用 RNN 網路構建特徵長範圍的特徵關聯,但這種關聯往往受限於 RNN 的 long-term memorization。
本文提出了一種簡單有效的雙重注意力網路(Dual Attention Network, DANet),通過引入自注意力機制(self-attention mechanism) 在特徵的空間維度和通道維度分別抓取特徵之間的全域性依賴關係,增強特徵的表達能力。該網路在 Cityscapes,PASCAL Context 和 COCO-Stuff 三個公開的場景分割資料集上均取得了當前最好效能,相比 Dilated FCN 效能得到 5 個點以上的顯著提升。
論文:Dual Attention Network for Scene Segmentation
-
論文連結:https://arxiv.org/pdf/1809.02983.pdf
-
程式碼連結:https://github.com/junfu1115/DANet
摘要:在本文中,我們基於自注意力機制捕獲豐富的語境關聯來解決場景分割問題。與以往通過多尺度特徵融合捕獲語境的研究不同,我們提出了一種雙重注意力網路(DANet)來自適應地將區域性特徵與其全域性依賴關係相結合。具體來說,我們在傳統的基於空洞卷積的 FCN 上添加了兩種注意力模組,分別對空間維度和通道維度的語義相互關聯進行建模。位置注意力模組通過所有位置的特徵加權總和選擇性地聚集每個位置的特徵。無論距離遠近,相似的特徵都會相互關聯。同時,通道注意力模組通過整合所有通道圖中的相關特徵,有選擇地強調相互關聯的通道圖。我們將兩個注意力模組的輸出相加,以進一步改進特徵表示,這有助於獲得更精確的分割結果。我們在三個具有挑戰性的場景分割資料集(Cityscapes、PASCAL Context 和 COCO Stuff)上取得了當前最佳分割效能。特別是,在不使用粗略資料的情況下,在 Cityscapes 測試集的平均 IoU 分數達到了 81.5 %。
方法
DANet 在特徵的空間維度和通道維度分別引入自注意力機制,即位置注意力模組和通道注意力模組,有效抓取特徵的全域性依賴關係。系統框架圖和兩個模組的具體結構如下:
圖 1. DANet 的網路框架圖
圖 2. A 為位置注意力結構圖, B 為通道注意力結構圖
位置注意力模組旨在利用任意兩點特徵之間的關聯,來相互增強各自特徵的表達。具體來說,首先計算出任意兩點特徵之間關聯強度矩陣,即原始特徵 A 經過卷積降維獲得特徵 B 和特徵 C,然後改變特徵維度 B 為 ((HxW)xC') 和 C 為 (C'x(HxW)) 然後矩陣乘積獲得任意兩點特徵之間的關聯強度矩 ((HxW)x(HxW))。然後經過 softmax 操作歸一化獲得每個位置對其他位置的 attention 圖 S, 其中越相似的兩點特徵之間,其響應值越大。接著將 attention 圖中響應值作為加權對特徵 D 進行加權融合,這樣對於各個位置的點,其通過 attention 圖在全域性空間中的融合相似特徵。
通道注意力模組旨在通過建模通道之間的關聯,增強通道下特定語義響應能力。具體過程與位置注意力模組相似,不同的是在獲得特徵注意力圖 X 時,是將任意兩個通道特徵進行維度變換和矩陣乘積,獲得任意兩個通道的關聯強度,然後同樣經過 softmax 操作獲得的通道間的 attention 圖。最後通過通道之間的 attention 圖加權進行融合,使得各個通道之間能產生全域性的關聯,獲得更強的語義響應的特徵。
為了進一步獲得全域性依賴關係的特徵,將兩個模組的輸出結果進行相加融合,獲得最終的特徵用於畫素點的分類。
實驗
為了評估提出的此方法,我們在 Cityscapes 資料集、PASCAL Context 資料集、COCO Stuff 資料集上做了綜合實驗。實驗結果表示,DANet 在這些資料集上取得了頂級結果。
在 Cityscaps 資料集上的結果
表 1:在 Cityscapes驗證集上的對比實驗。PAM 表示位置注意力模組,CAM 表示通道注意力模組。
圖 3:在 Cityscapes驗證集上僅使用和不使用位置注意力模組效果對比圖。
圖 4:在 Cityscapes驗證集上僅使用和不使用通道注意力模組的效果對比圖。
表 2:在 Cityscape驗證集上,不同策略之間的表現對比。DANet-101 表示 DANet 使用 BaseNet ResNet-101,DA 表示訓練資料採用多尺度增強,Multi-Grid 表示使用多重網路方法,MS 表示測試時多尺度融合
圖 5:注意力模組在 Cityscapes驗證集上的視覺化結果。每一行包括一張輸入影象,兩個與輸入影象中標記的點對應的子注意力圖(H × W)。同時,我們也給出了來自通道注意力模組輸出的兩張通道圖,分別來自第 4 和第 11 通道。最後,也給出了對應的結果和真實值。
可以看出位置注意力模組中,全域性區域下相似語義特徵之間響應較大,而通道注意力模組中,通道對某些語義區域有很強的響應。
表 3:在 Cityscapes 測試集上每個類別的結果。DANet 超越了已有方法,平均 IoU 達到 81.5%。
本文與當前 state-of-the-art 進行了對比,在僅使用精細資料集(fine data)作為訓練資料,resnet-101 作為基模型下,取得當前最好的分割效能。值得一提的是,目前並沒有採用線上困難樣本挖掘(OHEM, Focal Loss),更高解析度的測試方法,更強大的基模型等策略,進一步的效果提升值得期待!
在 PASCAL Context 資料集上的結果
表 4:在 PASCAL Context 測試集上的分割結果
在 COCO Stuff 資料集上的結果
表 5:在 COCO Stuff 測試集上的分割結果
中科院自動化所影象與視訊分析團隊(IVA),隸屬於模式識別國家重點實驗室,有著深厚的學術底蘊和強大的人才支援,在 PAMI,TNNLS,TIP 等重要國際期刊和 CVPR,ICCV,ECCV 等國際會議上發表論文數百餘篇,論文具有國際影響力,其中有多篇論文被 ESI 國際性基本科學指標資料庫列為高被引論文。在 ICCV 2017 COCO-Places 場景解析競賽、京東 AI 時尚挑戰賽和阿里巴巴大規模影象搜尋大賽踢館賽等多次拔得頭籌。
理論 中科院自動化研究所 計算機視覺 注意力機制 神經網路架構
相關資料
Attention mechanism
我們可以粗略地把神經注意機制類比成一個可以專注於輸入內容的某一子集(或特徵)的神經網路. 注意力機制最早是由 DeepMind 為影象分類提出的,這讓「神經網路在執行預測任務時可以更多關注輸入中的相關部分,更少關注不相關的部分」。當解碼器生成一個用於構成目標句子的詞時,源句子中僅有少部分是相關的;因此,可以應用一個基於內容的注意力機制來根據源句子動態地生成一個(加權的)語境向量(context vector), 然後網路會根據這個語境向量而不是某個固定長度的向量來預測詞。
來源:機器之心
Augmented reality
增強現實,是指透過攝影機影像的位置及角度精算並加上影象分析技術,讓螢幕上的虛擬世界能夠與現實世界場景進行結合與互動的技術。這種技術於1990年提出。隨著隨身電子產品運算能力的提升,增強現實的用途也越來越廣。
來源: 維基百科
Dimensionality reduction
降維演算法是將 p+1 個係數的問題簡化為 M+1 個係數的問題,其中 M<p。演算法執行包括計算變數的 M 個不同線性組合或投射(projection)。然後這 M 個投射作為預測器通過最小二乘法擬合一個線性迴歸模型。兩個主要的方法是主成分迴歸(principal component regression)和偏最小二乘法(partial least squares)。
來源:機器之心
self-driving
從 20 世紀 80 年代首次成功演示以來(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自動駕駛汽車領域已經取得了巨大進展。儘管有了這些進展,但在任意複雜環境中實現完全自動駕駛導航仍被認為還需要數十年的發展。原因有兩個:首先,在複雜的動態環境中執行的自動駕駛系統需要人工智慧歸納不可預測的情境,從而進行實時推論。第二,資訊性決策需要準確的感知,目前大部分已有的計算機視覺系統有一定的錯誤率,這是自動駕駛導航所無法接受的。
來源: 機器之心
Pattern Recognition
模式識別(英語:Pattern recognition),就是通過計算機用數學技術方法來研究模式的自動處理和判讀。 我們把環境與客體統稱為“模式”。 隨著計算機技術的發展,人類有可能研究複雜的資訊處理過程。 資訊處理過程的一個重要形式是生命體對環境及客體的識別。其概念與資料探勘、機器學習類似。
來源: 維基百科

機器之心是國內領先的前沿科技媒體和產業服務平臺,關注人工智慧、機器人和神經認知科學,堅持為從業者提供高質量內容和多項產業服務。
推薦文章