iCAN:以人為中心的“人-物”互動檢測網路
視覺識別近年來發展迅速,包括物體檢測、分割和動作識別。但是,理解場景不僅需要檢測單個物體例項,還需要識別物體對之間的視覺關係,其中尤為重要的一環是檢測並識別每個人如何與周圍物體互動,即人-物互動(HOI)檢測。本文提出了一種以例項為中心的端到端可訓練注意力網路——iCAN,學習使用人或物體例項的外觀來突出資訊區域。該網路在COCO 和 HICO-DET兩個HOI 基準資料集上取得了新的當前最佳效能。
圖 1:人 - 物體互動檢測。給定輸入影象(左)和影象中檢測到的物件例項(中),利用本文提出的模型檢測並識別每個人之間的互動以及與他們互動的物體(右)。
引言
在過去幾年裡,視覺識別任務飛速發展,包括物體檢測 [8,10,27,34]、分割 [5,11,18,28] 和動作識別 [6,9,13,30,41]。但是,理解場景不僅需要檢測單個物體例項,還需要識別物體對之間的視覺關係。視覺關係檢測中尤為重要的一環是檢測並識別每個人如何與周圍物體互動。
該任務稱為人-物互動(HOI)檢測 [4,14,15,16],旨在定位人、物體並識別人與物體之間的互動。圖 1 中展示了 HOI 檢測問題的一個例子。給定輸入影象和物體檢測器檢測到的例項,研究者的目標是識別出所有的“人-動詞-物體”三元關係組。
為何是 HOI?檢測和識別 HOI 是朝著更深入理解場景邁出的重要一步。而不是“哪裡有什麼?”(即,在影象中定位物體例項),HOI 檢測的目標是回答“發生了什麼?”的問題。研究 HOI 檢測問題也為其他相關的高階視覺任務提供了重要線索,例如姿態估計 [2,40],影象標註[24,39] 和影象檢索 [21]。
為何要注意力?受物體檢測進步 [18,34]的推動,最近的一些工作致力於檢測影象中的 HOI [4,14,16,35]。大多數現有方法使用人和物體的外觀特徵以及它們的空間關係來推斷互動。除了僅使用人的外觀特徵之外,最近的動作識別演算法還利用來自影象的語境線索。
如圖 2 所示,編碼語境的例子包括通過使用人類和物體邊界框 [29] 的並集,提取人類姿勢關鍵點周圍的特徵 [6],或從整個影象中利用全域性語境 [31] 來選擇一個輔助框 [13]。雖然結合語境通常有助於提高效能,但這些手工設計的注意力區域可能並不總是與識別的動作/互動相關。
例如,加入人體姿勢可能有助於識別“騎行”和“投擲”等行為,加入互動點可能有助於識別涉及手 - 物體互動行為,例如“用杯子喝水”和“用勺子吃飯”,加入背景可能有助於區分“用網球拍擊中”和“用棒球棍擊中”。為了解決這一侷限,最近的工作利用端到端的可訓練注意力模組進行動作識別 [9] 或影象分類 [20]。但是,這些方法是為影象級分類任務而設計的。
圖 2:上下文特徵示例。除了使用人和物體的邊界框之外,從影象捕獲語境線索的不同方式。
本文提出了一種以例項為中心的端到端可訓練注意力模組,學習使用人或物體例項的外觀來突出資訊區域。直覺是,例項(人或物體)的外觀暗示了我們應該注意影象中的哪些位置。
例如,為了更好地確定一個人是否拿有物體,應該將注意力集中在人手周圍。另一方面,對於影象中的自行車,知道附近人的姿勢有助於消除關於物體例項(例如,騎或推自行車)的潛在互動的歧義。本文提出的以例項為中心的注意力網路(iCAN)動態地為每個檢測到的人或物體例項生成注意力對映,突出顯示與該任務相關的區域。
研究者驗證了該網路設計在 HOI 檢測的兩個大型公開基準測試中的效能:COCO 中的動詞(V-COCO)[16] 和人類與常見物體的互動(HICO-DET)[4] 資料集。結果表明,研究者提出的 iCAN與現有的最佳方法相比具有一定的優勢, 比現有最佳演算法在 V-COCO 上的效能相對提高約 10%,HICO-DET 約 49%。
本研究主要有以下四個貢獻。
1. 引入了一個以例項為中心的注意力模組,它允許網路動態突出資訊區域以改進 HOI 檢測。
2. 在兩個大型 HOI基準資料集上取得了新的當前最佳效能。
3. 進行了詳細的對比實驗和誤差分析,以確定各個組成部分的相對貢獻,並量化不同型別的錯誤。
4. 釋出了原始碼和預訓練模型,以促進將來的研究。
論文:iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection
論文連結:https://arxiv.org/pdf/1808.10437v1.pdf
摘要:檢測和識別單物體例項近年來取得了快速進展。然而,為了理解場景中的情況,計算機需要理解人類如何與周圍物體互動。研究者在本文中解決了檢測人-物互動(HOI)的困難任務。其核心思想是人或物體例項的外觀包含指示線索,利用這些資訊可以注意到影象中可以促進互動預測的部分。為了利用這些線索,研究者提出了一個以例項為中心的注意力模組,學習根據每個例項的外觀動態突出顯示影象中的區域。這種基於注意力的網路允許研究者選擇性地聚合與識別 HOI相關的特徵。研究者驗證了網路在 COCO 和 HICO-DET 資料集中對動詞的有效性,並表明本文的方法優於當前最佳方法。
實驗結果
研究者評估了提出的 iCAN 模型的效能,並基於兩個大型 HOI基準資料集與當前最佳模型進行了比較。詳細的類級別的效能和誤差診斷等其他結果都可以在補充材料中找到。原始碼和預訓練的模型可在研究者的專案主頁上找到。
表 1:在 V-COCO 測試集上與當前最佳模型的效能比較。

圖 5:V-COCO 測試集上的 HOI 檢測樣本。研究者的模型在生活照中檢測出各種形式的 HOI。模型檢測到在不同情況下與人進行“騎”、“吃”、“躺”和“喝”互動的各種物體。
圖 6:HICO-DET 測試集上的 HOI 檢測樣本。 研究者的模型檢測到對同一類別物體的不同型別的互動。
以例項為中心的注意力網路
圖3:模型概述。研究者提出的模型包括以下三個主要流:(1)基於人類外觀檢測互動的人流; (2)基於物體外觀預測互動的物體流;(3)用於編碼人類和物體邊界框之間的空間佈局的配對流。基於現有的 Faster R-CNN 檢測到的物件例項,使用所有的人 - 物體對生成 HOI 假設。然後融合來自各個流的動作分數以產生最終預測,如右圖所示。
圖 4:iCAN 模組。給定影象的卷積特徵(以灰色顯示)和人/物體邊界框(以紅色顯示),iCAN 模組提取例項
(人類)或
(物體)的外觀特徵以及來自以例項為中心的注意力對映的特徵。為了計算注意力對映,研究者使用 512 個通道的 bottleneck 來評估嵌入空間中的相似性 [37,38]。具體來說,研究者用 1×1 卷積和例項外觀特徵
將影象特徵嵌入到全連線層中。這裡的 res5 表示第五個殘差塊,GAP 表示全域性平均池化層,FC 表示全連線層。
ofollow,noindex" target="_blank">理論 計算機視覺 論文
相關資料
baseline
一種簡單的模型或啟發法,用作比較模型效果時的參考點。基準有助於模型開發者針對特定問題量化最低預期效果。
來源: sary" target="_blank" rel="nofollow,noindex">Google ML Glossary
Image captioning
影象標註(Image Captioning)是計算機根據影象自動生成相對應的描述文字,是自然語言處理與計算機視覺領域的結合。由於這項工作同時涉及到影象理解和語言生成,在深度學習到來以前是很難完成的複雜任務。在深度學習到來後,憑藉 CNN(卷積神經網路)和 RNN(迴圈神經網路)強大的特徵分析能力,我們可以通過 CNN 將圖片編碼為一個特徵向量,再利用 RNN 的語言模型將其解碼為句子。這種解決問題的方式,是從機器翻譯演變而來的。在機器翻譯中,我們用 RNN 把源句子編碼為一個向量,現在我們把 RNN 替換為 CNN,把源句子替換為源影象,即轉化到了影象標註的問題上。隨著研究的深入,在這一個問題上,也有了更多樣化的解決思路,比如引入 GAN(對抗生成網路)和強化學習來提高語言的生成質量。

機器之心編輯