1. 程式人生 > >基於成對關係圖的姿態估計Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations

基於成對關係圖的姿態估計Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations

基於影象成對相關關係圖模型的姿態估計
Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations
原文地址:https://arxiv.org/abs/1407.3399 引用請註明其出處。

Xianjie Chen
加州大學洛杉磯分校,CA 90024
[email protected]

Alan Yuille
加州大學洛杉磯分校,CA 90024
[email protected]

摘要

作者提出了一種基於圖模型從單個靜態影象估計人體姿態的方法,該圖模型具有新穎的成對關係,其使得自適應地使用區域性影象測量。更確切地說,作者指定了人體姿態的圖模型,其利用了局部影象測量,它既可用於檢測部件(或關節)以及預測它們之間的空間關係(影象依賴成對關係)的事實。這些空間關係由混合模型表示。作者使用深度卷積神經網路(DCNN)來學習影象塊內部件的存在及其空間關係的條件概率。本文模型將圖模型的表徵靈活性與DCNN的效率和統計功效相結合。作者的方法明顯優於LSP和FLIC資料集上的最新技術方法,並且在沒有任何訓練的情況下在Buffy資料集上也表現得非常好。

1 介紹

關節姿態估計是計算機視覺中的基本挑戰之一。該領域的進展可以立即應用於重要的視覺任務,如人體跟蹤[2],行動識別[25] 和視訊分析。

大多數關於姿態估計的工作都是基於圖模型[8,6,27,1,10,2,4]。圖節點表示身體部位(或關節),邊緣模擬部件之間的成對關係。模型的得分函式或能量在每個節點處包含單元項,以捕獲部件的區域性外觀線索,以及在邊上定義的成對項,以捕獲部件之間的區域性上下文關係。最近,DeepPose[23] 提倡以整體方式對姿態進行建模,基於迴歸在深度卷積神經網路(DCNN)中捕捉所有身體部位的完整背景[12]

在這裡插入圖片描述
圖1 動機。影象塊中的關節周圍的區域性影象可以可靠地預測其所有鄰居的相對位置(及檢測關節)。
中間:以肘部為中心的區域性影象塊可以可靠地預測肩部和腕部的相對位置,以腕部為中心的區域性影象塊可以可靠地預測肘部的相對位置。
左右:作者為每對相鄰關節定義不同型別的成對空間關係(即混合模型)。左側表現了肘部與其鄰居(即肩部和手腕)之間可能具有的典型空間關係。右側面板表現了手腕與其鄰居(即肘部)之間可能具有的典型空間關係。

在本文中,作者基於影象相關的成對關係(IDPRs)提出了一個影象模型。如 圖1 所示通過觀察周圍的區域性影象塊,作者可以可靠地預測部件的鄰居的相對位置(以及部件本身的存在)。因此,在作者的模型中,區域性影象塊為單元和成對項提供輸入。這提供了更強的成對項,因為資料獨立關係通常要麼太寬鬆而不能有用,要麼太嚴格來模擬高度可變的姿態。

作者提出一種方法可以從區域性影象塊中提取關於成對部件關係以及部件存在的資訊。此方法高效並在不同部件和部件關係之間共享功能。為此,作者訓練DCNN輸出作者的得分函式的單元、成對項中使用的部件存在和空間關係的估計。使用結構化支援向量機(S-SVM)訓練模型中不同項的權重引數[24]

。總之,作者的模型結合了圖模型的表徵靈活性,包括表示空間關係的能力,以及DCNN的資料驅動能力。

作者在兩個標準姿態估計基準資料集上進行實驗:LSP資料集[10] 和FLIC資料集[20]。作者的方法在兩個資料集上都優於已有技術方法。作者還對Buffy資料集進行跨資料集評估[7] (沒有對此資料集進行訓練)並獲得強大的結果,表現了模型泛化的能力。

2 模型

圖模型及其變數: 作者通過圖模型表示人體姿態 G = ( V , E ) \mathcal G = (\mathcal V,\mathcal E) ,其中節點指定部件(或關節)的位置,邊緣指示哪些部件在空間上相關。為簡單起見,作者把圖構造成 K K 節點樹,其中 K = V K =|\mathcal V| 。部件的位置用 l l 表示,其中 l i = ( x , y ) l_i =(x,y) 指定部件 i i 的畫素位置, i { 1 , . . . . , K } i\in\{1,....,K\} 。對於圖中的每個邊 ( i , j ) (i,j) ,作者指定一個由 t i j t_{ij} 索引的離散空間關係集,它對應於不同空間關係的混合(見 圖1 )。作者用 t = { t i j , t j i ( i , j ) E } t = \{t_{ij},t_{ji}|(i,j)\in\mathcal E\} 表示空間關係集。影象寫為 I I .作者用單元和成對項的和定義得分函式 F ( l , t I ) F(l,t_I)

單元項: 單元項為部件 i V i\in\mathcal V 提供定位置信度,使其位於位置 l i l_i 並且基於影象塊定位 I ( l i ) I(l_i) 。它們的形式如下:
(1) U ( l i I ) = ω i ϕ ( i I ( l i ) ; θ ) , U(l_i|I)=\omega_i\phi(i|I(l_i);\theta),\tag 1
其中 ϕ ( . . ; θ ) \phi(.|.;θ) 是(標量)外觀項,其中 θ θ 作為其引數(在下一節中指定), w i w_i 是標量權重引數。

影象相關成對關係(IDPR)項: 這些IDPR術語捕獲了作者的直覺,相鄰部件 ( i , j ) (i, j) 可以僅使用定位資訊粗略預測其相對空間位置(參見 圖1 )。在作者的模型中,部件 i i j j 的相對位置分為幾種型別 t i j { 1 , . . . , T i j } t_{ij}∈\{1,...,T_{ij}\} (即不同關係的混合)包含對應的平均相對位置加上由標準二次曲線建模的小形變數 r i j t i j r_{ij}^{t_{ij}} 。更正式地說,每條邊的成對關係得分 ( i , j ) E (i,j) ∈\mathcal E 由下式給出:

(2) R ( l i , l j , t i j , t j i I ) = < w i j t i j , ψ ( l j l i r i j t i j ) ) > + ω i j ϕ ( t i j I ( l i ) ; θ ) + < w j i t j i , ψ ( l i l j r j i t j i ) ) > + ω j i ϕ ( t j i I ( l j ) ; θ ) R(l_i,l_j,t_{ij},t_{ji}|I)=<w_{ij}^{t_{ij}},\psi(l_j-l_i-r_{ij}^{t_{ij}}))>+\omega_{ij}\phi(t_{ij}|I(l_i);\theta)+<w_{ji}^{t_{ji}},\psi(l_i-l_j-r_{ji}^{t_{ji}}))>+\omega_{ji}\phi(t_{ji}|I(l_j);\theta)'\tag 2