2D AR演算法新突破,亮風臺提出基於約束置信度的魯棒跟蹤演算法CCM

ofollow,noindex" target="_blank">機器之心 原創
亮風臺 來源
2D AR演算法新突破,亮風臺提出基於約束置信度的魯棒跟蹤演算法CCM
在目前的AR應用中,2D AR 跟蹤,如海報、卡牌等平面物體的跟蹤已經成為核心技術之一,在營銷、教育、遊戲、展示展覽等方面都很常見。然而,儘管近年來2D AR 跟蹤演算法已經取得了很大的進步,但在一些外部條件、環境因素影響下的效果仍然有很大提升空間,如何處理光照變化、運動模糊等因素帶來的挑戰,也是目前進行底層演算法研發的 AR 公司以及學者的研發熱點。
AR 公司亮風臺一直在向前推進 AR 的技術邊界,近日訊息,該公司在 2D AR 跟蹤方面取得了新突破,其研發人員提出的基於約束置信度的魯棒跟蹤演算法(CCM),提高了在區域性遮擋、光照變化和運動模糊等各種因素干擾情況下的魯棒性,並在 UCSB 和 TMT 兩個國際評測集中重新整理了最好成績。目前,這一成果已經在機器人領域頂級會議 ICRA 2018 上發表。ICRA 是機器人領域三大頂級會議之一(其它兩個為 IROS 和 RSS),AR 跟蹤的很多經典工作(例如 ESM 跟蹤演算法)都曾在 ICRA 和 IROS 上發表。
在區域性遮擋、運動模糊和照明改變條件下的 CCM 演算法效果示例(只顯示在目標周圍放大的區域以便展示)
據瞭解,這兩年亮風臺依然有不少工作在針對 2D AR 的演算法優化,在2017年的 ICRA 上發表了針對光照變化的基於梯度方向的AR跟蹤演算法;同年提出的基於圖匹配的跟蹤演算法利用圖結構來處理目標物體內部的空間關聯,從而實現在強幹擾的準確平面物體跟蹤,該工作已被人工智慧領域國際頂級期刊《PAMI》(IEEE 模式分析和機器智慧彙刊)錄用。其它在 CVPR、ICCV、ECCV、ICRA、ISMAR、PAMI 等 AI、CV、AR 相關領域頂級期刊會議上公開發表的研究成果涉及影象語義識別、人臉影象分析、手勢識別、AR 場景建模定位、超圖匹配,視覺顯著性等方面。
基於約束置信度的魯棒跟蹤演算法(CCM)
跟蹤平面物體,例如 2D 標記,通常是相機定位和場景配準的重要步驟。在過去的幾十年中,大量的研究致力於視覺跟蹤問題,平面目標跟蹤的流行方法可以大致分為基於關鍵點的方法和基於模板的方法。基於模板的方法直接利用畫素的外觀而不提取特徵,並基於牛頓法或其變體優化模板與捕獲影象之間的相似性度量,以確定平面的姿態。
不同與傳統的基於模板的跟蹤方法,CCM( Constrained Confidence Matching)根據測量噪聲對每個畫素分配不同的匹配係數,而不是在計算運動引數時對模板中的每個畫素進行相同的處理。在此基礎上,為了進一步提高對光照變化和重運動模糊的魯棒性,亮風臺研發人員還提出了一種魯棒卡爾曼濾波器,它採用新的控制輸入模型來處理物體的外觀變化。
給定目標的初始影象或位置,新方法(即 CCM)自動從視訊中跟蹤定位目標所在位置。
第一步:從視訊第一幀中提取目標區域作為模板T。
第二步:從視訊讀取下一幀影象 I t ;。
第三步:在影象 I t 中跟蹤匹配目標。
傳統的基於模板的演算法通常在計算運動引數時對模板中的每個畫素進行相同處理,因此對一些外在噪聲(特別是對於遮擋)特別敏感。為了解決這個問題,不同於傳統模板跟蹤方法,亮風臺研發人員提出一個“置信匹配”策略,在計算運動引數時為每個畫素分配不同的匹配置信度。直觀來看,將低置信度分配給被噪聲干擾的畫素。考慮到匹配的置信度,CCM 的模板跟蹤問題擴充套件為如下形式:
其中 C 表示置信圖,它的每個元素 C ( x ) 記錄畫素 x 的匹配置信度的, b 表示幾何變化的容忍度。新增約束的目的是禁止連續幀之間的大幅度運動跳躍。
基於“置信匹配”的目標跟蹤匹配過程可以分為 置信圖計算、遮擋圖計算、最優匹配求解 幾個子步驟。
(1) 置信圖計算
對於每個畫素 x ,置信度圖 C 被均勻初始化,並且根據之前觀察和模板之間的差異每幀進行更新
其中 ε 表示最大差異:
其中,|.| 表示向量的絕對值。
(2) 遮擋檢測
為了能在目標被遮擋的情況下準確的跟蹤目標,CCM 需要對目標進行遮擋檢測。為了提高遮擋檢查的魯棒性,還根據兩種實踐指導原則提出遮擋檢測的新方法。首先,從遮擋匯出的外觀變化足夠以區別於其它擾動因素,例如照明變化和運動模糊,其通常對所有畫素產生類似的干擾。第二,封閉部分通常是連線緊湊的區域。
在上述指導原則的基礎上,構造當前差異影象 D 如下:
其中 |.| 表示向量的絕對值。然後使用以下兩個標準搜尋遮擋。
多樣性標準:首先計算差異影象 D 的平均值 μ ( D ) 和標準差 σ ( D )。顯然,低 σ (D) 表示差異影象 D 中的多樣性較少。如果
則認為目標沒有被遮擋,其中 θ 0 = 0.8 是多樣性的預定義容差。否則,根據空間標準進一步判斷。
空間標準:對差異影象 D 進行二值化後,應用形態學操作去除小區域,並填充區域之間的小孔。為每個 連線區域 R 計算兩個屬性( a 1 ( R ), a 2 ( R )),其中 a 1 ( R ) 表示區域 R 的面積, a 2 ( R ) 表示包含區域 R 的最小凸多邊形面積。如果區域 R 滿足
則認為 R 為遮擋區域,其中 θ 1 = 0.1 和 θ 1 = 0.5 是兩個預定義的閾值,|.| 表示向量的絕對值。第一個不等式目的是過濾掉太小的區域,第二個過濾掉太稀疏的區域。
為了從模板匹配和更新中排除遮擋的部分,將所有遮擋畫素的置信度直接設定為零。
(3) 最優匹配求解
先考慮無約束的置信度匹配問題,即,放棄公式(2)中的約束條件。用 J ( p ; I )表示的目標函式 ε 2 針對引數p和影象 I 的雅可比矩陣,我們有
其中 Line"/> 是影象 I 針對
的梯度,
表示變換函式的雅可比。對於傳入幀 I t ,運動引數最初估計為 p t = p t-1 。根據均值偽反轉法 (PMJ),位移 Δp 計算為
其中 ,然後引數更新為
迭代更新直到達到收斂或最大迭代次數。
在實踐中的觀察,上面獲得的運動引數 p t 通常滿足問題(2)中定義的約束。然而,一旦獲得的 p t 違反(2)的約束,即採用一種簡單而有效的方法來重新計算變換函式。用 表示有效解空間。從中均勻地進行 Ns = 2500 次取樣選取候選解決方案 q i (1 ≤ i ≤ Ns ),並選擇具有最小差異的引數
第四步:根據第三步的跟蹤結果更新模板 T 。
CCM採用 卡爾曼濾波器 來進行模板更新。分別用 y t 和 z t 表示模板 T 的亮度在時間 t 的向量化狀態估計和觀察,卡爾曼濾波器用控制輸入模型來定義狀態預測和觀測模型
其中 A t 是應用於先前狀態 y t -1 的狀態轉換矩陣, B t 是應用於控制向量 u t 的控制輸入模型, H t 是將真實狀態空間對映到觀察空間的觀察矩陣, w t 和 v t 分別是狀態噪聲和觀測噪聲。在卡爾曼濾波中,通常假定 w t 和 v t 為零均值的高斯分佈,並且分別記其方差為 Q t 和 L t 。
在下文中,用符號表示給出觀察時間 t '≤ t 下 y 在時間 t 的估計值, ' 表示對應的誤差協方差。利用卡爾曼濾波器更新模板 T (即 y t )的過程可以分為 計算狀態矩陣、建立控制輸入模型、模板更新 幾個子步驟。
(1) 計算狀態矩陣
儘管存在外在環境的干擾,物體本身保持不變且可以直接觀察。它意味著可以採用簡單的狀態轉換和觀察模型,使得 A t = I 和 H t = I (這裡 I 代表單位矩陣)。採用自動協方差最小二乘法(ALS)技術來學習噪聲協方差矩陣 Q t 和 L t 。為了減少計算複雜度和對訓練資料的依賴性,在畫素的噪聲彼此獨立的假設下,將噪聲協方差矩陣 Q t 和 L t 簡化為對角線矩陣。
(2) 建立控制輸入模型
控制輸入模型根據畫素之間強度共生的概率近似來構建。特別地,控制矩陣 B t 被構建為
其中 B t ( i , j ) 表示控制矩陣 B t 的第 i 行第 j 列的元素, k 控制用於計算的視窗的大小。共生函式定義為
其中 y m ( i ) 和 y m ( j ) 分別表示畫素 i 和畫素 j 在時刻 m 的亮度。這種做法的原因是具有相似亮度的畫素傾向於保持與輸入相似的反應。在構建控制矩陣 B t 之後,需要將其歸一化為行隨機矩陣。
初始控制矩陣 B 0 根據初始模板 y 0 構建。為了計算簡單,一旦計算了 B t ,我們固定
直到 B t+k 下次更新。我們在實驗中設定 k = 20。
在獲得後驗估計 之後,計算環境輸入 u t 以最小化先前模板與當前估計之間的平方誤差:
(3) 模板更新
首先計算先驗狀態估計和協方差:
步驟三的最優匹配結果被用作觀察 z t 。因此計算殘差和協方差:
隨後更新後驗狀態估計和協方差:
其中 為最優卡爾曼增益, I 表示單位矩陣。
第五步:跳轉到步驟二處理下一幀影象。
測試結果
為了徹底評估,CCM演算法在兩個公共資料集上進行了測試:加利福尼亞大學提出的UCSB基準和加拿大阿爾伯塔大學提出的操作任務跟蹤(TMT)基準。UCSB資料集包括96個視訊流,顯示6個不同紋理的平面目標,總共6889幀,具有幾何失真(搖攝、縮放、傾斜、旋轉)、九個運動模糊等級以及不同的照明條件,所有幀都受到不同程度的噪音影響。TMT資料集由人為和機器記錄的操作任務的影象序列組成,它包含109個影象序列,共70592幀。
對應於每個視訊類別的平均跟蹤精度彙總在表I(UCSB)和II(TMT)中,如下:
從實驗結果可以看出,所提出的CCM演算法在 兩個資料集上顯著地優於所有基線 。事實上,CCM在幾乎所有視訊類別中都獲得了 最佳或幾乎最佳的跟蹤效能 ,明顯優於現有的主流跟蹤演算法,如基於關鍵點的跟蹤(keypoint-based tracker),基於模板的跟蹤( template-based tracker)以及概率跟蹤(probabilistic tracker),並且它對於極端姿態變化以及嚴重的環境擾動都表現出很高的魯棒性。
CCM演算法與其他演算法相比,在各類內在和外在變化的幾個典型示例如下,包括具有重複圖案的影象傾斜;劇烈而動態的日落畫面引起照明變化,紋理非常弱;存在部分遮擋;運動模糊,在這種情況下檢測不到可靠的關鍵點。
AR 的研究仍需持續努力
儘管計算機對於“常規”平面物體的認識已經能達到很高的速度、精度,以及穩定性,但這明顯還不夠,研究人員希望計算機能夠儘可能“模擬”人的視覺效果,甚至在一定條件下超過人眼,這樣,在演算法工程化之後面向普通使用者時,才能保障優質的使用者體驗,如在傳統的平面物體跟蹤中,容易出現快速運動丟失或漂移等現象,反映到使用者體驗上,車窗外的廣告牌就容易識別不到,在走動過程中玩AR遊戲發現地面上的傢俱會“飄”起來等。
這就需要相關的學術人員以及企業研發人員不斷的優化演算法、提出新方法,如此才能結合不斷升級的硬體環境實現高度的市場化。對於目前的2D AR甚至整個AR行業來說,需要從業人員把現有技術應用化市場化,但同樣需要大量真正的創新人員向前推進底層技術邊界,讓AR走向成熟。
理論 ICRA 2018 AR
相關資料
Artificial Intelligence
在學術研究領域,人工智慧通常指能夠感知周圍環境並採取行動以實現最優的可能結果的智慧體(intelligent agent)
來源: Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.
Convergence
在數學,電腦科學和邏輯學中,收斂指的是不同的變換序列在有限的時間內達到一個結論(變換終止),並且得出的結論是獨立於達到它的路徑(他們是融合的)。 通俗來說,收斂通常是指在訓練期間達到的一種狀態,即經過一定次數的迭代之後,訓練損失和驗證損失在每次迭代中的變化都非常小或根本沒有變化。也就是說,如果採用當前資料進行額外的訓練將無法改進模型,模型即達到收斂狀態。在深度學習中,損失值有時會在最終下降之前的多次迭代中保持不變或幾乎保持不變,暫時形成收斂的假象。
來源: Wikipedia sary?hl=zh-cn" target="_blank" rel="nofollow,noindex">Google ML glossary
Covariance matrix
在統計學與概率論中,協方差矩陣(也稱離差矩陣、方差-協方差矩陣)是一個矩陣,其 i, j 位置的元素是第 i 個與第 j 個隨機向量(即隨機變數構成的向量)之間的協方差。這是從標量隨機變數到高維度隨機向量的自然推廣。
來源: 維基百科
Gaussian distribution
正態分佈是一個非常常見的連續概率分佈。由於中心極限定理(Central Limit Theorem)的廣泛應用,正態分佈在統計學上非常重要。中心極限定理表明,由一組獨立同分布,並且具有有限的數學期望和方差的隨機變數X1,X2,X3,...Xn構成的平均隨機變數Y近似的服從正態分佈當n趨近於無窮。另外眾多物理計量是由許多獨立隨機過程的和構成,因而往往也具有正態分佈。
來源: Wikipedia
Kalman Filter
卡爾曼濾波,也稱為線性二次估計(LQE).它使用時域上一系列包含統計噪聲和其他誤差的觀測量,對未知變數進行估計。這種方法因為對每個時間段上未知變數的聯合概率分佈做了估計,因此比基於單一觀測值預測更加精確。
來源: Wikipedia
Least squares
最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找資料的最佳函式匹配。 利用最小二乘法可以簡便地求得未知的資料,並使得這些求得的資料與實際資料之間誤差的平方和為最小。 “最小二乘法”是對過度確定系統,即其中存在比未知數更多的方程組,以迴歸分析求得近似解的標準方法。在這整個解決方案中,最小二乘法演算為每一方程式的結果中,將殘差平方和的總和最小化。
來源: 維基百科
Noise
噪音是一個隨機誤差或觀測變數的方差。在擬合數據的過程中,我們常見的公式$y=f(x)+\epsilon$中$\epsilon$即為噪音。 資料通常包含噪音,錯誤,例外或不確定性,或者不完整。 錯誤和噪音可能會混淆資料探勘過程,從而導致錯誤模式的衍生。去除噪音是資料探勘(data mining)或知識發現(Knowledge Discovery in Database,KDD)的一個重要步驟。
來源:Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

機器之心是國內領先的前沿科技媒體和產業服務平臺,關注人工智慧、機器人和神經認知科學,堅持為從業者提供高質量內容和多項產業服務。