1. 程式人生 > >亮風臺2D AR演算法新突破:基於約束置信度的魯棒跟蹤演算法(CCM) | ICRA 2018

亮風臺2D AR演算法新突破:基於約束置信度的魯棒跟蹤演算法(CCM) | ICRA 2018

在目前的AR應用中,2D AR跟蹤,如海報、卡牌等平面物體的跟蹤已經成為核心技術之一,在營銷、教育、遊戲、展示展覽等方面都很常見。然而,儘管近年來2D AR跟蹤演算法已經取得了很大的進步,但在一些外部條件、環境因素影響下的效果仍然有很大提升空間,如何處理光照變化、運動模糊等因素帶來的挑戰,也是目前進行底層演算法研發的AR公司以及學者的研發熱點。

雷鋒網(公眾號:雷鋒網)近日訊息,AR公司亮風臺在2D AR跟蹤方面取得了新突破,其研發人員提出的基於約束置信度的魯棒跟蹤演算法(CCM),提高了在區域性遮擋、光照變化和運動模糊等各種因素干擾情況下的魯棒性,並在UCSB和TMT兩個國際評測集中重新整理了最好成績。目前,這一成果已經在機器人領域頂級會議ICRA 2018上發表。ICRA 是機器人領域三大頂級會議之一(其它兩個為IROS和RSS),AR跟蹤的很多經典工作(例如ESM跟蹤演算法)都曾在ICRA和IROS上發表。

亮風臺2D AR演算法新突破,奪冠世界權威評測 | ICRA 2018

                       在區域性遮擋、運動模糊和照明改變條件下的CCM演算法效果示例(只顯示在目標周圍放大的區域以便展示)

據瞭解,這兩年亮風臺依然有不少工作在針對2D AR的演算法優化,在2017年的ICRA上發表了針對光照變化的基於梯度方向的AR跟蹤演算法;同年提出的基於圖匹配的跟蹤演算法利用圖結構來處理目標物體內部的空間關聯,從而實現在強幹擾的準確平面物體跟蹤,該工作已被人工智慧領域國際頂級期刊《PAMI》(IEEE模式分析和機器智慧彙刊)錄用。其它在CVPR、ICCV、ECCV、ICRA、ISMAR、PAMI 等AI、CV、AR相關領域頂級期刊會議上公開發表的研究成果涉及影象語義識別、人臉影象分析、手勢識別、AR場景建模定位、超圖匹配,視覺顯著性等方面。

基於約束置信度的魯棒跟蹤演算法(CCM)

跟蹤平面物體,例如2D標記,通常是相機定位和場景配準的重要步驟。在過去的幾十年中,大量的研究致力於視覺跟蹤問題,平面目標跟蹤的流行方法可以大致分為基於關鍵點的方法和基於模板的方法。基於模板的方法直接利用畫素的外觀而不提取特徵,並基於牛頓法或其變體優化模板與捕獲影象之間的相似性度量,以確定平面的姿態。

不同與傳統的基於模板的跟蹤方法,CCM( Constrained Confidence Matching)根據測量噪聲對每個畫素分配不同的匹配係數,而不是在計算運動引數時對模板中的每個畫素進行相同的處理。在此基礎上,為了進一步提高對光照變化和重運動模糊的魯棒性,亮風臺研發人員還提出了一種魯棒卡爾曼濾波器,它採用新的控制輸入模型來處理物體的外觀變化。

給定目標的初始影象或位置,新方法(即CCM)自動從視訊中跟蹤定位目標所在位置。

第一步:從視訊第一幀中提取目標區域作為模板T;

第二步:從視訊讀取下一幀影象It;

第三步:在影象It中跟蹤匹配目標;

傳統的基於模板的演算法通常在計算運動引數時對模板中的每個畫素進行相同處理,因此對一些外在噪聲(特別是對於遮擋)特別敏感。為了解決這個問題,不同於傳統模板跟蹤方法,亮風臺研發人員提出一個“置信匹配”策略,在計算運動引數時為每個畫素分配不同的匹配置信度。直觀來看,將低置信度分配給被噪聲干擾的畫素。考慮到匹配的置信度,CCM的模板跟蹤問題擴充套件為如下形式:

其中C表示置信圖,它的每個元素C(x)記錄畫素x的匹配置信度的,b表示幾何變化的容忍度。新增約束的目的是禁止連續幀之間的大幅度運動跳躍。

基於“置信匹配”的目標跟蹤匹配過程可以分為置信圖計算、遮擋圖計算、最優匹配求解幾個子步驟。

(1) 置信圖計算

對於每個畫素x,置信度圖C被均勻初始化,並且根據之前觀察和模板之間的差異每幀進行更新

其中ε表示最大差異:

(2) 遮擋檢測

為了能在目標被遮擋的情況下準確的跟蹤目標,CCM需要對目標進行遮擋檢測。為了提高遮擋檢查的魯棒性,還根據兩種實踐指導原則提出遮擋檢測的新方法。首先,從遮擋匯出的外觀變化足夠以區別於其它擾動因素,例如照明變化和運動模糊,其通常對所有畫素產生類似的干擾。第二,封閉部分通常是連線緊湊的區域。

在上述指導原則的基礎上,構造當前差異影象D如下:

其中 |.| 表示向量的絕對值。然後使用以下兩個標準搜尋遮擋。

多樣性標準:首先計算差異影象D的平均值μ(D)和標準差σ(D)。顯然,低σ(D)表示差異影象D中的多樣性較少。如果

則認為目標沒有被遮擋,其中θ0 = 0.8是多樣性的預定義容差。否則,根據空間標準進一步判斷。

空間標準:對差異影象D進行二值化後,應用形態學操作去除小區域,並填充區域之間的小孔。為每個連線區域R計算兩個屬性(a1(R), a2(R)),其中a1(R)表示區域R的面積,a2(R)表示包含區域R的最小凸多邊形面積。如果區域R滿足

則認為R為遮擋區域,其中θ1 = 0.1和θ1 = 0.5是兩個預定義的閾值,|.| 表示向量的絕對值。第一個不等式目的是過濾掉太小的區域,第二個過濾掉太稀疏的區域。

為了從模板匹配和更新中排除遮擋的部分,將所有遮擋畫素的置信度直接設定為零。

(3) 最優匹配求解

先考慮無約束的置信度匹配問題,即,放棄公式(2)中的約束條件。用J(p;I)表示的目標函式ε2針對引數p和影象I的雅可比矩陣,我們有

對於傳入幀It,運動引數最初估計為pt=pt-1。根據均值偽反轉法(PMJ),位移Δp計算為

迭代更新直到達到收斂或最大迭代次數。

在實踐中的觀察,上面獲得的運動引數pt通常滿足問題(2)中定義的約束。然而,一旦獲得的pt違反(2)的約束,即採用一種簡單而有效的方法來重新計算變換函式。用Ωt={q ∣-b≤q≤b}表示有效解空間。從中均勻地進行Ns = 2500 次取樣選取候選解決方案qi(1 ≤ i ≤ Ns),並選擇具有最小差異的引數

第四步:根據第三步的跟蹤結果更新模板T;

CCM採用卡爾曼濾波器來進行模板更新。分別用yt和zt表示模板T的亮度在時間t的向量化狀態估計和觀察,卡爾曼濾波器用控制輸入模型來定義狀態預測和觀測模型

其中At是應用於先前狀態yt-1的狀態轉換矩陣,Bt是應用於控制向量ut的控制輸入模型,Ht是將真實狀態空間對映到觀察空間的觀察矩陣,wt和vt分別是狀態噪聲和觀測噪聲。在卡爾曼濾波中,通常假定wt和vt為零均值的高斯分佈,並且分別記其方差為Qt和Lt。

在下文中,用符號^yt|t’表示給出觀察時間 t'≤t 下y在時間t的估計值,^Pt|t’表示對應的誤差協方差。利用卡爾曼濾波器更新模板T(即yt)的過程可以分為計算狀態矩陣、建立控制輸入模型、模板更新幾個子步驟。

(1) 計算狀態矩陣

儘管存在外在環境的干擾,物體本身保持不變且可以直接觀察。它意味著可以採用簡單的狀態轉換和觀察模型,使得At = I和 Ht = I (這裡I代表單位矩陣)。採用自動協方差最小二乘法(ALS)技術來學習噪聲協方差矩陣Qt和Lt。為了減少計算複雜度和對訓練資料的依賴性,在畫素的噪聲彼此獨立的假設下,將噪聲協方差矩陣Qt和Lt簡化為對角線矩陣。

(2) 建立控制輸入模型

控制輸入模型根據畫素之間強度共生的概率近似來構建。特別地,控制矩陣Bt被構建為

其中Bt(i, j)表示控制矩陣Bt的第i行第j列的元素,k控制用於計算的視窗的大小。共生函式定義為

其中ym(i)和ym(j)分別表示畫素i和畫素j在時刻m的亮度。這種做法的原因是具有相似亮度的畫素傾向於保持與輸入相似的反應。在構建控制矩陣Bt之後,需要將其歸一化為行隨機矩陣。

初始控制矩陣B0根據初始模板y0構建。為了計算簡單,一旦計算了Bt,我們固定

直到Bt+k下次更新。我們在實驗中設定k = 20。

在獲得後驗估計^yt|t’之後,計算環境輸入ut以最小化先前模板與當前估計之間的平方誤差:

(3) 模板更新

首先計算先驗狀態估計和協方差:

步驟三的最優匹配結果It(φ(x;pt))被用作觀察zt。因此計算殘差和協方差:

隨後更新後驗狀態估計和協方差:

其中

為最優卡爾曼增益,I表示單位矩陣。

第五步:跳轉到步驟二處理下一幀影象。

測試結果

為了徹底評估,CCM演算法在兩個公共資料集上進行了測試:加利福尼亞大學提出的UCSB基準和加拿大阿爾伯塔大學提出的操作任務跟蹤(TMT)基準。UCSB資料集包括96個視訊流,顯示6個不同紋理的平面目標,總共6889幀,具有幾何失真(搖攝、縮放、傾斜、旋轉)、九個運動模糊等級以及不同的照明條件,所有幀都受到不同程度的噪音影響。TMT資料集由人為和機器記錄的操作任務的影象序列組成,它包含109個影象序列,共70592幀。

對應於每個視訊類別的平均跟蹤精度彙總在表I(UCSB)和II(TMT)中,如下:

亮風臺2D AR演算法新突破,奪冠世界權威評測 | ICRA 2018

亮風臺2D AR演算法新突破,奪冠世界權威評測 | ICRA 2018

從實驗結果可以看出,所提出的CCM演算法在兩個資料集上顯著地優於所有基線。事實上,CCM在幾乎所有視訊類別中都獲得了最佳或幾乎最佳的跟蹤效能,明顯優於現有的主流跟蹤演算法,如基於關鍵點的跟蹤(keypoint-based tracker),基於模板的跟蹤( template-based tracker)以及概率跟蹤(probabilistic tracker),並且它對於極端姿態變化以及嚴重的環境擾動都表現出很高的魯棒性。

CCM演算法與其他演算法相比,在各類內在和外在變化的幾個典型示例如下,包括具有重複圖案的影象傾斜;劇烈而動態的日落畫面引起照明變化,紋理非常弱;存在部分遮擋;運動模糊,在這種情況下檢測不到可靠的關鍵點。

亮風臺2D AR演算法新突破,奪冠世界權威評測 | ICRA 2018

亮風臺2D AR演算法新突破,奪冠世界權威評測 | ICRA 2018

AR的研究仍需持續努力

儘管計算機對於“常規”平面物體的認識已經能達到很高的速度、精度,以及穩定性,但這明顯還不夠,研究人員希望計算機能夠儘可能“模擬”人的視覺效果,甚至在一定條件下超過人眼,這樣,在演算法工程化之後面向普通使用者時,才能保障優質的使用者體驗,如在傳統的平面物體跟蹤中,容易出現快速運動丟失或漂移等現象,反映到使用者體驗上,車窗外的廣告牌就容易識別不到,在走動過程中玩AR遊戲發現地面上的傢俱會“飄”起來等。

這就需要相關的學術人員以及企業研發人員不斷的優化演算法、提出新方法,如此才能結合不斷升級的硬體環境實現高度的市場化。對於目前的2D AR甚至整個AR行業來說,需要從業人員把現有技術應用化市場化,但同樣需要大量真正的創新人員向前推進底層技術邊界,讓AR走向成熟。

相關推薦

2D AR演算法突破基於約束置信度跟蹤演算法CCM | ICRA 2018

在目前的AR應用中,2D AR跟蹤,如海報、卡牌等平面物體的跟蹤已經成為核心技術之一,在營銷、教育、遊戲、展示展覽等方面都很常見。然而,儘管近年來2D AR跟蹤演算法已經取得了很大的進步,但在一些外部條件、環境因素影響下的效果仍然有很大提升空間,如何處理光照變化、運動模糊等因

AR技術突破基於圖的平面物體跟蹤演算法Gracker

所謂AR(Augmented Reality,增強現實)廣義上來說就是在現實環境上疊加虛擬場景,區別於VR,理解真實環境是AR的基本點。基於平面圖的視覺跟蹤是AR的核心技術之一,據瞭解,儘管目前AR發展迅速,但是計算機視覺演算法在處理平面跟蹤時依然還有很多不足,在平面圖片

演算法7-4圖的遍歷——深度優先搜尋模板

題目描述 深度優先搜尋遍歷類似於樹的先根遍歷,是樹的先根遍歷的推廣。其過程為:假設初始狀態是圖中所有頂點未曾被訪問,則深度優先搜尋可以從圖中的某個頂點v出發,訪問此頂點,然後依次從v的未被訪問的鄰接點出發深度優先遍歷圖,直至圖中所有和v有路徑相通的頂點都被訪問到;若此時圖中尚

演算法7-6圖的遍歷——廣度優先搜尋模板

題目描述 廣度優先搜尋遍歷類似於樹的按層次遍歷的過程。其過程為:假設從圖中的某頂點v出發,在訪問了v之後依次訪問v的各個未曾被訪問過的鄰接點,然後分別從這些鄰接點出發依次訪問它們的鄰接點,並使“先被訪問的頂點的鄰接點”先於“後被訪問的頂點的鄰接點”被訪問,直至圖中所有已被訪問

李飛飛發表研究成果視覺推理的推斷和執行程式HR

原文 論文導讀:目前進行視覺推理的方法都是通過黑箱結構將輸入直接對映到輸出,而不是對潛在的推理過程進行明確建模。這樣一來,黑箱模型學習到的是利用資料內的偏置而不是學習進行視覺推理的過程。受到模組化網路的啟發,本文提出了一個視覺推理模型,由一個程式產生器和一個執行引擎構成

華中科技大學與成立增強現實聯合實驗室

11月11日,華中科技大學與亮風臺宣佈成立“華中科技大學—亮風臺增強現實聯合實驗室”,在計算機視覺、人機互動等增強現實(AR)、人工智慧(AI)核心技術方面展開產學研合作,這也是華中科技大學在AR領域首次與業界達成合作。 武漢市科技局高新處程樂學處長,湖北省科技廳成果轉

物聯網行業突破UWB人員定位技術已成功應用於各個領域!

從精細化的行業應用需求來看,只有更高精度的位置資訊才能帶來更高的價值。我們可以更加精確地知道事物的所處位置,更好的管理企業、人員或物資。例如基本UWB人員定位技術來保障隧道施工人員人身安全,協助監獄搭建全域性化、視覺化的監管平臺;提高石油化工行業安全保障效率;助力建築工地智慧管理升級等。

聚合支付突破刷臉支付開啟生物支付時代

蘇寧 數據 零售 大小 場景 接口 提升 落地 部門 刷臉支付“蜻蜓”的推出,有望推動刷臉支付大規模商用,開啟支付新時代。蜻蜓刷臉支付刷臉支付設備“蜻蜓”,體積只有一個ipad的大小,與原有的自助刷臉機具相比,體積要小巧的多。此外其即插即用,只要有USB接口,便無需改造商家

《資料結構與演算法》第六次 圖及圖的遍歷

《資料結構與演算法那》第六次課實驗內容 圖及圖的遍歷(上) 實驗目的: 熟悉圖的兩種儲存結構:鄰接矩陣和鄰接連結串列。 掌握在圖的鄰接表儲存結構上的遍歷演算法的實現。 實驗內容: 開發c++類adjacencyGraph,用鄰接矩陣描述一個無向圖,要求可

雜湊學習演算法之二基於hash的ANN框架

在上一節瞭解了ANN的背景,簡單介紹了hash的演算法,那基於hash的ANN框架是怎樣的呢? 框架圖 框架說明 基於hash的ANN主要有四個步驟,包括特徵提取、hash編碼(學習+編碼)、漢明距離排序、重排序。 1、特徵提取 有查詢影象和影象資料庫,需要對這兩類分別

JS實現最小生成樹之克斯卡爾Kruskal演算法

  克魯斯卡爾演算法列印最小生成樹:   構造出所有邊的集合 edges,從小到大,依次選出篩選邊列印,遇到閉環(形成迴路)時跳過。 JS程式碼: 1 //定義鄰接矩陣 2 let Arr2 = [ 3 [0, 10, 65535, 65535, 65535,

演算法7-6圖的遍歷——廣度優先搜尋c語言

[提交] [統計] [提問] 題目描述 廣度優先搜尋遍歷類似於樹的按層次遍歷的過程。其過程為:假設從圖中的某頂點v出發,在訪問了v之後依次訪問v的各個未曾被訪問過的鄰接點,然後分別從這些鄰接點出發依次訪問它們的鄰接點,並使“先被訪問的頂點的鄰接點”先於“後被訪問的頂點的鄰接點”被訪問

演算法計算字串中子串的出現次數java

演算法篇:計算字串中子串的出現次數(java) 方法一:使用String類的substring(indexStart,indexEnd)方法 首先解釋一下substring(indexStart,indexEnd)方法: str.substring(indexStart,inde

hmm前後向演算法 隱馬爾科夫模型HMM鮑姆-韋爾奇演算法求解HMM引數 隱馬爾科夫模型HMM維特比演算法解碼隱藏狀態序列 隱馬爾科夫模型HMMHMM模型

跟醫生就醫推導過程是一樣的 隱馬爾科夫模型HMM(一)HMM模型     隱馬爾科夫模型HMM(二)前向後向演算法評估觀察序列概率     隱馬爾科夫模型HMM(三)鮑姆-韋爾奇演算法求解HMM引數     隱馬爾科夫模型HMM(四)維特比演算法解碼隱藏狀態序列     在隱馬爾科夫模型HMM(一)

斯卡爾Kruskal演算法求最小生成樹

                1、基本思想:設無向連通網為G=(V, E),令G的最小生成樹為T=(U, TE),其初態為U=V,TE={ },然後,按照邊的權值由小到大的順序,考察G的邊集E中的各條邊。若被考察的邊的兩個頂點屬於T的兩個不同的連通分量,則將此邊作為最小生成樹的邊加入到T中,同時把兩個連通分

python資料分析基於協同過濾的電影推薦演算法

協同過濾 協同過濾(英語:Collaborative Filtering),簡單來說是利用某興趣相投、擁有共同經驗之群體的喜好來推薦使用者感興趣的資訊,個人透過合作的機制給予資訊相當程度的迴應(如評分)並記錄下來以達到過濾的目的進而幫助別人篩選資訊,迴應不一定侷限於特別感興趣的,特別

演算法】紅黑樹插入資料的情況與實現

大家如果有玩魔方,我相信是可以理解我說的東西的,轉魔方就是先把第一面轉出來,然後把第一面作為底面,然後根據遇見的情況來轉魔方(是有公式的) 該系列到現在暫只有3篇文章:   【演算法】紅黑樹(二叉樹)概念與查詢(一):https://blog.csdn.net/lsr40/ar

大資料處理基於MapReduce的大圖劃分演算法綜述

【宣告:鄙人菜鳥一枚,寫的都是初級部落格,如遇大神路過鄙地,請多賜教;內容有誤,請批評指教,如有雷同,屬我偷懶轉運的,能給你帶來收穫就是我的部落格價值所在。】    今天一位同事跟我談起Hadoop,剛好這期部落格我也正準備寫點這方面相關的綜述,就跟他聊了聊。

演算法競賽入門經典(第二版) 習題3-5 謎題Puzzle UVa227 Finals1993

Page 57 Description 一個5*5的網格中恰好有一個格子是空的,其他格子各有一個字母,四條指令A,B,L,R分別表示將空格上、下、左、右移動。輸入初始網格(以Z結束)和一串指令(以0結束),輸出執行操作後的網格。越界則輸出“This puzzle has n

粒子群優化演算法(PSO)之基於離散化的特徵選擇(FS)

作者:Geppetto 前面我們介紹了特徵選擇(Feature Selection,FS)與離散化資料的重要性,總覽的介紹了PSO在FS中的重要性和一些常用的方法。今天講一講FS與離散化的背景,介紹本文所採用的基於熵的切割點和最小描述長度原則(MDLP