【論文翻譯】ADVIO: An Authentic Dataset for Visual-Inertial Odometry

阿新 • • 發佈：2019-01-30

ADVIO: An Authentic Dataset for Visual-Inertial Odometry

該資料集的特點：使用iPhone手機採集、真實複雜場景、對比現有商用和學術研究VIO系統性能

【摘要】對於行人場景的VIO的研究，由於缺少真實和公開的基準資料集，很難準確比較各公開演算法的不同點。已有的資料集缺少六自由度的真值，或由於選用光學跟蹤系統構建真值，因此受限於很小的空間。我們利用的純慣性導航的優勢，針對VIO開發了一套多用途、有挑戰性的計算機視覺基準資料集。為了實現這個目標，我們建造了一個包括iPhone、Google Pixel、Android phone、 Google Tango等硬體的試驗平臺。提供範圍廣泛的感測器原始資料，幾乎可以在任何智慧手機上得到，並且具有高質量的跟蹤真值（ground-truth）。我們還對Google Tango、ARCore、 Apple ARKit，以及兩個最近釋出的學術方法進行了視覺-慣導跟蹤結果對比。資料集包括室內室外場景，包括樓梯、手扶梯、升降梯、辦公環境、商場和地鐵站。

【關鍵詞】VIO、導航、基準資料集

1、引言

最近出現了各種系統和方法來跟蹤基於攝像機和慣性測量單元(IMUS)的手持或可穿戴移動裝置的運動。同時存在開源的方法和非公開的專用系統（Google的ARCore，Apple的ARKit在各自制造商的旗艦智慧手機型號上執行）。移動裝置的其他例子包括谷歌Tango平板裝置和微軟HoloLens增強現實眼鏡。開發智慧移動裝置的里程計演算法的主要動機是支援需要精確實時跟蹤自我運動的增強現實應用。這些應用在很多領域具有重要的價值，比如建築和設計，遊戲和娛樂，遠端呈現，教育和培訓。

雖然VIO有著重要的學術和商業價值，該領域的發展受限於缺少公開的資料集和基準，並用來對提出的演算法進行公平的比較，推動現有最好系統的不斷提升和進一步發展。例如，由於每個系統的效能取決於所使用的演算法和感測器，很難公平地比較方法的進步和演算法的貢獻，因為來自硬體和軟體的因素可能是混合的。此外，由於許多現有的資料集要麼是在較小的空間中捕獲的，要麼是利用了比低成本消費裝置更好的感測器硬體，很難評估現有的方法在手機端上能否實現中遠距測距或大尺度SLAM。

此外，使用智慧手機感測器採集的真實感感測器資料，再加上足夠精確的真值，將有助於加快學術研究的進展，並降低新研究人員進入該領域的門檻。許多計算機視覺問題清楚地證明了公共資料集和基準作為推動快速發展的動力的重要性，如影象分類[9,19]，目標檢測[13]，立體重建[10]和語義分割[13,6]等等。然而，對於視覺慣性里程計（VIO），沒有公開可用的資料集或基準，可以在典型的智慧手機環境中評估最近的方法。此外，由於開源軟體文化在這一研究領域並不像在影象分類和目標檢測方面那樣普遍，因此研究環境對於促進快速發展並不是最理想的。此外，由於上述原因，這一領域有一種危險，即只有大公司資助的大型研究小組才能進入這一領域，這將減緩進展，使開放的學術研究走向衰敗。

在這項工作中，我們提出了一個數據集，旨在促進智慧手機或其他帶有低成本感測器（捲簾相機、MEMS慣性器件）的移動終端上的VIO和SLAM方法的發展。我們的感測器資料通過iPhone 6s手機採集，包括真值位姿軌跡和從感測器採集的原始資料流（RGB視訊相機、加速度計、陀螺儀、磁力計、平臺提供的地理座標、氣壓計）。總共採集了4.5Km的序列，包括在室內室外各種環境下的手持運動。資料集是在公共場所收集的，符合當地關於拍攝和出版的法律規定。真值的計算方法是將最近的純慣性導航系統(INS)[24]與基於精密地面平面圖的頻繁手動定位相結合，驗證了地面真實值的質量，並對其精度進行了估計。除了基準資料集外，我們還對視覺慣性進行了比較。

除了基準資料集，我們比較了VIO演算法，包括三個最近的專有平臺：ARCore on a Google Pixel device, Apple ARKit on the iPhone, and Tango odometry on a Google Tango tablet device，以及兩個最近釋出的VIO演算法：ROVIO和PIVO。比較資料由捕獲裝置上的三個裝置採集，圖1進行了介紹說明。資料採集的常用應用也應用到每個裝置中。

我們工作的主要貢獻概述如下：

（1）一個帶有6自由度的iphone感測器資料的公開資料集，可為現實生活應用場景中的單目VIO提供基準，這些場景包括各種環境中的運動，還包括樓梯、電梯和自動扶梯；

（2）比較最新的VIO平臺和演算法；

（3）提出一種在真實使用場景中，將純慣性導航與手動定位相結合的智慧手機里程計的真值採集方法；

2、相關工作

儘管視覺慣性里程計(VIO)是對手持裝置和可穿戴裝置進行實時跟蹤的最有希望的方法之一，但目前還缺乏用於對不同方法進行基準測試的良好的公共資料集。相關基準應該包括帶有同步時間戳的視訊和慣性感測器記錄，最好是用消費類智慧手機感測器捕獲。此外，資料集應該是真實的，並說明實際的應用場景。也就是說，它應該包含具有稀有視覺特徵的具有挑戰性的環境，無論是室內還是室外，以及各種不同的運動，還包括快速旋轉而不進行平移，因為它們對於單目視覺測量來說是有問題的。我們的工作是第一個解決這一需求的。

關於純視覺測徑或SLAM，有幾個資料集和基準可用[23,6,8,26]，但它們缺少慣性感測器資料。此外，其中許多資料集是有限的，因為它們：

（1）使用地面車輛記錄，因此沒有快速旋轉[23，6]；

（2）不包含低紋理室內場景[23，6]；

（3）用定製硬體(如魚眼鏡頭或全球快門照相機)拍攝[8]；

（4）缺乏充分的6自由度真值[8]；

（5）限制在較小的環境，因此是SLAM系統的理想場景，但不適用於中遠距離導航基準里程計[26]。

然而，除了純視覺資料集外，還有一些含有慣性感測器資料的公共資料集，例如[10、5、4、3、18]。大部分這些資料集都是用感測器嚴格地連線到輪式地面車輛上記錄的。例如，廣泛使用的Kitti資料集[10]包含從一輛移動汽車上鐳射雷達掃描和多個攝像機錄製的視訊。真值使用一個非常精確的GPS/IMU定位單元與RTK校正訊號。但是IMU採集頻率只有10Hz，這對於劇烈運動的手持裝置來說是不夠的。進一步講，即便高頻率的IMU資料可用，KITTI資料集也受到上面提到的（1）（2）（3）限制，使得它對於智慧手機里程計來說是沒有用的。

與KITTI的另一個相似之處是，我們也使用帶有外部定位的純慣性導航來確定地面真值。在我們的例子中，由於GPS在室內是不準確或不可用的，所以GPS校正將被手動定位校正所取代。此外，與Kitti相反，通過利用最近慣性導航[24]的進展，我們能夠使用iphone的慣性感測器進行真值計算，因此不依賴高級別的IMU，過去這對於手持式的裝置來說很難達到。在我們的情況下，手動定位修復是從參考視訊確定的(圖3a)，通過檢視視訊進行視覺識別地標，從精確的建築平面圖或航空影象中準確地定位地標。不使用光學方法建立真值的好處是，我們可以很容易地記錄長序列，並且記錄裝置的相機可以收到暫時的遮擋。這使得我們的基準也適用於評估VIO方法的遮擋魯棒性[25]。和KITTI一樣，Rawseeds[5]和NCLT[4]資料集也是用輪式地面車輛記錄的。它們都使用自定義感測器(例如全向攝像機或工業級IMU)。這些資料集用於評估緩慢移動車輛的測向和自我定位，而不適合於手持裝置和增強現實的VIO方法的基準測試。

與我們最相關的資料集是Euroc[3]和PennCOSYVIO[18]。Euroc提供用全域快門立體相機和戰術級IMU在微型飛行器(MAV)上捕獲的視覺和慣性資料[17]。這些序列記錄在兩個不同的房間，其中配備了運動捕捉系統或鐳射跟蹤器，以獲得準確的運動真值。在 PennCOSYVIO中，資料採集是使用一個手持平臺進行的，它包含兩個Google Tango平板電腦、三個Gopro 4攝像頭和一個類似於Euroc的視覺慣性感測器單元。這些資料是通過在大學校園幾次步行150米的路徑收集到的，真值是通過光學標記獲取的。由於需要光學定位來確定真值，Euroc和 PennCOSYVIO都只包含少數幾個相對小規模的環境的資料。此外，這兩個資料集都使用相同的高質量定製感測器和寬視場立體相機[17]。相反，我們的資料集包含大約4.5公里的序列，這些序列是在幾個不同的建築和不同的室外環境中，用普通智慧手機感測器記錄的。此外，我們的資料集包含樓梯、電梯和自動扶梯的運動，如圖2所示，還包括臨時遮擋和缺乏視覺特徵。我們不知道有任何類似的公共資料集。表1總結了不同資料集的性質。我們靈活的資料收集過程的有利因素是利用純慣性導航的最新進展和人工定位修正[24]。事實上，確定真值的方法是我們工作的貢獻之一。此外，作為第三個貢獻，基於我們的挑戰性資料集，比較了最近的VIO方法和專用的最先進的平臺。

3、資料採集

資料是用三個裝置(iPhone6s，Pixel，Tango)嚴格地連線到一個鋁架上記錄的（圖1）。此外，我們使用一個額外的相機視訊拍攝記錄人並記錄下採集過程（圖3）。

對於2D地圖(即結構平面圖或航空影象/地圖)，手動定位是從外部攝像機的角度確定的。由於裝置是手持的，在大多數固定位置，高度是以高於地面水平的恆定距離(具有合理的不確定性估計)給出的，這樣優化後的軌跡才能最佳地平衡固定位置和IMU訊號的資訊（第4節詳細介紹）。

使用網路提供的時間同步來自所有四個裝置的資料流。也就是說，在捕獲會話開始時，裝置時鐘通過網路時間協議(NTP)請求進行同步。在記錄過程中，所有裝置都連線到4G網路上，並且為了能夠在同一座標系下對資料進行分析，我們通過捕獲棋盤的多個檢視來校準所有相機的內外引數。這是在每次步驟之前進行的，以解釋運輸和儲存過程中的微小運動。記錄的資料流列於表2中。

3.1 Raw iPhone Sensor Capture

基於Swift 4開發了一個iOS資料採集應用程式，它儲存了與蘋果Arkit姿態估計同步的慣性和視覺資料。所有單個數據點都在內部加蓋時間戳，然後同步到全域性時間。全域性時間是使用Kronos Swift NTP client獲取的。這些資料是用執行iOS 11.0.3的iPhone6S採集的。同樣的軟體和相同的iPhone被用來收集參考視訊。之所以選擇這款手機，是因為iphone 6s(2015年釋出)在硬體上更接近於普通智慧手機，而不是最新的旗艦iPhone，而且與谷歌畫素硬體也很匹配。

在捕捉過程中，相機由ARKit服務控制，它執行通常的自動曝光和白平衡，但焦距保持固定(ARkit返回的相機矩陣儲存在捕獲過程中)。解析度也由ARKIT控制，為1280*720。幀被打包成一個H.264/MPEG-4視訊檔案。全球導航衛星系統/網路定位資料是通過協同定位方案收集的，請求的位置精度為“kCLLocationAccuracyBest”。定位服務提供緯度和經度、水平精度、高度、垂直精度和速度。加速度計、陀螺儀、磁強計和氣壓計資料通過CoeMotion API收集，並以最大速率記錄。表2給出了多個數據流的近似捕獲率。磁強計值沒有校準，氣壓計取樣值既包含氣壓，又包含相關的相對高度讀數。

3.2 Apple ARKit Data

捕獲原始資料的應用程式執行ARKit框架。它提供了與每個視訊幀相關聯的姿態估計。將姿態儲存為平移向量和以尤拉角表示的旋轉。每個姿態相對於手機建立的全域性座標幀。

3.3 Google ARCore Data

我們根據谷歌的ARCore示例編寫了一個應用程式，用於捕獲ARCore跟蹤結果。與ARKit一樣，姿態資料包含到捕獲的第一幀的轉換和到全域性座標框架的旋轉。與ARKIT不同的是，方向被儲存為單位四元數。注意捕獲速率比ARKit慢。我們不儲存視訊幀或感測器資料在Pixel上。資料採集使用Google Pixel device 執行ndroid 8.0.0，並使用Tango Core AR developer preview得到。

3.4 Google Tango Data

基於Paraview Project，[11]開發和釋出了一個數據採集APP，在此基礎上進行了修改以收集相關資料。捕獲資料包括裝置相對於第一幀的位置、全域性座標中的方位、魚眼灰度影象和深度感測器產生的點雲。Tango service 執行在基於Android 4.4.2 and 使用 Tango Core Argentine的Project Tango tablet 上。 Tango service輸出兩組位姿，Raw odometry（不帶回環）和 Area learning（帶回環）。 Raw odometry是在沒有長期記憶體的情況下建立幀的，而 Area learning使用正在進行的地圖構建來封閉迴環和減少漂移。這兩個軌跡都被捕獲和儲存。

3.5 Reference Video and Locations

本文的一個重要貢獻是靈活的資料採集框架，它使我們能夠在大型環境中捕獲實際的場景。在這種情況下，使用視覺標記、運動捕捉或鐳射掃描器獲取真值是不可行的。相反，我們的工作利用了純慣性導航和手動定位修復，如4.1節所述。為了獲得定位修復，我們記錄了一個額外的參考視訊，這是由一個輔助人員在離實際採集人很短的距離處採集得到的。圖3a舉例說明了這類視訊的一個示例框架，參考視訊使我們能夠確定資料收集裝置相對於環境的位置，並獲得純慣性導航方法的手動定位固定裝置(受測量噪聲影響)[24]。

在實踐中，使用為本文開發的位置標記工具作為後處理步驟，可以瀏覽視訊，並在相應的平面圖影象上標記手動位置修復。在容易確定相對於平面圖影象的裝置位置的場合(例如，在自動扶梯的開始和結束、進入和退出電梯、通過門或走過建築物的拐角處)，插入位置校正（location fixes）。在我們所有的記錄資料中，很容易找到足夠的這樣的例項來建立一個準確的真值。請注意，它足夠手動確定裝置的位置，而不是定位。

初始位置的確定必須從平面圖的畫素座標進一步轉換為公制的世界座標，這首先是通過使用人工測量的參考距離(例如柱子之間的距離)將畫素轉換成米來完成的。然後，使用手動確定的地標點(例如柱子或樓梯)和地面高度測量來相互註冊平面圖影象。

4 方法

4.1 Ground-Truth

真值是在[24 ]中提出的純慣性里程計演算法的一種實現，其中使用外部參考視訊記錄了人工固定點（見3.5節）。用於獲取真值的純慣性導航系統中使用的IMU資料來自iphone，並且該部分資料共享為資料集的一部分。此外，還為iPhone IMU獲取了額外的校準資料，包括加性陀螺儀偏差、加性加速度計偏差和乘性加速度計比例尺偏差。

iPhone姿態軌跡(位置和方向)的推斷如[24]所述，增加了狀態估計、附加校準資料和手動定點的融合。姿態軌跡對應的INS估計值與固定校正點和外部校準有關。

考慮到固定點位置的不確定性和不精確性，不強制要求手機的跟蹤與這些固定點完全匹配，而是在固定位置點包括一個高斯測量噪聲項，其標準偏差為25釐米(在所有方向)。這允許估計軌跡與固定點不同。在樓層間上下時，位置固定點被給定為未知高度的三維位置或2D點。

推理問題最終用擴充套件卡爾曼濾波器(前通)和擴充套件的Ruch-Ton-Striebel平滑器(後傳，見[24]中的技術細節)解決。由於這裡不需要實時計算，我們也可以使用批處理優化，但這不會導致結果發生明顯的變化。手工逐幀檢查計算出的軌跡，並通過額外的固定點對姿態軌跡進行改進，直到軌道與所有三個攝像機和平面圖影象中所看到的運動相匹配為止。圖2c顯示了估計的估計的真值軌跡的例子。垂直線是在乘坐電梯(停在每一層)。如果放大，可以看到人行走的週期性運動，從補充材料中的示例視訊中也可以檢視所獲得的精度。

4.2 Evaluation Metrics 評估方法

對於在採集資料的過程中動態採集到的里程計結果，我們提出了以下評價方法：所有資料首先臨時對齊同一個全域性時鐘(由NTP請求在捕獲資料時獲取)，使得時間對齊精確到1-2秒。通過最大限度地減小裝置偏航和橫滾角之間的中位誤差來確定一個恆定的時間偏移，從而進一步改進了時間對準。這種對齊兼顧了裝置間的時間配準誤差和測向方法中的內部延遲。

在時間對齊之後，三個裝置提供的軌跡被切成相同的長度，覆蓋相同的時間跨度，因為不同裝置的錄音的啟動和停止時間可能有幾秒的差異。垂直方向已經與重力對齊。考慮到裝置、估計位姿和真值之間的相對姿態，我們估計了估計軌跡和地面之間的平面剛性變換(2d旋轉和平移)-基於每種方法中估計值的前60s的真值(使用整個路徑對結果沒有明顯的影響)。不使用校準的相對姿態的原因是，特別是ARCore（ARKit偶爾）在軌道的開始處顯示了劇烈跳變，這將對該方法產生相當大的影響並破壞了這些資料集。

所有對齊軌跡都從原點開始，我們測量每一種方法給出的估計輸出與真值的絕對誤差，並將絕對位置誤差的經驗累積分佈函式定義為：

其中，1e是事件e的指示函式，e是相對於真值的絕對位置誤差的向量，n是位置的個數。

5 Data and Results 資料和結果

該資料集包含在6個不同位置拍攝的23個單獨的序列，所有序列的總長度為4.47公里，總持續時間為1小時8分鐘。有19個室內和4個室外序列。在室內序列中，平均每3.7米（或3.8秒）有一個手動固定點，而在每14.7米（或10秒）室外有一個手動固定點。所有序列的三維軌跡真值在補充材料中得到了說明，並給出了更多的細節。此外，補充視訊還說明了其中一個序列及其真值，並簡要介紹了資料集序列和環境的主要特徵。

我們的資料集主要是針對中、長程里程計設計。最明顯的用例是在大空間內的室內導航，但我們也包含了戶外路徑以保證完整性。在一個7層高的購物中心(135,000平方米)、一個地鐵站和兩個不同的辦公大樓中獲得了室內序列。購物中心和車站位於同一建築綜合體中。地鐵和公交車站位於底層，採集到的視訊中有大量的移動人員和偶爾可以看到的大型車輛，這對於純視覺里程計具有挑戰性。此外，商場較低的樓層包含大量的移動人員。圖2顯示了購物中心的總體檢視，以及地面真相路徑示例和Tango點雲(圖2B)。圖4b展示了商場和車站的例項框架。用例儘可能逼真，包括樓梯、電梯和自動扶梯上的動作，以及暫時遮擋和缺乏視覺特徵的區域。購物中心有10個序列，車站有兩個序列。

在大廳和兩棟辦公樓的走廊裡進行了資料採集。它們包含了一些靜止的人和幾個移動的人。順序包括樓梯攀登和乘坐電梯。有封閉和開放的(玻璃)電梯序列，示例框架如圖4a所示。

室外序列記錄在市中心(城市，兩個序列)和大學校園(郊區，兩個序列)。圖4c和4d顯示了兩個地點的示例幀。城市戶外資料採集是城市街區進行的，它們包括開放的空間、人和車輛。郊區的戶外資料採集是在人口稀少的地區進行的。序列中有少數人步行和一些車輛。大部分空間是開放的。室外序列的平均長度為334.6米，從133米到514米不等。室外序列是在一天中不同的時間獲得的，說明了幾種日光條件。

圖5a顯示從地面提取的不同運動度量的直方圖。圖5a顯示速度直方圖，它有三個峰值，反映三個主要的運動模式。

從慢到快，它們是自動扶梯、樓梯和步行。圖5b顯示了僅包含自動扶梯和正常步行的一個序列的速度直方圖。定位直方圖顯示，手機通常保持在與載體相同的位置(縱向方向，略微向下)。俯仰角反映了航向的均勻分佈。

5.1 Benchmark Results

我們使用原始的iPhone資料對兩個研究級別的VIO系統進行評估，並在各自裝置上執行的三種專有解決方案(Pixel上的ARcore、iPhone上的ARKit和平板電腦上的Tango)。所使用的研究系統是ROVIO[2,1,20]和PIVO[25]。ROVIO是一種相當新的方法，它已經被證明在高質量的IMU和大視場相機資料上能很好地工作。Pivo是最近的一種方法，與使用智慧手機資料的Google探戈[25]相比，它顯示出了有希望的結果。對於這兩種方法，都使用了原始作者的實現(ROVIO作為maplab 7的一部分)(在僅限里程計模式下，沒有地圖構建或迴圈閉包)。我們使用了精確的攝像機引數和從攝像機到imu的剛性變換，並對過程和測量噪聲尺度引數進行了預估計。

為了測試目的，我們還對原始資料(dso[7]和orb-slam 2[15])進行了兩種僅用視覺測量的方法，這兩種方法都能夠跟蹤路徑的子集，但小視場、旋轉的快速運動和具有挑戰性的環境使它們在所有路徑上都無法成功。

一般來說，專有系統比研究方法工作得更好，如圖7所示。在室內序列中，所有專有系統一般都工作得很好(如圖7a所示)。Tango有最好的效能，ARKit表現良好和強勁，只有少數明確的失敗案例(95th percentile _10 meters)，而Arcore偶爾失敗，顯然由於不正確的視覺迴環檢測。包括室外序列稍微改變了度量(圖7b)。ARKit在室外序列有嚴重的漂移問題。在方位誤差方面，所有系統都是精確的，平均誤差小於2度，這是由於陀螺儀在校準良好的情況下，通過對陀螺進行積分跟蹤而實現的。如圖7所示，我們的iPhone資料具有窄視場和低成本的IMU，基於研究的方法面臨挑戰。有許多序列，這兩種方法完全發散(例如圖6)。另一方面，也有一些序列可以很好地工作。這可能部分是因為ROVIO和PIVO在內部動態估計IMU的校準引數(例如加速度計和陀螺儀偏差)，而且兩個系統都沒有直接支援提供預先校準的IMU引數作為輸入。ROVIO只考慮加性加速度計的偏差，它在許多序列中顯示為指數爬行，我們用我們的資料提供真值的IMU校準引數，因此也可以用預先校準的值來評估它們的效能。或者，部分序列可用於自校準，其他用於測試。專有系統可能從工廠校準的引數中受益。圖5e和圖6顯示了結果的示例。在這些情況下，所有商業解決方案都執行良好。儘管如此，ARCore在戶外路徑開始時仍然存在一些問題。此外，在多層樓的情況下，漂移通常更為嚴重，而且有一些序列顯示，專有系統也有明顯的故障。

一般來說，ROVIO在處理視覺資料和慣性資料之間的存在的長期遮擋和不一致方面存在問題。此外，在圖5e中，它的標度很明顯不準確，這很可能是由於加速度中沒有建模的尺度偏差（scale bias），而這種偏差顯然不足以滿足消費者級感測器的要求，這些感測器也表現出乘性的偏差（multiplicative biases）[22]。另一方面，PIVO採用了加性和乘性加速度計偏差的模型。然而，使用PIVO，主要的挑戰似乎是，如果沒有適當的運動，從零開始線上校準各種IMU引數需要相當長的時間，從而減緩收斂到正確的軌道上。

6 Discussion and Conclusion 討論和總結

我們提出了第一個使用標準智慧手機感測器的手持裝置遠距離視覺慣性里程計的公共基準資料集。該資料集包含23條記錄在不同真實環境中多層樓內的23個序列。序列的總長度為4.5km。此外，我們還提供了三種專用VIO平臺和兩種最新的學術VIO方法的定量比較，其中我們使用了原始的感測器資料。據我們所知，這是第一次背靠背比較ARKit, ARCore, and Tango。

蘋果的ARKit在大多數場景中表現很好。只有在一個較難的室外序列中，ARKit出現了典型的慣性推算失敗，估計的位置失去控制完全錯誤。與ARKit相比，Google的ARCore表現出更積極的視覺迴環功能，而ARKit則出現在假陽性的“跳躍”，散落在軌道上(在視覺上相似的區域之間)。Tango中的專用硬體給了它優勢，這也可以在圖7中看到。區域學習（帶回環）是測試的最魯棒和準確的系統。然而，所有的系統在開放的電梯中都表現得比較好，玻璃牆讓攝像機看到電梯運動時開啟的大廳。在關閉電梯的情況下，沒有一個系統能夠將慣性運動與靜態視覺場景相協調。從ROVIO和PIVO的結果來看，這種資料集的需求是顯而易見的。該研究領域需要挑戰狹隘的視野和低效能IMU的資料，以開發和測試新的VIO方法，這些方法可以推廣到消費級硬體。

資料採集過程可以很好地擴充套件到新的環境。因此，將來可以用相當小的努力來擴充套件資料集。資料集的目的是使視覺慣性測定儀的方法能夠進行公平的比較，並加快這一研究領域的發展。這是相關的，因為VIO是用於增強現實中對移動裝置的實時跟蹤，目前最常用的方法。

References

1. Bloesch, M., Burri, M., Omari, S., Hutter, M., Siegwart, R.: Iterated extended Kalman filter based visual-inertial odometry using direct photometric feedback. International Journal of Robotics Research 36(10), 1053–1072 (2017) 3, 12

2. Blösch, M., Omari, S., Hutter, M., Siegwart, R.: Robust visual inertial odometry using a direct EKF-based approach. In: Proceedings of the International Conference on Intelligent Robots and Systems (IROS). pp. 298–304. Hamburg, Germany (2015) 1, 3, 12

3. Burri, M., Nikolic, J., Gohl, P., Schneider, T., Rehder, J., Omari, S., Achtelik, M.W., Siegwart, R.: The EuRoC micro aerial vehicle datasets. International Journal of Robotics Research 35, 1157–1163 (2016) 4, 5

4. Carlevaris-Bianco, N., Ushani, A.K., Eustice, R.M.: University of Michigan North Campus long-term vision and LIDAR dataset. International Journal of Robotics Research 35, 1023–1035 (2015) 4, 5

5. Ceriani, S., Fontana, G., Giusti, A., Marzorati, D., Matteucci, M., Migliore, D., Rizzi, D., Sorrenti, D.G., Taddei, P.: Rawseeds ground truth collection systems for indoor self-localization and mapping. Autonomous Robot 27(4), 353–371 (2009) 4, 5

6. Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S., Schiele, B.: The Cityscapes dataset for semantic urban scene understanding. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 3213–3223. Las Vegas, USA (2016) 2, 4

7. Engel, J., Koltun, V., Cremers, D.: Direct sparse odometry. IEEE Transactions on Pattern Analysis and Machine Intelligence 40(3), 611–625 (2018) 12

8. Engel, J., Usenko, V.C., Cremers, D.: A photometrically calibrated benchmark for monocular visual odometry. arXiv preprint arXiv:1607.02555 (2016) 4

9. Everingham, M., Eslami, A., Van Gool, L., Williams, I., Winn, J., Zisserman, A.: The PASCAL visual object classes challenge: A retrospective. International Journal of Computer Vision (IJCV) 111(1), 98–136 (2015) 2

10. Geiger, A., Lenz, P., Urtasun, R.: Are we ready for autonomous driving? The KITTI vision benchmark suite. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 3354–3361. Providence, Rhode Island (2012) 2, 4

11. Laskar, Z., Huttunen, S., Herrera, D., Rahtu, E., Kannala, J.: Robust loop closures for scene reconstruction by combining odometry and visual correspondences. In: Proceedings of the International Conference on Image Processing (ICIP). pp. 2603– 2607. Phoenix, AZ, USA (2016) 8

12. Li, M., Kim, B.H., Mourikis, A.I.: Real-time motion tracking on a cellphone using inertial sensing and a rolling-shutter camera. In: Proceedings of the International Conference on Robotics and Automation (ICRA). pp. 4712–4719 (2013) 1

13. Lin, T., Maire, M., Belongie, S.J., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C.L.: Microsoft COCO: Common objects in context. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 740–755. Zurich, Switzerland (2014) 2

14. Mourikis, A.I., Roumeliotis, S.I.: A multi-state constraint Kalman filter for visionaided inertial navigation. In: Proceedings of the International Conference on Robotics and Automation (ICRA). pp. 3565–3572. Rome, Italy (2007) 1

15. Mur-Artal, R., Tardós, J.D.: ORB-SLAM2: An open-source SLAM system for monocular, stereo and RGB-D cameras. IEEE Transactions on Robotics 33(5), 1255–1262 (2017) 12

16. Mur-Artal, R., Tardós, J.D.: Visual-inertial monocular SLAM with map reuse. Robotics and Automation Letters 2(2), 796–803 (2017) 1

17. Nikolic, J., Rehder, J., Burri, M., Gohl, P., Leutenegger, S., Furgale, P.T., Siegwart,R.: A synchronized visual-inertial sensor system with FPGA pre-processing for accurate real-time SLAM. In: Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). pp. 431–437. Hong-Kong, China (2014) 5

18. Pfrommer, B., Sanket, N., Daniilidis, K., Cleveland, J.: PennCOSYVIO: A challenging visual inertial odometry benchmark. In: Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). pp. 3847–3854. Singapore (2017) 4, 5

19. Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A., Fei-Fei, L.: ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV) 115(3), 211–252 (2015) 2

20. Schneider, T., Dymczyk, M.T., Fehr, M., Egger, K., Lynen, S., Gilitschenski, I.,Siegwart, R.: Maplab: An open framework for research in visual-inertial mapping and localization. IEEE Robotics and Automation Letters 3(3), 1418–1425 (2018) 12

21. Schöps, T., Engel, J., Cremers, D.: Semi-dense visual odometry for AR on a smartphone. In: Proceedings of the International Symposium on Mixed and Augmented Reality (ISMAR). pp. 145–150 (2014) 1

22. Shelley, M.A.: Monocular Visual Inertial Odometry on a Mobile Device. Master’s thesis, Technical University of Munich, Germany (2014) 13

23. Smith, M., Baldwin, I., Churchill, W., Paul, R., Newman, P.: The New College vision and laser data set. International Journal of Robotics Research 28(5), 595– 599 (2009) 4

24. Solin, A., Cortes, S., Rahtu, E., Kannala, J.: Inertial odometry on handheld smartphones. In: Proceedings of the International Conference on Information Fusion (FUSION). Cambridge, UK (2018) 3, 5, 8, 9

25. Solin, A., Cortes, S., Rahtu, E., Kannala, J.: PIVO: Probabilistic inertial-visual odometry for occlusion-robust navigation. In: Proceeding of the IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Tahoe, NV, USA (2018) 3, 5, 12

26. Sturm, J., Engelhard, N., Endres, F., Burgard, W., Cremers, D.: A benchmark for the evaluation of RGB-D SLAM systems. In: Proceedings of the International Conference on Intelligent Robot Systems (IROS). pp. 573–580 (2012) 4

補充材料

A Description of supplementary video

所附的補充視訊顯示了資料集序列16的真值軌跡(在這兩幢辦公樓中的一幢採集)。視覺化軌跡是從整個IMU資料序列中計算出的真值軌跡。用於軌跡計算的固定點由dots視覺化。當前地板上的軌道顯示為紅色。視訊已被加速。

B Details on collected data

B.1 Ground-truth

Ground-truth poses:根據原始的IMU資料和一組已知的固定點計算相機的姿態(平移和方位)。在100 Hz處取樣真值軌跡。

Fix points:一組以視覺編輯為標誌的真值點。這些要點是基於系統儲存的三個視訊(主要是iphone和第二部iphone，其中記錄了記錄捕獲者的參考軌跡)和平面圖佈局。

B.2 iPhone

Camera frames:相機幀在60fps(1280*720，縱向)時被捕獲。平臺獲取的準確幀採集時間被儲存。這些幀被打包到一個H.264/MPEG-4視訊檔案中。

Platform location: 通過核心定位收集的資料。更新速度取決於裝置及其功能。所要求的位置具有所需的kCLLocationAccuracyBest。將時間戳轉換為與其他感測器相同的時鐘(自裝置啟動以來的時間間隔)。

Accelerometer: 通過CoreMotion/CMMotionManager採集，100Hz（最大采集速率）

Gyroscope: 通過CoreMotion/CMMotionManager採集，100Hz（最大采集速率），請注意，讀數在蘋果裝置座標系中(這裡沒有任何改變)。

Magnetometer: 通過CoreMotion/CMMotionManager採集，100Hz（最大采集速率），值是三軸磁強計的讀數。所有的數值都是未校準的。

Barometric altimeter: CoreMotion/CMAltimeter採集，以不均勻的取樣率(1Hz)獲取的。取樣資料回撥到達時被儲存。實際氣壓值為0，推斷的相對高度(用蘋果magic計算)儲存在Value 1中。

ARKit poses: 蘋果ARKit的位姿(平移和旋轉)是在60Hz採集的。ARKit在iPhone上報告的相機引數也被儲存在iPhone上。

B.3 Tango

Tango poses (raw): 谷歌Tango原始姿態（平移和旋轉）在60Hz捕獲。

Tango poses (area learning): 60Hz。

Camera frames: 視訊從Tango廣角(魚眼)攝像機上在5 fps/640*480捕獲。這些幀被打包成一個MPEG-4視訊檔案。

Tango point clouds: Tango裝置採集的 Tango點雲資料，與裝置的當前姿態對齊。取樣率不均勻。

B.4 Pixel

ARCore poses: The Google ARCore poses (translation and orientation) are captured at 30 Hz.

C Dataset structure

為了最大限度地相容，所有資料都以開放和簡單的檔案格式釋出。逗號分隔值（CSV）檔案在第一列中儲存時間戳，並在後面的列中儲存相應的資料。所有時間戳在感測器型別和裝置之間同步。

攝像機幀儲存為H.264/MPEG視訊，相關的幀時間戳可在單獨的CSV檔案中使用。一個數據集的資料夾結構如下所示：

E Data set paths

下表列出了每個路徑形狀(頂部/側面檢視)和彙總資訊。