1. 程式人生 > >Constructing Category-Specific Models for Monocular Object-SLAM(閱讀筆記)

Constructing Category-Specific Models for Monocular Object-SLAM(閱讀筆記)

Constructing Category-Specific Models for Monocular Object-SLAM 1 摘要 摘要 - 我們提出了一種用單目相機進行實時面向物件SLAM的新範例。與先前依賴於物件級模型的方法相反,我們從CAD集合構建類別級模型,這些模型現在可廣泛使用。為了減少對大量標記資料的需求,我們開發了一種渲染途徑,可以從有限數量的手動標記資料中合成大型資料集。使用這樣合成的資料,我們學習3D中物件變形的類別級模型,以及2D中的判別物件特徵。這些類別模型與例項無關,有助於設計物件標誌 ,可以納入通用單眼SLAM框架的觀察結果。在典型的物體-SLAM方法通常僅解決物體和相機姿勢的情況下,我們還可以即時估計物體形狀,允許來自該類別的各種物體存在於場景中。此外,由於我們的2D物件特徵是有區別地學習的,因此所提出的物件-SLAM系統在幾種情況下成功 由於功能或視差不足導致基於稀疏特徵的單眼SLAM失敗。此外,建議的類別模型有助於物件例項檢索,對增強現實(AR)應用程式很有用。我們在多個具有挑戰性的真實場景中評估所提出的框架,並且據我們所知,展示獨立於例項的單眼物件-SLAM系統的第一個結果以及它對基於特徵的SLAM方法的好處 2 引言

同時進行定位和地圖構建(SLAM)已經被發現各種實際應用,如自主導航,視覺檢測,測繪和監視。 單目相機已經發展成為SLAM的流行選擇,特別是在手持裝置和微型飛行器(MAV)等平臺上。 大多數最先進的單眼SLAM系統[1]對幾何圖元(如點,線和平面貼片)進行操作。 其他則直接在影象上操作,而不需要昂貴的特徵提取步驟[2]。 然而,這兩組方法都缺乏提供場景的豐富語義描述的能力。 識別並跟蹤場景中的物件將使機器人能夠構建有意義的地圖和場景說明。 Object-SLAM是一個相對較新的範例實現這一目標,[3]-[5]。總而言之,物件-SLAM試圖用擴充SLAM物件資訊使機器人定位,物件定位估計(在某些情況下,也是物件姿態估計),和對映是在統一的框架中實現的。 在物件SLAM研究中有兩種主要範例,取決於SLAM框架中物件的表徵方式。在第一個範例[4],[6]中,假設物件級別(特定於例項)的模型可以預先獲得。然而,具有尺度模糊性的單眼SLAM的性質以及由於投影到影象平面上而導致的資訊損失使得這種範例對於單眼物體-SLAM系統是不可行的。第二種正規化[7],[8]假設一個通用模型,無論物件類別如何。例如,[8]將所有物件建模為橢球,[5],[9]將所有物件建模為長方體。這兩種方法都有一些缺點。依賴物件級模型將導致需要精確物件類別的所有例項的物件模型。另一方面,通用模型不會提供有關物件類別標籤之外的物件的大量資訊。例如,例如操縱的應用程式,知道物件姿勢是有利的。 在本文中,我們提出了一種新的單眼物件SLAM模式,它結合了兩個世界中最好的世界。 為了享受特定於例項的模型的表達能力,同時保留通用模型的簡單性,我們構建了特定於類別的模型,即,物件類別被建模為整體。 我們使用廣泛使用的線性子空間模型來表徵一個物件類別,並將物件觀察定義為SLAM因子圖中的因子[13],[14]。 在我們的object-SLAM公式中,我們不假設任何關於物件的例項(可互換地稱為形狀)的知識。 相反,我們明確地在聯合公式中求解物件形狀。 object-SLAM後端估計機器人軌跡和地圖,以及場景中所有物件的姿勢和形狀。 當然,人們會期望需要大量資料來學習特定於類別的模型,這些模型可以很好地概括物件例項,這是正確的。 ShapeNet,SceneNet,ObjectNet等資料集已經提供了各種物件類別的CAD集合。我們利用此類CAD集合的現成可用性來構建我們的類別模型。這些類別模型捕獲3D中物件的變形模式。相應地,我們利用最近成功的卷積神經網路(CNN)進行關鍵點定位[10],[15] - [17]來訓練2D物件特徵提取器。為了減少對大量手動註釋的訓練資料的需求,我們設計了一個渲染管道,沿著RenderForCNN [18]的路線,為類別模型學習合成了大量的訓練資料。所呈現的渲染管線接收少量的手動註釋資料,併合成可用於有效訓練2D物件特徵提取網路的大資料集。我們表明,與僅通過真實資料學習的特徵檢測器相比,從渲染管道中學習的特徵檢測器更精確,這證實了[18]中的主張。 我們在多個具有挑戰性的真實世界序列上評估我們的物件-SLAM系統,並在我們所知的情況下呈現例項獨立的第一步在單眼物件-SLAM中。 由於我們在物體上使用有區別的2D特徵,因此我們的系統對於諸如強旋轉的條件是穩健的,在這方面單眼SLAM方法通常面臨災難性故障。 我們提供了物件SLAM管道的增量版本和批量版本,並在基於特徵的可視SLAM方法上定性和定量地展示了它的優勢[1]。 最後,我們展示了使用我們的類別級模型,可以執行物件例項檢索,這可以在許多增強現實(AR)應用程式中用於覆蓋場景中的物件模型。 圖1說明了我們管道的輸出。 物體始終嵌入到機器人的軌跡中,並渲染其3D模型。 3 相關工作
幾乎所有最先進的SLAM系統[1],[2],[19]都依賴於姿勢圖(或其他因子圖)優化[20],[21]。 在本節中,我們將回顧有關物件SLAM的相關工作, 並概述其中的某些限制,這些限制構成了所提議方法的激勵因素。

  • A object-SLAM 隨著SLAM系統的最新進展和隨後的穩定,社群一直致力於將物件納入SLAM框架。對此,已經提出了面向物件SLAM的一些最新方法[3] - [5],[7] - [9]。 這些成果大多依賴於RGBD或立體聲感測器的深度資訊[4] - [7]。在[4],[6]中,假設物件的例項級模型是先驗已知的。在[4]中,將實時3D物件檢測演算法應用於RGB-D影象流,並且這些物件與姿勢圖優化方案中的測距資訊一起融合。類似地在[6]中,提出了一種用於多機器人物件-SLAM的框架。同樣,每個機器人都配備了RGB-D感測器,並且可以先驗地獲得物體模型。 還有另一種範例,其中沒有先驗可用的例項級模型。在[5]中,在因子圖框架中聯合求解關聯和物件姿勢,使用RGB-D相機的資料。在單眼物件SLAM / SfM方法中,[8],[9]屬於這種正規化。在這種方法中,物件被建模為邊界框[7],[9]或橢圓體[8]。 因此,我們的方法屬於第三種正規化,假設是類別模型,而不是例項級模型。
  • B object-category model 在過去的幾年中,物件類模型已經應用於單眼視覺中的幾個問題。 在[10] - [12]中,採用類別級模型從單個影象中獲得物件重建。 這些方法表明,單眼成像過程中的資訊損失可以通過整合屬於特定類別的物體形狀的先驗資訊進行補償。 我們使用這些類別模型並利用它們來設計可以輕鬆合併到單眼SLAM中的物件觀察因子,並且還可以從類別中對多個例項進行概括,而無需對類別中的所有可能例項進行建模。
  • C keypoint localization using CNNS 卷積神經網路(CNNs)是目標檢測[22],[23]和物件關鍵點定位[15] - [17],[24]最近進展的驅動因素。 當在GPU上執行時,這些CNN能夠處理延遲大約100-300毫秒的影象幀,並形成我們管道的重要元件。
  • D Render Pipelines for Data Synthesis(對合成資料進行渲染的管道) 隨著[25]等CAD模型集的出現,3D資料現已大量湧現。 在[18]中,提出了在手動註釋的真實影象上使用渲染引擎的合成影象作為訓練的替代方案。 被訓練用於對渲染資料進行物件視點預測任務的模型(隨後在包括真實資料的較小資料集上進行微調)被證明優於僅在(較大的)真實資料集上訓練的模型。 我們的實驗也證實了這一事實物件關鍵點預測的任務。 我們基於這裡描述的幾個元件構建,但是我們設計輸出以建立物件因子,這些因子可以增加到使用單眼SLAM方法構建的因子圖[13]。 整個管道總結在圖2中,並在隨後的章節中進行了解釋。 在這裡插入圖片描述