Constructing Category-Specific Models for Monocular Object-SLAM（閱讀筆記)

阿新 • • 發佈：2018-12-13

Constructing Category-Specific Models for Monocular Object-SLAM 1 摘要 摘要 - 我們提出了一種用單目相機進行實時面向物件SLAM的新範例。與先前依賴於物件級模型的方法相反，我們從CAD集合構建類別級模型，這些模型現在可廣泛使用。為了減少對大量標記資料的需求，我們開發了一種渲染途徑，可以從有限數量的手動標記資料中合成大型資料集。使用這樣合成的資料，我們學習3D中物件變形的類別級模型，以及2D中的判別物件特徵。這些類別模型與例項無關，有助於設計物件標誌，可以納入通用單眼SLAM框架的觀察結果。在典型的物體-SLAM方法通常僅解決物體和相機姿勢的情況下，我們還可以即時估計物體形狀，允許來自該類別的各種物體存在於場景中。此外，由於我們的2D物件特徵是有區別地學習的，因此所提出的物件-SLAM系統在幾種情況下成功由於功能或視差不足導致基於稀疏特徵的單眼SLAM失敗。此外，建議的類別模型有助於物件例項檢索，對增強現實（AR）應用程式很有用。我們在多個具有挑戰性的真實場景中評估所提出的框架，並且據我們所知，展示獨立於例項的單眼物件-SLAM系統的第一個結果以及它對基於特徵的SLAM方法的好處 2 引言

同時進行定位和地圖構建（SLAM）已經被發現各種實際應用，如自主導航，視覺檢測，測繪和監視。單目相機已經發展成為SLAM的流行選擇，特別是在手持裝置和微型飛行器（MAV）等平臺上。大多數最先進的單眼SLAM系統[1]對幾何圖元（如點，線和平面貼片）進行操作。其他則直接在影象上操作，而不需要昂貴的特徵提取步驟[2]。然而，這兩組方法都缺乏提供場景的豐富語義描述的能力。識別並跟蹤場景中的物件將使機器人能夠構建有意義的地圖和場景說明。 Object-SLAM是一個相對較新的範例實現這一目標，[3]-[5]。總而言之，物件-SLAM試圖用擴充SLAM物件資訊使機器人定位，物件定位估計（在某些情況下，也是物件姿態估計），和對映是在統一的框架中實現的。在物件SLAM研究中有兩種主要範例，取決於SLAM框架中物件的表徵方式。在第一個範例[4]，[6]中，假設物件級別（特定於例項）的模型可以預先獲得。然而，具有尺度模糊性的單眼SLAM的性質以及由於投影到影象平面上而導致的資訊損失使得這種範例對於單眼物體-SLAM系統是不可行的。第二種正規化[7]，[8]假設一個通用模型，無論物件類別如何。例如，[8]將所有物件建模為橢球，[5]，[9]將所有物件建模為長方體。這兩種方法都有一些缺點。依賴物件級模型將導致需要精確物件類別的所有例項的物件模型。另一方面，通用模型不會提供有關物件類別標籤之外的物件的大量資訊。例如，例如操縱的應用程式，知道物件姿勢是有利的。在本文中，我們提出了一種新的單眼物件SLAM模式，它結合了兩個世界中最好的世界。為了享受特定於例項的模型的表達能力，同時保留通用模型的簡單性，我們構建了特定於類別的模型，即，物件類別被建模為整體。我們使用廣泛使用的線性子空間模型來表徵一個物件類別，並將物件觀察定義為SLAM因子圖中的因子[13]，[14]。在我們的object-SLAM公式中，我們不假設任何關於物件的例項（可互換地稱為形狀）的知識。相反，我們明確地在聯合公式中求解物件形狀。 object-SLAM後端估計機器人軌跡和地圖，以及場景中所有物件的姿勢和形狀。當然，人們會期望需要大量資料來學習特定於類別的模型，這些模型可以很好地概括物件例項，這是正確的。 ShapeNet，SceneNet，ObjectNet等資料集已經提供了各種物件類別的CAD集合。我們利用此類CAD集合的現成可用性來構建我們的類別模型。這些類別模型捕獲3D中物件的變形模式。相應地，我們利用最近成功的卷積神經網路（CNN）進行關鍵點定位[10]，[15] - [17]來訓練2D物件特徵提取器。為了減少對大量手動註釋的訓練資料的需求，我們設計了一個渲染管道，沿著RenderForCNN [18]的路線，為類別模型學習合成了大量的訓練資料。所呈現的渲染管線接收少量的手動註釋資料，併合成可用於有效訓練2D物件特徵提取網路的大資料集。我們表明，與僅通過真實資料學習的特徵檢測器相比，從渲染管道中學習的特徵檢測器更精確，這證實了[18]中的主張。我們在多個具有挑戰性的真實世界序列上評估我們的物件-SLAM系統，並在我們所知的情況下呈現例項獨立的第一步在單眼物件-SLAM中。由於我們在物體上使用有區別的2D特徵，因此我們的系統對於諸如強旋轉的條件是穩健的，在這方面單眼SLAM方法通常面臨災難性故障。我們提供了物件SLAM管道的增量版本和批量版本，並在基於特徵的可視SLAM方法上定性和定量地展示了它的優勢[1]。最後，我們展示了使用我們的類別級模型，可以執行物件例項檢索，這可以在許多增強現實（AR）應用程式中用於覆蓋場景中的物件模型。圖1說明了我們管道的輸出。物體始終嵌入到機器人的軌跡中，並渲染其3D模型。 3 相關工作

幾乎所有最先進的SLAM系統[1]，[2]，[19]都依賴於姿勢圖（或其他因子圖）優化[20]，[21]。在本節中，我們將回顧有關物件SLAM的相關工作，並概述其中的某些限制，這些限制構成了所提議方法的激勵因素。

A object-SLAM 隨著SLAM系統的最新進展和隨後的穩定，社群一直致力於將物件納入SLAM框架。對此，已經提出了面向物件SLAM的一些最新方法[3] - [5]，[7] - [9]。這些成果大多依賴於RGBD或立體聲感測器的深度資訊[4] - [7]。在[4]，[6]中，假設物件的例項級模型是先驗已知的。在[4]中，將實時3D物件檢測演算法應用於RGB-D影象流，並且這些物件與姿勢圖優化方案中的測距資訊一起融合。類似地在[6]中，提出了一種用於多機器人物件-SLAM的框架。同樣，每個機器人都配備了RGB-D感測器，並且可以先驗地獲得物體模型。還有另一種範例，其中沒有先驗可用的例項級模型。在[5]中，在因子圖框架中聯合求解關聯和物件姿勢，使用RGB-D相機的資料。在單眼物件SLAM / SfM方法中，[8]，[9]屬於這種正規化。在這種方法中，物件被建模為邊界框[7]，[9]或橢圓體[8]。因此，我們的方法屬於第三種正規化，假設是類別模型，而不是例項級模型。

B object-category model 在過去的幾年中，物件類模型已經應用於單眼視覺中的幾個問題。在[10] - [12]中，採用類別級模型從單個影象中獲得物件重建。這些方法表明，單眼成像過程中的資訊損失可以通過整合屬於特定類別的物體形狀的先驗資訊進行補償。我們使用這些類別模型並利用它們來設計可以輕鬆合併到單眼SLAM中的物件觀察因子，並且還可以從類別中對多個例項進行概括，而無需對類別中的所有可能例項進行建模。
C keypoint localization using CNNS 卷積神經網路（CNNs）是目標檢測[22]，[23]和物件關鍵點定位[15] - [17]，[24]最近進展的驅動因素。當在GPU上執行時，這些CNN能夠處理延遲大約100-300毫秒的影象幀，並形成我們管道的重要元件。
D Render Pipelines for Data Synthesis(對合成資料進行渲染的管道) 隨著[25]等CAD模型集的出現，3D資料現已大量湧現。在[18]中，提出了在手動註釋的真實影象上使用渲染引擎的合成影象作為訓練的替代方案。被訓練用於對渲染資料進行物件視點預測任務的模型（隨後在包括真實資料的較小資料集上進行微調）被證明優於僅在（較大的）真實資料集上訓練的模型。我們的實驗也證實了這一事實物件關鍵點預測的任務。我們基於這裡描述的幾個元件構建，但是我們設計輸出以建立物件因子，這些因子可以增加到使用單眼SLAM方法構建的因子圖[13]。整個管道總結在圖2中，並在隨後的章節中進行了解釋。

Constructing Category-Specific Models for Monocular Object-SLAM（閱讀筆記)

Constructing Category-Specific Models for Monocular Object-SLAM 1 摘要摘要 - 我們提出了一種用單目相機進行實時面向物件SLAM的新範例。與先前依賴於物件級模型的方法相反，我們從CAD集合構建類

2017-06-Deep Network Flow for Multi-Object Tracking-論文閱讀筆記

摘要：資料關聯是很多計算機視覺應用的重要組成部分，多目標跟蹤就是其中的一個例子。典型的資料跟蹤方法是找到一個圖匹配方式或者一個網路流使得配對連線的代價最小，然而經常使用的是手工設計特徵或者固定特徵的線性函式。本文指出通過將優化問題表示為可微的函式反向傳播學習資料關聯的特徵是必要。本文用上述

論文閱讀：A Primer on Neural Network Models for Natural Language Processing（1）

選擇 works embed 負責距離 feature 結構 tran put 前言 2017.10.2博客園的第一篇文章，Mark。由於實驗室做的是NLP和醫療相關的內容，因此開始啃NLP這個硬骨頭，希望能學有所成。後續將關註知識圖譜，深度強化學習等內

Focal Loss for Dense Object Detection 論文閱讀

因此分類技術分享模型出發點 oss oca 圖片同時何凱明大佬 ICCV 2017 best student paper 作者提出focal loss的出發點也是希望one-stage detector可以達到two-stage detector的準確率，同時

10 Tips for Writing Better Code （閱讀理解）

存在 int 範圍 ide ready 有一個不清晰 and app 出發點 http://www.tuicool.com/articles/A7VrE33 閱讀中文版本《編寫質優代碼的十個技巧》，對於我編碼十年的經驗，也有相同感受，太多的坑趟過，太多的經歷走過，

《Macro-Micro Adversarial Network for Human Parsing》論文閱讀筆記

邊界分享圖片 strong 避免也有 ima 1.4 以及 potential 《Macro-Micro Adversarial Network for Human Parsing》摘要：在人體語義分割中，像素級別的分類損失在其低級局部不一致性和高級語義不一致性方面存

《Understanding Convolution for Semantic Segmentation》論文閱讀筆記

語義分割–Understand Convolution for Semantic Segmentation 動機 1. 編碼部分的問題對於編碼部分，空洞卷積由於其可以增大感受野、控制解析度從而消除了下采樣的需要。但是空洞卷積固有的問題就是gridd

Pairwise Confusion for Fine-Grained Visual Classification 閱讀筆記

1) 摘要儘管細粒度視覺分類資料集的樣本數量很少，但是卻存在著顯著的類內差異性和類別間相似性。然而，先前的工作通常採用定位或者分割來解決類內的差異性，但是，類別間相似性依然影響特徵的學習從而降低分類器的效能。針對這一問題，我們提出了一種可端到端驚醒訓練的新奇的優化方法--

Bitcask:A Log-Structured Hash Table for Fast Key/Value Data 閱讀筆記

一個Bitcask例項就是一個目錄，我們保證在一個時刻只有一個系統程序可以開啟Bitcask進行寫操作。在一個時刻，只有一個檔案是“active”的。當檔案達到一定的大小限制就會關閉，並建立一個新的“active”檔案。一旦一個檔案關閉了，就視為是不可變的，即不會再開啟來進行寫操作。

TAO: Facebook's Distributed Data Store for the Social Graph論文閱讀筆記

Several fundamental problems 在TAO之前，Facebook用的主要的快取系統就是Memcache，但是像Memcache這一類的lookaside cache（旁路快取系統）存在著一些問題： Inefficient edge

ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs（閱讀理解）

在卷積前進行attention，通過attention矩陣計算出相應句對的attentionfeature map，然後連同原來的featuremap一起輸入到卷積層。主要的原來是將輸入擴充套件成雙通道，新增的新通道就是通過Attention Matrix計算出來的attention feature map

ORB-SLAM2: an Open-Source SLAM System for Monocular, Stereo and RGB-D Cameras

1 摘要我們為單眼，立體和RGB-D相機提供完整的SLAM系統ORB-SLAM2，包括地圖重用，閉環檢測和重定位功能。該系統可在各種環境中的標準CPU中實時工作，從小型手持室內序列，到工業環境中飛行的無人機和城市周圍的汽車。我們的後端基於捆綁調整，具有單眼和

論文閱讀 <Relocalization, Global Optimization and Map Merging for Monocular Visual-Inertial SLAM>

看了一下港科的基於vins拓展的論文<relocalization, global optimization and merging for vins>,在迴環的實現部分總體沒有什麼變化,DBoW2 + PnPRANSAC + 4DOF pose graph，唯一的改動是在pnp前面加了個fund

【轉】論文閱讀（Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection）

數據大小 table 使用 con 改進包括 end 修改 Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection 目錄作者和相關鏈接方法概括創新點和貢獻方法細節實驗結果總結與收獲點參考文獻

Chapter3_Linear Models for Regression(討論課)

對數公式推導 ace 最小化 font 分布推導 image 關於討論課提綱：自我介紹簡單說一下回歸的主要問題，給定數據集，找出輸入和輸出之間的關系，對於一個新的輸入可以預測其輸出我們將從兩個角度來討論這個問題，一個是傳統的頻率學派，

論文筆記之：Collaborative Deep Reinforcement Learning for Joint Object Search

region format es2017 join sid col str bottom respond Collaborative Deep Reinforcement Learning for Joint Object Search CVPR 2017 Motiva

for in,Object.keys()與for of的區別

-o https map對象 tps 屬性 get for his ron for in for in一般用於遍歷對象的屬性；作用於數組的for in除了會遍歷數組元素外，還會遍歷自定義可枚舉的屬性，以及原型鏈上可枚舉的屬性；作用於數組的for in的遍歷結果是數組的

gatling壓力測試工具啟動gatling.bat命令行窗口報Error occurred during initialization of VM Could not reserve enough space for 1048576KB object heap錯誤解決方法

大於 spa ava color default class -xms 查看系統測試原因是：Java虛擬機（JVM）分配的內存大於系統可用內存數，所以沒有足夠的空間分配給JVM來創建Object 解決方法：編輯gatling.bat文件，查看系統剩余內存大小，修改分配的

for in,Object.keys()與for of的用法與區別

輸出結果例子 iter iterator style 內容通過結果 array Array.prototype.sayLength=function(){ console.log(this.length); } let arr = [‘a‘

Rich feature hierarchies for accurate object detection and semantic segmentation（理解）

0 - 背景　　該論文是2014年CVPR的經典論文，其提出的模型稱為R-CNN（Regions with Convolutional Neural Network Features），曾經是物體檢測領域的state-of-art模型。 1 - 相關知識補充 1.1 - Selective Searc

Constructing Category-Specific Models for Monocular Object-SLAM（閱讀筆記)

相關推薦