1. 程式人生 > >深度學習結合SLAM的研究思路/成果整理之(二)語義SLAM & 端到端

深度學習結合SLAM的研究思路/成果整理之(二)語義SLAM & 端到端

續上一篇

1.2.2 在傳統SLAM之上加入語義資訊

影象語義分割&語義地圖構建

  • 單目SLAM的半稠密語義建圖
    (LSD-SLAM,室內外場景)
    摘要:
    將計算機視覺中的幾何與影象相結合,已經被證明是機器人在各種各樣的應用中的一種很有發展前景的解決方案。stereo相機和RGBD感測器被廣泛用於實現快速三維重建和密集軌跡跟蹤。然而,它們缺乏不同規模環境無縫切換的靈活性,比如說,室內和室外場景。此外, 在三維建圖中,語義資訊仍然很難獲取。我們通過結合state-of-art的深度學習方法和半稠密的基於單目相機視訊流的SLAM,應對此種挑戰。在我們的方法中,二維的語義資訊,結合了有空間一致性的相連關鍵幀之間的correspondence對應關係之後,再進行三維建圖。在這裡並不需要對一個序列裡的每一個關鍵幀進行語義分割,所以計算時間相對合理。我們在室內室外資料集上評測了我們的方法,在通過baseline single frame prediction基準單幀預測實現二維語義標註方面取得了效果的提升。
    這裡寫圖片描述

    基本框架圖如下:
    輸入RGB影象->選擇關鍵幀並refine->2D語義分割->3D重建,語義優化
    這裡寫圖片描述


  • 這個題目怎麼翻譯是好?面向物件語義建圖的有意義地圖
    (輸入:RGB-D影象 SSD ORB-SLAM2)
    摘要:
    智慧機器人必須理解它們周圍場景的幾何和語義兩方面的特性,才能跟環境進行有意義地互動。到目前為止,大多數研究已經分別解決了這兩個建圖問題,側重於幾何資訊建圖或者是語義資訊建圖。在本文中我們解決了,既包含有語義意義和物件級別的實體,也包含基於點或網格的幾何表示的環境地圖構建的問題。我們同時也對已知物件類別中看不到的例項建立了幾何點雲模型,並建立了以這些物件模型為中心實體的地圖。我們的系統利用了稀疏的基於特徵的RGB-D SLAM,基於影象的深度學習目標檢測方法和三維無監督的分割方法。
    基本框架圖如下:
    輸入RGB-D影象 -> ORB-SLAM2應用於每一幀,SSD(Single Shot MultiBox Detector)用於每一個關鍵幀進行目標檢測,3D無監督分割方法對於每一個檢測結果生成一個3D點雲分割 -> 使用類似ICP的匹配值方法進行資料關聯,以決定是否在地圖中建立新的物件或者跟已有物件建立檢測上的關聯 -> 地圖物件的3D模型(3D點雲分割,指向ORB-SLAM2中位姿圖的指標,對每個類別的累計置信度)
    這裡寫圖片描述

  • 基於RGB-D相機和多視角深度學習的一致語義建圖
    (NYUDv2資料集 )
    摘要:
    視覺場景理解是使機器人能夠在環境中進行有目的的行動的一項重要的能力。本文中,我們提出了一種新型的深度神經網路方法以在RGB-D影象序列中進行語義分割。主要的創新點在於用一種自監督的方式訓練我們的網路用於預測多視角一致的語義資訊。在測試時,此網路的基於語義關鍵幀地圖的語義預測,相比單視角圖片訓練出來的網路上的語義預測,融合的一致性更高。我們的網路架構基於最新的用於RGB和深度影象融合的單視角深度學習方法來進行語義風格,並且通過多尺度誤差最小化優化了這一方法的效果。我們使用RGB-D SLAM得到相機軌跡,並且將RGB-D影象的預測扭曲成ground-truth的標註過的幀,以在訓練期間提高多視角的一致性。(不是很理解)(We obtain the camera trajectory using RGB-D SLAM and warp the predictions of RGB-D images into ground-truth annotated frames in order to enforce multi-view consistency during training.)在測試時,多視角的預測被融合到關鍵幀當中去。我們提出並分析了在訓練和測試過程中提高多視角一致性的方法。我們評價了多視角一致性訓練的優點,並指出,深度特徵的池化和多視角的融合,能夠提升基於NYUDv2資料集評價指標的語義分割的效能。我們端到端方式訓練的網路,在單視角分割和多視角語義融合方面,都取得了在NYUDv2資料集下,state-of-art的效果。

注:NYUDv2資料集 資料集下載連結
用於室內場景語義分割的RGB-D影象資料集,來自Kinect,1449對已標註的RGB-Depth影象,40萬張未標註影象。
這裡寫圖片描述


  • 語義融合:使用CNN的稠密3D語義建圖
    (NYUDv2資料集 室內場景 實時 )
    摘要:
    使用視覺感測進行更魯棒,更準確和細節更豐富的建圖,已經被證明有利於機器人在各種各樣應用中的運用。在接下來的機器人智慧和直觀的使用者互動中,地圖需要擴充套件幾何和外觀資訊–它們需要包含語義資訊。我們使用卷積神經網路CNNs和state-of-the-art的稠密SLAM系統,以及提供了即使在多圈掃描軌跡時,也能得到室內RGB-D視訊中幀間的長期稠密correspondence對應關係的ElasticFusion來解決這一問題。這些對應關係使得CNN的多視角語義預測,概率上融合到地圖中去。此方法不僅能夠生成有效的語義3D地圖,也表明在NYUv2資料集上,融合多個預測能夠提升預測效能,即使是基於基準單幀預測的2D語義標註。同時我們也證明在預測視角變化更多,重建資料集更小時,單幀分割的效能會進一步得到提升。我們的系統能夠在實時的情況下有互動地使用,幀率能達到~25HZ。
    這裡寫圖片描述
    這裡寫圖片描述

  • 語義SLAM的概率資料關聯
    (KITTI資料集 ORB-SLAM2 數學公式多 室內外場景 實時 暫未開源)
    摘要:
    傳統的SLAM方法多依賴於低級別的幾何特徵:點線面等。這些方法不能給環境中觀察到的地標新增語義標籤。並且,基於低階特徵的閉環檢測依賴於視角,並且在有歧義和或重複的環境中會失效。另一方面,目標識別方法可以推斷出地標的型別和尺度,建議一個小而簡單的可識別的地標集合,以用於視角無關的無歧義閉環。在同一類物體有多個的地圖中,有一個很關鍵的資料關聯問題。當資料關聯和識別是離散問題時,通常可以通過離散的推斷方法來解決,傳統SLAM會對度量資訊進行連續優化。本文中,我們將感測器狀態和語義地標位置的優化問題公式化,其中語義地標位置中集成了度量資訊,語義資訊和資料關聯資訊,然後我們由將這個優化問題分解為相互關聯的兩部分:離散資料關聯和地標類別概率的估計問題,以及對度量狀態的連續優化問題。估計的地標和機器人位姿會影響到資料關聯和類別分佈,資料關聯和類別分佈也會反過來影響機器人-地標位姿優化。我們的演算法效能在室內和室外資料集上進行了檢驗論證。
    這裡寫圖片描述

1.2.3 端到端SLAM


  • 使用DRL深度加強學習實現機器人自主導航
    摘要:
    深度強化學習中有兩個較少被提及的問題:1. 對於新的目標泛化能力不足,2. 資料低效,比如說,模型需要幾個(通常開銷較大)試驗和誤差集合,使得其應用於真實世界場景時並不實用。 在這篇文章中,我們解決了這兩個問題,並將我們的模型應用於目標驅動的視覺導航中。為了解決第一個問題,我們提出了一個actor-critic演員評論家模型,它的策略是目標函式以及當前狀態,能夠更好地泛化。為了解決第二個問題,我們提出了 AI2-THOR框架,它提供了一個有高質量的3D場景和物理引擎的環境。我們的框架使得agent智慧體能夠採取行動並和物件之間進行互動。因此,我們可以高效地收集大量訓練樣本。我們提出的方法 1)比state-of-the-art的深度強化學習方法收斂地更快,2)可以跨目標跨場景泛化,3)通過少許微調就可以泛化到真實機器人場景中(儘管模型是在模擬中訓練的)4)不需要特徵工程,幀間的特徵匹配和對於環境的特徵重建,是可以端到端訓練的。
    視訊連結
    https://youtu.be/SmBxMDiOrvs
    這裡寫圖片描述

  • 用於視覺導航的感知建圖和規劃
    摘要:
    我們提出了一個用於在陌生環境中導航的神經網路結構。我們提出的這個結構以第一視角進行建圖,並面向環境中的目標進行路徑規劃。 The Cognitive Mapper
    and Planner (CMP)主要依託於兩個觀點:1.一個用於建圖和規劃的統一的聯合架構中,建圖由規劃的需求所驅動的。2. 引入空間記憶,使得能夠在一個並不完整的觀察集合的基礎之上進行規劃。CMP構建了一個自上而下的belief map置信地圖,並且應用了一個可微的神經網路規劃器,在每一個時間步驟中決策下一步的行動。對環境積累的置信度使得可以追蹤已被觀察到的區域。我們的實驗表明CMP的效能優於reactive strategies反應性策略 和standard memory-based architectures 標準的基於記憶的體系結構 兩種方法,並且在陌生環境中表現良好。另外,CMP也可以完成特定的語義目標,比如說“go to a chair”到椅子那兒去。
    這裡寫圖片描述
    圖1:整個網路的架構:我們學習的導航網路由構圖和規劃模組組成。構圖模組負責將環境資訊引入到空間記憶中去,空間記憶對應於一個以自身為中心的環境地圖。規劃器使用這樣的空間記憶與導航目標一起輸出導航行為。構圖模組沒有明顯的監督機制,而是在學習過程中自然地呈現出來。
    谷歌大法好~ 程式碼,模型,演示視訊連結 https://sites.google.com/view/cognitive-mapping-and-planning/

1.3 研究現狀總結

用深度學習方法替換傳統slam中的一個/幾個模組:
目前還不能達到超越傳統方法的效果,相較傳統SLAM並沒有很明顯的優勢(標註的資料集少且不全,使用視訊做訓練資料的非常少。SLAM中很多問題都是數學問題,深度學習並不擅長等等原因)。

在傳統SLAM之上加入語義資訊
語義SLAM算是在擴充套件了傳統SLAM問題的研究內容,現在出現了一些將語義資訊整合到SLAM的研究,比如說用SLAM系統中得到的影象之間的幾何一致性促進影象語義分割,也可以用語義分割/建圖的結果促進SLAM的定位/閉環等,前者已經有了一些研究,不過還是集中於室內場景,後者貌似還沒有什麼相關研究。如果SLAM和語義分割能夠相互促進相輔相成,應該能達到好的效果。

另:使用SLAM幫助構建大規模的影象之間有對應關係的資料集,可以降低深度學習資料集的標註難度吧,應該也是一個SLAM助力深度學習的思路。

端到端SLAM