1. 程式人生 > >[論文解讀]Multi-View 3D Object Detection Network for Autonomous Driving

[論文解讀]Multi-View 3D Object Detection Network for Autonomous Driving

問題引入

在無人駕駛場景中,物體的3D檢測(或者說是bounding-box)的重要性不言而喻。從2D檢測到3D檢測,主要的難點是提取深度資訊,因此總體上可以將其分為四種,分別為:

  • 基於單目影象(Mono)
  • 基於雙目影象(Stereo)
  • 基於雷達(LIDAR)
  • 基於融合網路

這篇論文就是一篇較為出色的融合網路的範例。後期和清華的老師溝通得知,這篇論文的演算法正在被產業化,因此原始碼在一段時間內不會透露,可以就相關問題進行溝通。

但是該論文的很多思想以及嘗試的實現程式碼還是有很多值得學習的地方的。

接下來說一下這篇文章的性質: 這是一篇將雷達點雲與單目視覺融合來進行的3D bounding-box提取。

關於突出貢獻什麼的,個人覺得最大的一點就是將雷達點雲資訊與單目影象資訊結合起來了,同時這種結合還保證了其速度與精度。關於其能夠達到如此好的效果的原因,將在之後的文章中進行深入的分析。

總體結構

老規矩,瞭解一篇文章首先了解其總體的架構:

這裡寫圖片描述

首先將雷達輸入的3D點雲投影到俯檢視和鳥瞰圖,接著用鳥瞰圖通過卷積網路以及3D bounding-box迴歸之後生成低精度的3D proposal,然後將此3D proposal投影到俯檢視,鳥瞰圖和單目影象,通過一個融合網路,最後將其通過多工損失函式進行訓練。

實驗結果

實驗結果直接放圖:

這裡寫圖片描述

這裡寫圖片描述

這裡寫圖片描述

總結

該文章分析了MV3D實現的總體框架以及其當前的主要優勢,由於對某些部分的實現暫時沒有完全弄懂,同時處於整個框架的設計較為複雜,因此關於網路設計實現以及測試部分的內容將在後續的文章中進行分析。

參考文獻