[論文解讀]Multi-View 3D Object Detection Network for Autonomous Driving

阿新 • • 發佈：2019-01-09

問題引入

在無人駕駛場景中，物體的3D檢測(或者說是bounding-box)的重要性不言而喻。從2D檢測到3D檢測，主要的難點是提取深度資訊，因此總體上可以將其分為四種，分別為：

基於單目影象(Mono)
基於雙目影象(Stereo)
基於雷達(LIDAR)
基於融合網路

這篇論文就是一篇較為出色的融合網路的範例。後期和清華的老師溝通得知，這篇論文的演算法正在被產業化，因此原始碼在一段時間內不會透露，可以就相關問題進行溝通。

但是該論文的很多思想以及嘗試的實現程式碼還是有很多值得學習的地方的。

接下來說一下這篇文章的性質: 這是一篇將雷達點雲與單目視覺融合來進行的3D bounding-box提取。

關於突出貢獻什麼的，個人覺得最大的一點就是將雷達點雲資訊與單目影象資訊結合起來了，同時這種結合還保證了其速度與精度。關於其能夠達到如此好的效果的原因，將在之後的文章中進行深入的分析。

總體結構

老規矩，瞭解一篇文章首先了解其總體的架構：

這裡寫圖片描述

首先將雷達輸入的3D點雲投影到俯檢視和鳥瞰圖，接著用鳥瞰圖通過卷積網路以及3D bounding-box迴歸之後生成低精度的3D proposal，然後將此3D proposal投影到俯檢視，鳥瞰圖和單目影象，通過一個融合網路，最後將其通過多工損失函式進行訓練。

實驗結果

實驗結果直接放圖：

這裡寫圖片描述

總結

該文章分析了MV3D實現的總體框架以及其當前的主要優勢，由於對某些部分的實現暫時沒有完全弄懂，同時處於整個框架的設計較為複雜，因此關於網路設計實現以及測試部分的內容將在後續的文章中進行分析。

參考文獻

[論文解讀]Multi-View 3D Object Detection Network for Autonomous Driving

問題引入在無人駕駛場景中，物體的3D檢測(或者說是bounding-box)的重要性不言而喻。從2D檢測到3D檢測，主要的難點是提取深度資訊，因此總體上可以將其分為四種，分別為：基於單目影象(Mono) 基於雙目影象(Stereo) 基於雷達(LIDA

MODNet-Motion and Appearance based Moving Object Detection Network for Autonomous Driving

相關連線解決問題獲得兩種結果，一個是區分運動前景和靜態背景的mask，另外一個是檢測所有車輛的bounding boxes，並且區分主要貢獻 MODNet 一個雙流的多工學習框架，兩個VGG16的編碼網路，分別提取RGB影象和稠密光流影象的特徵，

論文解讀之MemNet: A Persistent Memory Network for Image Restoration

論文名稱：MemNet: A Persistent Memory Network for Image Restoration 作用領域：影象修復（去噪，超解析度） code：https://githu

[論文筆記]Real-Time* Multiple Object Tracking (MOT) for Autonomous Navigation

論文地址：http://cs231n.stanford.edu/reports/2017/pdfs/630.pdf1、摘要本文提出了一種實時的多目標跟蹤演算法multiple object tracker (MOT)。先用Faster R-CNN進行檢測，

MSCNN論文解讀-A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

多尺度深度卷積神經網路進行快速目標檢測：兩階段目標檢測器，與faster-rcnn相似，分為an object proposal network and an accurate detection network. 文章主要解決的是目標大小不一致的問題，尤其是對小目標的檢測，通過多

《Stereo R-CNN based 3D Object Detection for Autonomous Driving》論文解讀

論文連結：https://arxiv.org/pdf/1902.09738v2.pdf 這兩個月忙著做實驗部落格都有些荒廢了，寫篇用於3D檢測的論文解讀吧，有理解錯誤的地方，煩請有心人指正）。部落格原作者Missouter，部落格園連結https://www.cnblogs.com/missouter/，

《Frustum PointNets for 3D Object Detection from RGB-D Data》論文及程式碼學習（二）程式碼部分

《Frustum PointNets for 3D Object Detection from RGB-D Data》論文及程式碼學習（二）程式碼部分文章目錄《Frustum PointNets for 3D Object Detection from RG

《Frustum PointNets for 3D Object Detection from RGB-D Data》論文及程式碼學習

《Frustum PointNets for 3D Object Detection from RGB-D Data》論文及程式碼學習《Frustum PointNets for 3D Object Detection from RGB-D Data》一文是Charles R.Qi

RefineDet論文閱讀：Single-Shot Refinement Neural Network for Object Detection

裁剪部分損失函數過程 bject sin 關聯增加問題摘要 RefineDet是CVPR 2018的一篇論文，文中提出了一個新的single-shot檢測器RefineDet，實現了比二階段方法更高的準確率而且具有與一階段方法相當的效率。RefineDet包括兩

論文解讀：記憶網路（Memory Network）

在瞭解vqa問題的論文時，發現有很多論文采用了記憶網路的思路，模擬推理過程，這篇文章主要總結關於記憶網路的三篇經典論文，目的是對記憶網路有個認識。分別是： MEMORY NETWORKS，End-To-End Memory Networks，Ask Me Anything: Dynami

論文閱讀筆記《Gated Context Aggregation Network for Image Dehazing and Deraining》WACV19

輸出每一個為什麽作用導致作者 ont 而不是簡單的目錄：相關鏈接方法亮點方法細節實驗結果總結與收獲相關鏈接：論文：https://arxiv.org/abs/1811.08747 源碼：暫無方法亮點：提出端到端的去霧網絡，不

論文解讀：A Focused Dynamic Attention Model for Visual Question Answering

這是關於VQA問題的第四篇系列文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：A Focused Dynamic Attention Model for Visual Question Answering。 1，主要思想： Focused Dynami

論文解讀：Where To Look: Focus Regions for Visual Question Answering

可能要很久時間開始關注vqa問題，vqa問題就是影象的問答問題，即對影象提問，併產生答案。關於影象問答綜述性文章推薦：Visual Question Answering: Datasets, Algorithms, and Future Challenges。今天開始可能要跟大家分析關於

How To Train an Object Detection Classifier for Multiple Objects Using TensorFlow (GPU) on Windows10

本文主要是記錄和簡義這個github專案的練習裝置windows10 tensorflow1.10.0 原文github：點這裡偶然發現的和我類似的文章還沒看點這裡首先我們知道，tensorflow官方是有一個物體檢測的API介面的。而我們今天要練習的專案就

論文筆記：DRAW: A Recurrent Neural Network For Image Generation

DRAW: A Recurrent Neural Network For Image Generation 2019-01-14 19:42:50 Paper：http://proceedings.mlr.press/v37/gregor15.pdf 本文將 V

Stereo Vision-based Semantic 3D Object and Ego-motion Tracking for Autonomous Driving

Peiliang Li、Tong Qin、沈劭劼香港科技大學摘要我們提出一種基於立體相機的方法來追蹤複雜自動駕駛環境中相機的運動和3D語義物件。取代了直接還原3D立體輪廓的端到端方法，我們提出使用簡易標記的2D檢測和離散視點分類與一個輕量級的語義推斷方法一

【論文閱讀】Learning a Deep Convolutional Network for Image Super-Resolution

開發十年，就只剩下這套架構體系了！ >>>

[ 論文閱讀 ] [ 2018 KDD ] [ 42 ] Deep Interest Network for Click-Through Rate Prediction

進行 through lan 數據博客 cti 業界點擊 red 這個博客的目的是串一下阿裏的一篇利用神經網絡進行點擊率預估的文章。作者提出了DIN (Deep Interest Network) 網絡, 對點擊的提升較大。特征工程工業界的數據一般長成categ

《3D Object Proposals using Stereo Imagery for Accurate Object Class Detection》論文解讀

由於前段時間閱讀了大量有關自動駕駛與視覺感知（重點是3D Detection與深度學習的結合）的論文，我打算近期以部落格的形式對這些論文進行總結，一是能夠梳理思路，二是能夠分析出該領域的研究趨勢。在解讀這篇論文之前，我大致介紹一下該領域近幾年的研究動態以及國際

An Analysis of Scale Invariance in Object Detection – SNIP 論文解讀

記錄測試的 one zhang 不可策略 correct 抽象 alt 前言本來想按照慣例來一個overview的，結果看到一篇十分不錯而且詳細的介紹，因此copy過來，自己在前面大體總結一下論文，細節不做贅述，引用文章講得很詳細。論文概述引用文章以下內容來自：

[論文解讀]Multi-View 3D Object Detection Network for Autonomous Driving

問題引入

總體結構

實驗結果

總結

參考文獻

相關推薦