1. 程式人生 > >Computer Vision for Autonomous Vehicles: Problems, Datasets and State-of-the-Art

Computer Vision for Autonomous Vehicles: Problems, Datasets and State-of-the-Art

本文通過提供有關自動駕駛計算機視覺這一主題的最新調查。調查既包括最為相關的歷史資料,也包括識別、重建、運動估測、追蹤、場景理解以及端到端學習等當前最先進的專業主題。為了完成這一目標,首先通過分類學對每個方法進行分類,接著在 KITTI、ISPRS、MOT 和 Cityscapes 等若干個挑戰性的基準資料集上分析每個方法的最佳效能。還討論了一些開放問題和當前的研究挑戰。考慮到訪問的輕鬆性和缺失的引用,還提供了一個具有主題和方法導航功能的互動平臺,提供額外資訊和每篇論文的專案連結。
http://www.cvlibs.net/projects/autonomous_vision_survey/

導語

從 20 世紀 80 年代首次成功演示以來(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自動駕駛汽車領域已經取得了巨大進展。儘管有了這些進展,但在任意複雜環境中實現完全自動駕駛導航仍被認為還需要數十年的發展。原因有兩個:1、在複雜的動態環境中執行的自動駕駛系統需要人工智慧歸納不可預測的情境,從而進行實時推論。2、資訊性決策需要準確的感知,目前大部分已有的計算機視覺系統有一定的錯誤率,這是自動駕駛導航所無法接受的。

這篇論文聚焦於第2個問題:自動駕駛視覺(autonomous vision),並調查了目前自動駕駛汽車中感知系統的表現。面向此目標,首先,給出了問題分類,歸類了已有的資料集,以及在這些類別中可使用的技術(論文成果),描述了每種方法的優缺點。第二,在數個流行資料集上分析了一些頂尖成果的表現。給出了 KITTI 基準的全新深度質量分析,基於提交到平谷伺服器上的方法展現了最容易與最困難的例子。基於這些分析,討論了開放的研究問題和挑戰。
這裡寫圖片描述
目前也有其他相關的研究。Winner et al. (2015) 詳細解釋了主動安全性與駕駛輔助系統,考慮到了它們的結構與功能。他們的研究注重覆蓋到輔助駕駛系統的所有方面,但關於機器視覺的章節只覆蓋到了自動駕駛視覺問題中最基礎的概念。Klette (2015) 給出了基於視覺的駕駛輔助系統的概述。他們描述了高層次的感知問題的大部分方面,但並不像我們一樣提供了在各種任務上頂級成果的深度評測。

Zhu et al. (2017) 提供了智慧汽車環境感知的概述,聚焦於車道檢測、交通訊號/燈識別以及汽車追蹤問題,該論文可與我們的研究互補。但相較之下,我們的目標是通過提供廣泛的綜述和對比(包括所有領域的成果),在機器人、智慧汽車、攝影測繪學和計算機視覺社群之間架起一座橋樑。

1. 自動駕駛歷史

1.1 自動駕駛專案
1.2 自動駕駛競賽

2. 資料集和基準

資料集通過提供專門的真值(ground truth)問題例項,從而在許多研究領域之中發揮了關鍵作用。通過提供有關其能力與侷限的核心資訊,資料集還可以對方法進行量化評估。

2.1 真實資料集

立體與 3D 重建類資料集
光流類資料集
物件識別與分割類資料集
追蹤類資料集
航空影象資料集
自動駕駛資料集
長期自控(Long-Term Autonomy)類資料集

2.2 合成類資料集

MPI Sintel
飛行椅和飛行物
遊戲引擎

3. 攝像頭模型與校準

3.1 校準
3.2 全向攝像頭
3.3 事件攝像頭

圖 4(a)一個標準的 CMOS 攝像頭以固定幀頻輸出影象,運動視覺感測器(DVS)及時輸入波峰事件(spike event)(當他們變紅時)。每個事件對應一個區域性、畫素級別的亮度變化。(b)DVS 盯著一個旋轉點上的輸出視覺化。用顏色的點用於標記個體事件。不屬於螺旋的部分是由感測器噪音引起的。

4. 表徵

圖 5: Pfeiffer & Franke (2011) 的多層 Stixel 世界表徵。這一場景被切割為叫做 Stixels 的平面部分。與 Stixel World of Badino et al. (2009) 相反,它可以將目標定位在一單個影象列中的多個深度位置。顏色代表的是與障礙物的距離,紅色代表靠近,綠色代表還離得比較遠。

3D 基元(primitives)

5. 目標識別

感測器
標準流程

圖 6: Deformable Part Model 進行樣本偵測,模型是 Felzenszwalb et al. (2008) 提出的。DPM 包括一個和多個高解析度模型,還有一個用來限制每部分位置的 spatial constellation 模型。

分類

5.1 2D 目標檢測

圖 7:Cai et al. (2016) 提出的提議子網路(proposal sub-network),在多輸出層中進行識別,匹配不同尺度的目標。可以綜合特定尺度偵測器,生成一個強大的多尺度目標偵測器。

圖 8:Chen et al. (2016b) 提出的網路綜合了來自鳥類視野的分割槽(region-wise)特徵,LiDAR 點雲前檢視以及 RGB 作為 deep fusion network 的輸入。

5.2 從 2D 影象構建 3D 目標偵測
5.3 從 3D 點雲構建 3D 目標偵測
5.4 行人檢測
5.5 行人姿勢估測
5.6 討論

圖 9:KITTI 汽車檢測分析。每個部分分別展示了包含大量真正例(TP) 檢測、假正例(FP)檢測和假負例(FN) 檢測的影象。如果所有的檢測器的 TP、FP 或 FN 一致,目標被標記為紅色。如果只有一部分檢測器一致,目標標記為黃色。通過 KITTI 評測伺服器上公開的 15 種頂級方法,我們已經建立了排名。

圖 10:KITTI 行人檢測分析。每個部分分別展示了包含大量真正例(TP) 檢測、假正例(FP)檢測和假負例(FN) 檢測的影象。如果所有的檢測器的 TP、FP 或 FN 一致,目標被標記為紅色。如果只有一部分檢測器一致,目標標記為黃色。通過 KITTI 評測伺服器上公開的 15 種頂級方法,我們已經建立了排名。

圖 11:KITTI 自行車檢測。每個部分分別展示了包含大量真正例(TP) 檢測、假正例(FP)檢測和假負例(FN) 檢測的影象。如果所有的檢測器的 TP、FP 或 FN 一致,目標被標記為紅色。如果只有一部分檢測器一致,目標標記為黃色。通過 KITTI 評測伺服器上公開的 15 種頂級方法,我們已經建立了排名。

圖 12:Cordts 等人做的 Cityscapes 資料集場景語義分割,2016 年記錄於蘇黎世

6. 語義分割

方程(formulation)
結構化 CNN

圖 13: Zhao et al. (2016) 提出的方法的概覽。金字塔解析模組(c)被用於一個 CNN 的特徵圖(b)上,並被輸入一個卷積層用於畫素水平的估測(d)。

條件隨機場(conditional random field)

討論

基於建議的樣例分割(Proposal-based Instance Segmentation)
無需建議的樣例分割

6.2 . Label Propagation
6.3 多框架語義分割(Semantic Segmentation with Multiple Frames)
6.4 3D 資料的語義分割
線上方法
3D CNN
6.5 街景的語義分割

圖 16:Mathias et al. (2016) 提出用於外表面解析的三層解決方案。他們首先分割外表面,並將概率分佈分配給語義類作為提取視覺特徵。下一層他們使用特定目標的檢測器,比如門或窗的檢測器從底層改進分類器的輸出。最後,他們結合弱架構先驗,並使用基於取樣的方法搜尋最優表面標記。

6.6. Semantic Segmentation of Aerial Images

圖 17:ISPRS Vaihingen 採用由 Marmanis et al. (2016b) 提出的 FCN 集合進行場景的語義分割。源自 Marmanis et al. (2016b)。

6.6.1 ISPRS 分割挑戰賽

6.7 道路分割
6.7.1 可用空間估計

圖 18:該圖片源自 Pinggera et al. (2016),其展示了在失物招領(Lost and Found)資料集上提出方法的障礙物檢測。

7. 再建構

7.1 立體方法

圖 19:使用目標知識解決立體匹配模糊問題。立體方法通常在無紋理或半透明表面(頂部,Zbontar & LeCun (2016))無法反射。而使用目標知識,通過加強對模糊表面(中間)不一致性的認同,可以在保持數量上和質量上優良結果的同時,恢復場景目標的 3D 幾何形(底部)。源自 Guney & Geiger (2015)。

圖 20:立體匹配的深度學習。訓練 Siamese 網路以提取所有畫素可能差異的邊緣分佈。源自 Luo et al. (2016)。

7.2 多視角 3D 重構

圖 21:KITTI 2015 立體分析。該圖展示了在 KITTI 2015 立體基準上釋出的 15 個最佳立體方法的累積誤差。根據 Menze & Geiger (2015) 定義的 3px/5% 標準,紅色對應著大多數方法會導致壞畫素的區域,黃色對應著某些方法失效的區域,透明對應著所有方法都正確估計。

7.3 再建構與識別

圖 22:Haene et al. (2013) 連結 3D 場景重建和分類。上面一行顯示輸入影象及其 2D 語義分割與深度圖的示例。下面顯示了連線優化和分類所得出的幾何形。源自 Haene et al. (2013)。

8. 運動與姿勢估測

8.1 2D 運動估測-光學流
8.2 3D 運動估測-場景流

圖 27: 場景流。基於影象場景流的最小設定由兩個連續的立體影象對給出。源自 Menze & Geiger (2015)。

8.3. Ego-Motion 估計

圖 30:Scaramuzza & Fraundorfer (2011) 的視覺測距問題圖例。Tk,k−1 轉換在兩個相鄰機位(或相機系統位置)由使用視覺特徵而獲得。所有轉換的累積服從相對於初始座標系 k = 0 的絕對姿態 Ck。源自 Scaramuzza & Fraundorfer (2011).

圖 31:Engel et al. (2015) 提出的立體 LSD-SLAM 方法能計算精確相機運動和實時半稠密(semi-dense)概率深度圖。深度視覺化使用藍色代表遠處場景點,紅色代表近處目標。源自 Engel et al. (2015)。

8.4. 同步定位與構圖 (SLAM)
8.5. 定位

9. 追蹤

追蹤的目標是給定感測器測量資料的情況下實時評估一個或多個目標的狀態。典型來說,目標的狀態由它在一定時間的位置、速度和加速度來表達。追蹤其他車輛對自動駕駛任務而言非常重要。舉個例子,汽車剎車距離隨速度變化會有次方級的變化。為了防止相撞,系統需要足夠提前做出反應。其他車輛的軌跡足以預測停車的位置和可能相撞的情況。

在自行車和行人的案例中,比較難以預測未來的行為,因為他們可能會突然改變方向。然而,結合其他車輛的分類進行追蹤,能夠調整汽車在這種情況下的速度。此外,追蹤其他汽車可被用來進行自動距離控制,提前預估其他車輛可能做的變動。

9.1 立體追蹤
9.2 行人追蹤
9.3 頂級成果
9.4 討論

10. 場景理解

自動駕駛的基本需求之一是充分理解其周遭環境,比如複雜的交通場景。戶外場景理解的複雜任務包括若干個子任務,比如深度估計、場景分類、目標探測與追蹤、事件分類以及更多,其中每一個子任務描述場景的一個特定方面。聯合建模這些特定方面以利用場景不同元素之間的關係並獲得一個整體理解,這樣做是有益的。大多數場景理解模型的目標是獲得一個豐富但緊湊的場景表徵,這個場景包含所有的元素,比如佈局元素、交通參與者以及彼此之間的關係。相比於 2D 影象域中的推理,3D 推理在解決幾何場景理解的問題上起著重要作用,並以 3D 目標模型、佈局元素、閉塞關係等形式促使場景產生了更多的資訊表徵。場景理解的一個特殊挑戰是城市市區與郊區交通情景的闡釋。相較於高速公路和農村公路,市區場景包含了很多獨立移動的交通參與者,道路與十字路口幾何佈局中的更多變化性,以及由於模糊的視覺特徵和光照變化所帶來的難度升級。

從單一影象到視訊
結合目標探測與跟蹤
圖 41:Wojek et al. (2013) 概述了被結合的目標探測與帶有明確閉塞推理的跟蹤系統。改編自 Wojek et al. (2013)。

其他表徵 11. 感測器運動控制的端到端學習

當前最先進的自動駕駛方法包含大量的模型,例如(交通訊號、燈、汽車、行人的)探測、(車道、門面的)分割、運動估計、交通參與者的跟蹤,重建。然後,這些元件的結果按照控制系統的規則組合起來。但是,為了解決操控汽車方向和速度的問題,這需要穩健地解決場景理解中的諸多開放性難題。最近的文獻提出了作為替代性方案的若干個端到端自動駕駛方法。端到端駕駛使用的是從一個感覺輸入(比如,正面攝像頭影象)直接對映到駕駛操作(比如,轉向角)的獨立系統。

結論

本文中,我們就自動駕駛計算機視覺的難題、資料集和方法提供了一個綜合性調查。為了完成這一目標,我們的調查同時涵蓋了最為相關的歷史資料,以及識別、重建、運動估測、追蹤、場景理解、端到端學習等當前最先進的專門主題。通過使用 KITTI 基準的全新深入質量分析並考慮其他資料集,我們還討論了開放問題和當前這些主題下的研究挑戰。我們的互動式線上工具平臺運用圖形可視化了分類方法,從而可使你輕鬆瀏覽被調查的文獻。將來,我們計劃在這一互動式平臺上不斷更新相關文獻,為這一領域提供一個實時的概觀。我們希望該項調查和該工具平臺可進一步激發新研究,並且通過這一詳盡的概述,使得初學者更容易進入該領域。