1. 程式人生 > >深度補全(1803)-論文閱讀-翻譯

深度補全(1803)-論文閱讀-翻譯

Single View Stereo Matching

Abstract

以往的單目深度估計方法採用單一視角,直接回歸預期結果。雖然最近的進展是通過在訓練中應用幾何啟發損失函式來實現的,但是推理過程並沒有明確地強加任何幾何約束。因此,這些模型完全依賴於資料的質量和學習泛化的有效性。這要麼導致了次優結果,要麼需要大量昂貴的地面真值標籤資料來產生合理的結果。本文首次證明了單目深度估計問題可以重新表述為兩個子問題,一個是檢視合成過程,然後是立體匹配,在推理過程中可以顯式地施加幾何約束;ii)標籤深度資料的需求可以大大緩解。我們展示了整個管道仍然可以以端到端的方式進行訓練,這個新公式在提高效能方面起到了關鍵作用。該模型僅使用少量的真實訓練資料,在具有挑戰性的KITTI資料集中優於以往的單目深度估計方法和立體塊匹配方法。該模型也很好地推廣到其他單目深度估計基準。討論了用立體方法進行單目深度估計的意義和優點 。

Introduction

深度估計是計算機視覺中的一個基本問題。在機器人技術、增強現實技術、三維重建技術、自動駕駛汽車等諸多領域都有重要應用。這個問題是大量研究文獻中,主要解決兩種型別的技術方法即主動立體視覺等結構光[33],飛行時間[40],和被動立體視覺包括立體匹配[17,25],[35]結構與運動,光度立體[5]和深度線索融合[31],等等。在被動立體視覺方法,立體匹配可能是應用最廣泛的技術,因為它是精確的,它對感測器和成像過程沒有什麼假設。近年來該領域的研究進展表明,利用合成數據訓練的深度模型和有限的真實資料訓練的精細模型可以顯著提高立體匹配的質量[26,28]。

另一方面,單目深度估計的適用性受到精度的限制,但在實際應用中,為了避免立體攝像機設定出現校準誤差和同步問題,單目深度估計更受青睞。從一個單一的觀點估計深度是困難的,因為它是一個不適定的和幾何上模稜兩可的問題。近年來,利用深度學習方法對單目深度估計進行了改進[4,19,20,23]。然而,與前面提到的基於幾何正確性的無源立體視覺方法相比,目前最先進的單眼方法的公式存在問題。原因有兩方面。首先,目前的深度學習方法幾乎完全依賴於高階語義資訊,直接將其與絕對深度值聯絡起來。由於網路中的操作是通用的,對它需要逼近的函式沒有任何先驗知識,因此即使在損失函式中施加了一些特殊的約束,要學習這些語義資訊也是很困難的。其次,即使是有效的學習,場景理解和深度之間的關係也需要通過大量的真實資料和地面真實深度來建立。這樣的資料不僅在規模上獲取非常昂貴,而且收集高質量的密集標籤非常困難,如果不是完全不可能的話,也非常耗時。這極大地限制了當前公式的潛力。

本文以一種新穎的視角,首次將單目深度估計問題表述為由高質量的檢視合成網路自動生成右檢視的立體匹配問題。整個管道如圖1所示。這裡的關鍵是:一、無論是檢視合成還是立體匹配都尊重基本的幾何原理;二、不用昂貴的真實深度資料就可以訓練兩者,推廣效果好;三、整個管道可以以端到端的方式進行整體培訓,以優化幾何正確的目標。我們的方法與空間變換網路[12]的思路相似。雖然深度模型可以自己學習必要的轉換,但是顯式地建模這樣的轉換可能對我們更有利。我們發現,結果模型僅使用少量的真實訓練資料,就能在具有挑戰性的KITTI資料集[9]中勝過所有以前的方法。該模型對其他單目深度估計資料集也有較好的推廣。

我們的貢獻可以總結如下。
首先,我們發現單目深度估計問題可以有效地解耦成兩個具有幾何合理性的子問題。為進一步推進這一領域的績效建設奠定了新的基礎。
其次,我們展示了整個管道可以進行端到端訓練,並且使用一小部分訓練資料,它在很大程度上超過了所有以前的單目方法。值得注意的是,這是第一種單目方法在整體精度上勝過立體塊匹配演算法。

在這裡插入圖片描述