1. 程式人生 > >論文閱讀《End-to-End Learning of Geometry and Context for Deep Stereo Regression》

論文閱讀《End-to-End Learning of Geometry and Context for Deep Stereo Regression》

註意 4.3 匹配算法 argmin hang 立體聲 移動 數據集 聚集

端到端學習幾何和背景的深度立體回歸

摘要

   本文提出一種新型的深度學習網絡,用於從一對矯正過的立體圖像回歸得到其對應的視差圖。我們利用問題(對象)的幾何知識,形成一個使用深度特征表示的成本量(cost volume)。我們通過對這一匹配代價卷使用3D卷積來學習結合上下文信息。利用本文提出的一種可微分的soft argmin操作可以對匹配代價卷回歸得到視差值,這使得我們可以直接端到端地訓練我們的網絡達到亞像素級別的精度,而不需要任何後處理和正則化。我們在Scene Flow和 KITTI數據集上對我們的方法進行評估,在KITTI上我們設置了一個新的最先進的benchmark,同時顯著快於其他方法。

1.介紹

從立體影像準確估計三維幾何是許多計算機視覺應用的核心問題,包括自主車輛和無人機[2]。在本文中,我們特別感興趣的是計算矯正後立體圖像對之間每個像素的視差。為此,立體算法的核心任務是計算兩個圖像之間每個像素的對應關系。在現實世界中,這是非常具有挑戰性的。當前最先進的立體聲算法通常在無紋理區域,反射表面,薄結構和重復圖案方面存在困難。許多立體算法的目標是通過基於池或梯度的正則化[15,23]減少這些失敗。但是,這通常需要在平滑表面和檢測詳細結構之間進行折中。

相比之下,深度學習模型已經成功地從原始數據學習獲得在物體分類[28],檢測[17]和語義分割[31,3]的方面直接強大的表示。這些例子表明深度卷積神經網絡對理解語義非常有效。 在監督大型訓練數據集時,他們擅長分類任務。我們觀察到立體算法中一些具有挑戰性的問題將從全局語義上下文的知識中受益,而不僅僅依賴於局部幾何。例如,對於車輛擋風玻璃的反射表面,如果僅僅依靠反射表面的局部外觀來計算幾何形狀,則立體算法可能是錯誤的。相反,理解該表面(它屬於車輛)的語義背景來推斷局部幾何是有利的。在本文中,我們展示了如何學習一個可以進行端到端訓練的立體匹配回歸模型,並且能夠理解更廣泛的上下文信息。

迄今為止,利用深度學習表示的立體算法主要集中於利用它們生成一元項[48,32]。在深度一元表示法上應用代價匹配在估計像素差異時表現不佳[32,48]。仍然使用傳統的正則化和後處理步驟,如半全局塊匹配和左右一致性檢查[23]。這些正則化步驟受到嚴重限制,因為它們是手工設計的淺函數,仍然容易受到上述問題的影響。

這篇論文解答了這一問題——我們能否利用我們對於立體幾何的理解,借助深度學習的方法來將立體視覺問題規範化?這篇論文的主要貢獻是提出了一個端到端的深度學習方法來從一對矯正過的圖像來估算每個像素的視差值。我們的結構如圖1所示。它通過構建成本量明確地表達了幾何特征,同時還利用深度卷積網絡表達了語義信息。我們實現這一方法主要遵循以下兩個想法:

  • 我們直接從數據中結合上下文信息,使用3D卷積來規則化成本量(包含高度、寬度、視差三個維度)
  • 我們使用完全可微分的柔性argmin函數,允許我們從視差匹配代價卷中回歸得到亞像素的視差值

第三節介紹了這個模型並從更多的細節方面介紹了模型的內容。第四節,我們在合成的SceneFlow數據集上評估了我們的模型,並在KITTI2012和KITTI2015數據集上排名第一。最後在4.3節,我們展示了我們的模型能夠學習語義和上下文信息的證據。

2.相關工作

從立體圖像對計算深度的問題已經研究了相當長的一段時間[5]。Scharstein和Szeliski[39]的一項調查提供了立體匹配算法的分類,如執行匹配成本計算,成本支持聚合,視差計算和優化或差異細化的一些子集。 這個調查還介紹了第一個Middlebury數據集和相關的評估指標,使用結構化光提供基本事實。KITTI數據集[14,35]是LIDAR提供的具有基本真實性的移動車輛收集的較大數據集。這些數據集首先激發了改進立體視覺所有組件的手工技術,其中我們提到了一些值得註意的例子。

匹配成本是潛在相應圖像位置的像素差異度量[25],其中絕對誤差,平方誤差和截斷誤差是示例。可以使用基於梯度[16]的局部描述符或二進制模式,如CENSUS [45]或BRIEF [7,22]。

不是像基於面片的匹配成本一樣聚集相鄰像素,而是在假定它們更可能來自相同表面和視差的假設下,對圖像內容的了解可以更大程度地合並具有相似外觀的相鄰像素。這些技術的調查由Tombari等人提供[43]。局部匹配成本也可以在全局框架內進行優化,通常將結合局部數據項和成對平滑項的能量函數最小化。全局優化可以使用圖形切割[27]或置信傳播[26]來完成,這可以擴展到傾斜表面[6]。全局優化的一個有名的有效逼近是Hirschmüller[24]的半全局匹配(SGM),其中動態規劃優化了多方向上能量函數的路徑形式。

除了為比較立體算法提供基礎之外,來自這些數據集的地面實況深度數據提供了使用機器學習以各種方式改進立體算法的機會。 Zhang和Seitz [52]交替優化了視差和馬爾科夫隨機場正則化參數。Scharstein和Pal [38]學習條件隨機場(CRF)參數,Li和Huttenlocher[29]用結構化支持向量機訓練非參數CRF模型。 學習也可以用來估計一個傳統的立體匹配算法的置信度,如海斯勒等人的隨機森林方法。[19]。 Park和Yoon [37]表明,這種置信度測量可以改善SGM的結果。

深卷積神經網絡可以訓練以匹配圖像塊[46]。 Zbontar和Le-Cun[47,49]展示了一個深度網絡,用於匹配9X9個圖像塊,然後是非學習成本聚合和正則化,以產生最先進的結果。

Luo等人提出了一個顯著更快的網絡計算局部匹配成本作為使用連體網絡[33]多標簽視差分類。 Chen等人的多尺度嵌入模型 [9]也提供了良好的局部匹配分數。另外值得註意的是Flynn等人的DeepStereo工作。 [12],它結合一個單獨的條件色彩模型學習成本量,以預測多視點立體設置新穎的觀點。

Mayer等人創建了一個大型的合成數據集來訓練網絡的視差估計(以及光流)[34],改善了最先進的技術。作為網絡的一種變形,沿視差線提出了一種1-D相關性,這是對立體成本量的乘法近似。另外,這個量與單個圖像的卷積特征串聯,並且通過一系列進一步的卷積而成功。相比之下,我們的工作並沒有在計算成本量時破壞特征維度,而是使用3-D卷積來合並上下文。

雖然這項工作的重點是雙目立體視覺,值得註意的是,深卷積網絡的表示能力也能夠從一個單一的單目圖像進行深度估計[10]。 Liu等人將深度學習與連續的CRF相結合。[30]。 而不是用標記的基本真實數據監督訓練,可以使用無標記的立體圖像對訓練一個單眼模型[13]。

在我們的工作中,我們沒有應用後處理或正則化。我們的網絡可以通過形成完全可微分的成本量來明確地推斷幾何。我們的網絡通過3-D卷積架構學習將數據的上下文結合起來。 我們不學習概率分布,成本函數或分類結果。 相反,我們的網絡能夠從立體圖像對直接回歸視差的亞像素估計。

3.學習端到端的視差回歸

我們不必手動設計立體匹配算法的任何一步,而是學習使用深度學習從圖像對到視差圖的端到端映射。我們希望直接從數據中學習更優化的功能。此外,這種方法有望降低大部分工程設計的復雜性。但是,我們的目的不是天真地將機器學習架構作為一個黑盒來建立立體模型。 相反,我們主張使用幾十年來多視角幾何研究的見解[20]來指導架構設計。因此,我們通過開發代表傳統立體管道中每個主要組件的可微層來形成我們的模型[39]。這使我們能夠學習整個模型的端到端,同時利用我們對立體聲問題的幾何知識。

我們的架構,GC-Net(幾何和上下文網絡)如圖1所示,表1中有更詳細的逐層定義。

在本節的其余部分中,我們將詳細討論每個組件。之後,在第4.1節中,我們將為調整設計決策提供定量結果。

3.1 一元特征(網絡提取的特征)

https://blog.csdn.net/lvhao92/article/details/72627386

https://blog.csdn.net/qq_38906523/article/details/79625073

https://blog.csdn.net/qq_36104364/article/details/80277824

論文閱讀《End-to-End Learning of Geometry and Context for Deep Stereo Regression》