1. 程式人生 > >深度補全(Single-Image Depth Perception in the Wild)

深度補全(Single-Image Depth Perception in the Wild)

Single-Image Depth Perception in the Wild

arXiv:1604.03901v2 [cs.CV] 6 Jan 2017

Abstract

本文研究了戶外的深度感知,即從無約束設定下單個影象恢復深度。本文介紹了一種新的戶外資料集深度,由戶外的影象組成,這些影象在隨機點對之間用相對深度標註。我們還提出了一種利用相對深度的標註來學習度量深度估計的新演算法。與目前的技術水平相比,我們的演算法更簡單,效能更好。實驗表明,我們的演算法結合了現有的RGB-D資料和新的相對深度標註,顯著提高了戶外單幅影象的深度感知。
在這裡插入圖片描述

1. 介紹

從單個RGB影象獲取深度是視覺的一個基本問題。近年來,由於資料驅動方法[1,2,3]的出現,特別是對大型RGB-D資料集進行深度神經網路訓練[4,5,6,7,8,9,10]。但這些進展尚未對更高級別的任務產生廣泛影響。原因之一是,許多高階任務必須對拍攝的戶外影象進行操作,而對攝像機、位置、場景和物件沒有任何限制,但是用於訓練和評估影象到深度系統的RGB-D資料集以這樣或那樣的方式受到限制。

目前的RGB-D資料集是由深度感測器收集的[4,5],深度感測器的範圍和解析度有限,在鏡面或透明物體[11]上常常出現故障。此外,由於RGB-D影象沒有Flickr,研究人員不得不手動捕捉影象。因此,當前的RGB-D資料集在場景多樣性方面受到限制。例如,NYU deep[4]主要由室內場景組成,沒有人在場KITTI[5]主要由汽車拍攝的公路場景組成Make3D[3,12]主要由斯坦福校園的戶外場景組成(圖2)。雖然這些資料集在驅動研究中起著關鍵作用,但目前尚不清楚在這些資料集上訓練的系統能否推廣到野外影象。
在這裡插入圖片描述

是否有可能為戶外影象收集地面真相深度?在無約束條件下使用深度感測器尚不可行。眾包似乎是可行的,但人類並不擅長估算度量深度,或者一般[13]的3D度量結構。事實上,從單個影象得到的度量深度從根本上來說是模糊的:房子後面的樹可以稍微大一點但離得更遠,或者稍微小一點但離得更近一點,房子和樹之間的絕對深度差異無法唯一確定。此外,即使在人們可以估計度量深度的情況下,也不清楚如何從它們中提取值。

但人類更善於判斷相對深度****[13]:點A比點B更接近嗎?對人類來說,這通常是一個容易得多的問題。Zoran等人最近的研究表明,僅使用相對深度的註釋來估計度量深度是可能的。雖然這樣的度量深度估計僅適用於單調變換,但對於高階任務,特別是對於遮擋推理,它們可能非常有用。Zoran等人的開創性成果指出了兩方面有待進一步發展:(1)收集了大量戶外影象的相對深度註釋;(2)改進了從相對深度註釋中學習的演算法。

在本文中,我們在這兩個方面都做了貢獻。我們的第一個貢獻是一個新的資料集叫做“Depth in theWild”(DIW)。它由495K不同的影象組成,每個影象都用隨機取樣點及其相對深度標註。我們對每幅影象的一對點進行抽樣,以最小化註釋的冗餘。據我們所知,這是第一個由戶外影象

相對深度註釋組成的大型資料集。我們證明該資料集可以作為評估基準和訓練資料。

我們的第二個貢獻是一個新的演算法,用來學習僅使用相對深度的註釋來估計度量深度。我們的演算法不僅明顯優於Zoran等人的[14],而且更簡單。Zoran等人的演算法首先學習了一個分類器來預測影象中兩個點之間的序數關係。給出一個新的影象,這個分類器被反覆用於預測稀疏集點對之間的序數關係(主要在相鄰的超畫素中心之間)。然後,該演算法通過求解一個約束二次優化問題,從預測的序數關係中重構深度,約束二次優化使附加的平滑約束和協調潛在的不一致的序數關係。最後,演算法估計了所有畫素的深度,假設每個超畫素的深度不變。

相比之下,我們的演算法由一個直接預測畫素深度的單一深度網路組成(圖1)。網路以整個影象作為輸入,由現成的元件組成,完全可以通過相對深度的標註進行訓練。我們的方法的新穎之處在於結合了兩方面的因素:(1)多尺度深度網路,產生畫素級的度量深度預測;(2)使用相對深度的損失函式。實驗表明,我們的方法產生的畫素級深度更加精確,不僅優於Zoran等人的方法[14],而且優於Eigen等人的最先進的影象深度系統[8],該系統使用地面真實度度量深度進行訓練。此外,結合我們的新演算法、新資料集和現有的RGB-D資料,可以顯著改善戶外的單影象深度估計。

2. 相關工作

RGB-D資料集:先前構建RGB-D資料集的工作依賴於Kinect[4,15,16,17]或LIDAR[3,5]。現有的基於kinect的資料集僅限於室內場景;現有的鐳射資料集偏向於人造結構的場景[3,5]。相反,我們的資料集涵蓋了更廣泛的場景:通過大規模的眾包和數量有限的網際網路影象,它可以很容易地擴充套件。

Intrinsic Images in the Wild:我們的工作從Intrinsic Images in the Wild中獲得靈感,這是一部開創性的作品,它將相對反射率的註解眾包在無約束的影像上。我們的工作在目標和幾個設計決策上是不同的。首先,我們對隨機點而不是超畫素中心進行取樣,因為與反射不同,在超畫素內假設一個恆定的深度是不合理的。其次,我們對每幅影象只採樣一對點,而不是多個點,以最大化人工註釋的價值。

單一影象的深度:影象到深度是一個長期存在的問題,大量的文獻[1,6,7,8,9,10,12,19,19,20,21,22,23,24,25,26]。最近深度神經網路和RGB-D資料集的融合[4,5]導致了重大進展[6,8,10,14,27,28]。但是,除了[14]之外,之前這些作品中的網路都是專門使用地面真實度度量深度進行訓練的,而我們的方法使用的是相對深度。

我們的工作受到Zoran等人的啟發,[14]提出利用深度網路來重複分類基於超畫素分割的取樣點對,並通過解決一個額外的優化問題來重建每個畫素的度量深度。我們的方法不同:它由一個經過訓練的端到端單一深網路組成,直接預測每畫素的度量深度;順序關係沒有中間分類,因此不需要優化來解決不一致

用序數關係學習:最近的幾個成果[29,30]都使用了從戶外資料集[18]的固有影象中得到的序數關係來估計表面反射。與Zoran等人[14]相似,Zhou等人[29]首先學習了一個深度網路來分類點對之間的序數關係,然後通過能量最小化使它們全域性一致。

Narihira等人的[30]學習了一種利用影象塊預測中心畫素的度量反射率的明度勢網路。但是這個網路只適用於稀疏的畫素集。雖然理論上這種亮度勢網路可以應用於每個畫素,以產生畫素級的反射,但這樣做是相當昂貴的。完全卷積(正如作者在[30]中提到的那樣)只解決了部分問題:只要lightness potential network具有向下取樣層(在[30]中就是這樣),最終的輸出就會相應地向下取樣。因此需要增加額外的解析度(如移位和縫合方法[31])。相比之下,我們的方法完全避免了這些問題,並直接輸出畫素級估計。

除了固有影象外,序數關係在計算機視覺和機器學習中被廣泛使用,包括物件識別[32]和學習排序[33,34]。

3. 資料集的重建

我們從Flickr上收集圖片。我們使用從英語詞典中抽取的隨機查詢關鍵字,排除人工影象,如繪圖和剪輯藝術。為了收集相對深度的註釋,我們向一個人群工作者展示了一幅影象和兩個突出的點(圖3),問哪個點更接近,1點,2點,還是難以分辨?工人按下一個鍵迴應。

多少雙?每個影象應該查詢多少對點?我們只對每張圖片進行抽樣,因為這樣可以最大化來自人類註釋器的資訊量。考慮另一種極端情況,即在同一幅影象中查詢所有可能的點對。這是一種浪費,因為近距離的點對可能具有相同的相對深度。換句話說,從同一映像查詢多一對可能比從新映像查詢多一對可能增加更少的資訊。因此,對每個映像只查詢一對更划算。