1. 程式人生 > >Patch-Based Optimization for Image-Based Texture Mapping(SIGGRAPH 17)翻譯

Patch-Based Optimization for Image-Based Texture Mapping(SIGGRAPH 17)翻譯

   對基於影象的紋理對映進行基於塊的優化(Patch-Based Optimization for Image-Based Texture Mapping)

                                                                          SIGGRAPH 2017

                    SAIBI,NIMA KHADEMI KALANTARI,RAVI RAMAMOORTHI(加州大學聖地亞哥分校)

                                                                                                                   ----Translated by George Robots of FDU for CG PJ

摘要

         在為真實世界中物體的幾何模型提供紋理對映方面,基於影象的紋理對映是一種常用的手段。儘管利用經過標定的相機及精確的幾何結構可以很容易地算出高質量的紋理對映,這種質量會隨著不確定性的提高而顯著地降低。在本論文中,我們通過提出一種別緻的,全域性的,基於塊的優化系統來合成配準的影象。特別地,我們使用了基於塊的合成,通過從原圖中抽取資訊,來重建一個經配準後光照一致的影象集。該優化系統不僅簡便靈活,且相比其他技術(比如區域性彎曲)而言,在矯正大範圍影象失配上更為合適。該優化問題包括兩大步驟,一是搜尋塊與投票環節,二是重建。實驗結果表明:對於經消費級深度相機(如Intel RealSense)掃描的物體來說,我們的方法比之現有方法能夠提供更高質量的紋理對映。此外,我們證實了該系統可用於紋理編輯的相關工作,比如補洞、重組、多視角物體隱藏。

(上圖表示較為精確的幾何結構,下圖是不太精確的幾何結構)

CCS分類:計算方法論->計算攝影學

附加關鍵詞句:基於影象的紋理對映,基於塊的合成

正文

一、引入

對真實世界景物建模是一個重要的視覺任務,在視訊遊戲、VR、動畫設計等方面有著廣泛的應用。基於幾何結構的重建是大量相關研究的主題,許多相應的演算法被研發出來。隨著消費級深度相機的普及,普通消費者也能用諸如KinectFusion的技術來生成物體的幾何模型。

儘管如此,重現真實世界物體的全貌仍需要重建高質量的紋理對映。基於影象的紋理對映,是在一個採集自不同視角的影象集上,構建與視角無關的紋理對映的常用的方式。隨之而來的挑戰性問題是,幾何結構和相機擺放姿態的計算,由於常常受到噪聲的影響而不準確;此外,消費級深度相機提供的RGB影象,常常會有無法被相機成像模型解釋的失真。因此,樸素的投影、融合輸入影象就會有模糊的、帶重影的人工痕跡,如圖2所示。

圖2

我們發現,通過對輸入的每張影象生成一張配準的影象可以克服絕大多數的不精確問題。我們的方法建立在Zhou 和 Koltun的工作之上,他們的工作使用了局部扭曲技術來校正錯誤配準問題。雖然他們的方法能處理細小的不精確問題,但是對於很不精確的情況很難提供高質量的結果;並且由於區域性扭曲技術在校正失配時的侷限效能,他們的方法會遺失部分幾何特徵(見圖1,2和4)。

圖1

受近來基於塊的方法在影象和視訊編輯任務領域的成功的影響,我們提出了一種新穎的,全域性的,基於塊的優化系統來合成配準好的影象。我們的能量函式(這裡的能量函式應該屬於“基於能量優化的影象匹配”這一方法中的技術,參見參考部落格①)結合了我們對配準後圖像的兩個主要的需求:(1)  包含原始輸入影象的絕大部分資訊;(2)    保留投影矩陣的光學一致性。

為進一步優化能量函式,我們同時將輸入的原影象和配準後的影象的區域性相似性最大化,並保證了所有配準後的影象與紋理對映的一致性。

我們的系統以基於塊的方式直接從原影象中抽取資訊,從而可以靈活地處理大範圍的不精確問題。此外,我們的方法通過合成缺失的內容來處理缺失幾何特徵的情形(見圖4),而現有的基於扭曲影象的或是基於圖片分割的技術則不能處理。最後,相比於Zhou和Koltun的方法,我們實現了影象領域的一種優化,使得我們系統性能不受幾何複雜性所限。總之,我們做出了以下的貢獻:

(1)      對於視點無關的、基於影象的紋理對映,引入了首個基於塊的優化系統(見模組3.1)。該方法通過合成經過配準的影象來校正影象失配問題,而這些經過校正的影象之後能用於生成一個視點獨立的紋理對映。

(2)      我們提出了一個簡單的兩部曲操作來高效地求解我們的能量方程(見模組3.2)。

(3)      我們證實了本方法比現有的技術效果更好(見模組5);此外我們也展現了本方法在其他領域的應用,這些應用也獲得了靠當前技術無法實現的效果。

二、相關工作

         從真實世界物體的影象集合中重現它的外貌這個主題被廣泛地研究。基於影象的著色技術通過產生一個依賴於視角的紋理對映來重現物體的外貌。然而,這種手段只能應對輸入影象在相同光照條件下的情況。因此,它們不能被用於某些場景,這些場景使用的是在不同光照環境下被掃描過的物體的圖片。此外,由於這些手段並不產生一個全域性一致的紋理對映,他們顯然無法用於遊戲、AR、動畫等領域。

視角獨立的紋理對映方法,以我們的為例,從不同視角抓取到的影象集中生成一個全域性一致的紋理對映,這些影象隨後可以被用來在各種光照情況下上色(注意:該情況下最終的紋理仍具有原始的光照條件。然而,該問題可以通過對原圖做本徵影象分解(Intrinsic Image Decomposition,參見部落格②)並使用反照率來生成紋理對映)。這類方法的主要挑戰是,在抓取過程中如何解決不精確問題。關於影象的幾何配準,有如下幾種方法:半自動化的[Franken et al. 2005; Ofek et al. 1997; Pighin et al. 1998],或者通過優化顏色一致性而自動化的[Bernardini et al. 2001; Pulli and Shapiro 2000],或者通過配準影象和幾何特徵來自動化的[Lensch et al. 2001; Stamos and Allen 2002],或者通過最大化投影影象間的互資訊來自動化[Corsini et al. 2013, 2009]。雖然這些方法在解決由相機標定不精確引起的問題時很有效,卻不能解決幾何結構不精確,或是RGB影象中光學畸變引起的問題,而這些問題在消費級深度相機中是很常見的問題。

2.1 單視角選擇

這類方法不去融合投影后的輸入影象,由於失配的緣故這種操作可能產生模糊的效果;而是對每個面只選擇一個視角。為避免在面與面之間產生可見的縫隙,通常要解決離散標記的問題([Lempitsky and Ivanov 2007; Sinha et al. 2008; Velho and Sossai Jr. 2007; Waechter et al. 2014])。

例如,當下效果最好的方法(Waechter et al. [2014])解決了條件隨機場能量方程的問題,該方程包括兩項:一個數據項“偏好”與當前的面接近的、不模糊的面,一個平滑項“懲罰”相鄰面不連續的情況(是不是把參考部落格①中的畫素改成了面呢?)。可是正如圖2所示,即使是這種方法也無法解決在不精確程度很大時許多挑戰性的情況,從而在最終的紋理對映中產生可見的縫隙。

2.2 影象配準

本目錄中該方法直接通過配準輸入影象來解決不精確問題。Tzur and Tal [2009]提出估計幾何結構的每個頂點的區域性的相機投影來解決相機標定、幾何結構等的不精確問題。然而,該方法需要使用者的互動,來產生看上去合理的結果。Aganj et al. [2010]通過尋找不同視角中的SIFT特徵、扭曲輸入影象來解決失配問題,而[Dellepiane et al. 2012; Eisemann et al. 2008]則用光流處理處理扭曲。這些方法並未要求失真全域性最小化,且在一對圖片上進行處理,因而是次優解。Gal et al. [2010]給一張輸入影象指定一個三角形,找到每個三角形的最優轉換(方式/矩陣)來消除縫隙,然而這種優化方式需要大量的運算。

我們的方法是基於Zhou and Koltun [2014]近期的工作的,該工作同時解決了尋找最優的相機姿態和非剛性的對輸入影象的矯正。它們使用了局部扭曲來實現非剛性的配準,並提出一個互動的優化來最小化它們的目標函式。然而,區域性扭曲並不能矯正大規模的失配,而且會產生重影、模糊的人為現象,如圖2所示。為避免該問題,我們提出了一種相比於區域性扭曲更為靈活的機制來處理非剛性的配準,將此機制用於我們的優化系統。

2.3基於塊的合成

我們的方法受近來基於塊的合成方法在大量應用,例如填洞([Wexler et al. 2007])、影象重定向(image retargeting,參見部落格③)與影象編輯([Barnes et al. 2009; Simakov et al. 2008]),影像變形(參見資料⑨),HDR重建([Kalantari et al. 2013; Sen et al. 2012])和風格遷移([Bénard et al. 2013; Jamriška et al. 2015])。基於塊的合成,在找出幾張影象的一致性(比如影像變形和HDR重建)很困難的應用場景中已經特別成功了。在我們的應用中,合成的配準影象需要在物體的幾何結構上具有一致性,因此基於塊的合成在我們的問題上無法直接應用。我們通過提出一個新穎的,基於塊的能量方程來應對這個挑戰,該方程將幾何結構融合到公式之中。

三、演算法

絕大多數紋理對映的方式是使用一個包含N張源圖片(記作S1,…, SN)的集合來生成一個高質量的視角獨立的紋理對映,這些源圖片從不同的視角中拍攝得到。這些方法常常假設源圖片對應的物體的近似的幾何結構和粗略的相機姿態(即相機的內參、外參矩陣)用現有的方法可以估計得到([Newcombe et al. 2011; Seitz et al. 2006];一個很有意思的論文是隻需要給兩張相關照片就能進行三維重建:Novel View Synthesis in Tensor Space),一旦紋理對映產生,有著視角獨立的紋理的物體就可以在任何新視角中著色了。

一種生成紋理對映的簡單方式是將原影象投影到幾何結構上,並將所有的投影后的影象結合在一起。理想情況下,這些投影后的影象是光照一致的,因此融合這些照片橫溝產生高質量的紋理圖片。然而實際上由於不精確的問題,投影影象常常失配。因此這種簡單的做法會產生重影的效果。

在圖3中的頂行我們演示了該問題:給定源圖片S1S2,展現出合成後的效果。為了觀察失配問題,我們將原影象投影到一個新的視角i。注意從原影象Sj投影到新視角i可通過重對映原影象的畫素顏色Sj(y)來實現。y是畫素從影象i投影到j的位置,記作:y= Pj(Gi(x)). x是影象i上畫素的位置,Gi將i影象上的一個畫素投影到全域性三維空間,Pj將三維空間中的點投影到j影象。在本論文中,為了符號的清晰簡潔考慮,我們使用xi表示影象i上的畫素,用xi→j表示這個畫素投影到影象j後的新畫素。在該定義下,y= xi→jSj(xij)是將影象Sj投影到視角i的結果。查表1可得本論文中用到的完整的符號表。

正如圖3(頂行)所示,由於估計的幾何結構與相機姿態(即相機內外參)的不精確,投影后的源圖片Sj(xi1)Sj(xi2)都失配了。因此,由簡單的投影和混合方法產生的紋理對映有著了重影的效果(如最右邊那一列所示)。這裡(圖中)的Mi指的是在i相機視角下,最終的全域性一致的紋理對映。注意Mj是從所有的源影象中重建得到的對映,因此與投影后的源影象是不同的。

圖3

為了克服這種失配問題,我們為每張源影象Si合成匹配後的(目標)影象Ti。正如圖3所示,目標影象是通過移動源影象的內容來矯正失配問題。作為結果,所有的目標影象都是光照一致的,因此將它們投影到幾何結構上並結合在一起產生了高質量的結果。下個章節將解釋我們的基於塊的優化系統如何合成這些目標影象。

3.1基於塊的能量函式

我們觀察到,為了產生高質量的紋理對映,目標影象應當有兩個主要特性:

  1. 每張特徵影象應該與它的相應的源影象相似;
  2. 投影后的目標影象應當光照一致。

我們的目標是提出一個全域性能量函式,能兼顧這兩個主要特性。為滿足第一個特性,我們確保了在視覺一致性的角度上,每張特徵影象都包含了相應的源影象的絕大多數的資訊。為了實現它,我們使用雙向相似性(BDS)(見Simakov et al. [2008])。基於塊的能量函式定義為:

α是前後兩項的影響因素佔比的調整引數,s和t則分別是源影象和目標影象的塊,D是在RGB彩色空間上塊s和t的所有畫素值平方差之和。此外,L是每個塊的畫素數目,例如對於7X7的塊來說L = 49.

公式中第一項(完整性)確保了每個源塊在目標影象中都有與之相似的塊,第二項(一致性)的功能反過來與之類似。完整性這一項度量了目標影象中保留了多少的源影象資訊,而一致性這一項則度量了目標影象中是否存在著一些新的視覺結構(人工痕跡)。最小化能量函式保證了絕大多數的源影象中的資訊,能在視覺上一致的情況下被保留在目標影象之中。

注意到上面的第一個等式是為一對源影象和目標影象設計的。為了將這種相似特性應用於所有的影象,我們將其擴充套件為:

基於塊的合成技術,相比區域性扭曲技術([Zhou and Koltun 2014])更為靈活,因而當幾何結構和相機姿態出現大規模不精確的時候更適合於使用該技術。此外,雖然區域性扭曲技術內在地保留了視覺一致性,但它同時也在目標影象中保留了我們不需要的、來自源影象的其他資訊。如果幾何模型不包含特定的特徵,源影象中對應這些特徵的區域將不應該被包含,從而也不在紋理對映中被包含。因此,該方法在這些區域會產生模糊/重影的人為合成痕跡,如圖4所示。Waechter et al.[2014]的方法在每個面中選取一個視角,從而避免了這種情況下的糟糕效果。然而他們的方法不能將缺失特徵部分對應的紋理給刪去,因為這些特徵在所有的源影象中都是存在的。注意到缺失的幾何特徵在絕大多數情況下都會帶來不精確的幾何結構(如圖9所示),這正是現有的技術很難處理大規模不精確情況的原因。

圖4

儘管目標影象與源影象的相似性是生成高質量紋理對映的必要條件,卻不是充分條件,如圖5所示。

圖5

因此,我們需要將通過確保目標影象的一致性來實現第二項的效果。這個約束可以由以下幾種方式實現。例如,我們可以通過保證投影后的目標影象與當前的目標影象很接近來實現一致性,例如使得Tjxij= Tixi.這一約束可用Tjxi→jTixi之間的二範數距離最小化的最小二乘思想來表述。

另一種選擇是,該約束可通過保證當前目標與所有投影目標均值的一致性來實現,例如保證1Nj=1NTjxij= Tixi成立。類似地,要滿足該約束,可以令視角i處的紋理與投影后的目標影象的紋理保持一致,即滿足等式Tjxij= Mixi。由於所有的目標影象都將保持一致,且與優化後的紋理對映保持一致,應用上述兩種不同的方法中任意一種會產生類似的最佳目標影象。然而,為利用互動優化(詳見3.2模組),我們使用了後一種策略(Tjxij= Mixi),一致性能量等式寫作:

第一個求和符是對影象i上所有位於xi處的畫素求和。權重wj使得約束條件和第j個投影后的目標影象的貢獻成比例。在具體實現時,wj= cos⁡(θ)2/d2θ時表面法線和影象j的視角的夾角,d表示相機與表面的距離。該權重在相機離物體較遠,或者當相機視角與表面擦邊時值較小。最小化能量函式確保了所有的目標影象與從i相機視角看到的最終紋理對映保持一致。我們將該等式擴充套件成如下形式來確保這種對於所有影象的一致性約束:

為滿足這兩個特性(等式的兩項分別體現兩個特性),我們將完整的目標函式記做帶權的E1E2之和:

λ 表示一致性那一項的權重,在我們的試驗中設定為0.1。優化我們提出的基於塊的能量函式將產生包含源影象大多數資訊,而且在視覺上具有一致性,而且保留了投影一致性的目標影象。一旦獲得了優化的目標影象Ti,就能用不同的方式利用它們產生單一的一致性紋理。例如,通過先把所有的目標影象投影到幾何結構上可以實現該目標。在該過程之後,每個頂點從不同的目標影象獲取一個顏色樣例的集合。每個頂點的最終顏色可通過計算這些樣例的加權均值來得到。

圖5是我們對優化系統中各項的效果評估。僅僅優化第一項可以產生於源影象有著一致視覺外表的配準後的影象,但是卻不具有一致性。僅優化第二項能產生具有一致性的目標影象,可這些影象包含了在源影象中不存在的資訊。優化我們提出的完整的能量函式可通過滿足上述兩個特性來產生高質量的紋理對映。

3.2優化

為了高效地優化等式5中的能量函式,我們提出了替代性的優化方式,它在不同視角M1,…,MN下能同時優化目標影象T1,…,TN,以及紋理。特別地,我們通過輪流使用兩個變數集來最小化能量函式。我們將目標影象和紋理分別初始化成他們相應的源影象,例如Ti= Si, Mi= Si.接著我們交替地執行配準和重建兩步,直到收斂。我們的演算法的架構參見圖6。

圖6

接下來我們解釋以下這兩個步驟:

  1. 配準

在這個環節,我們固定M1,…,MN,通過尋找最優的T1,…,TN來最小化等式5.通過迭代的搜尋和投票過程(與Simakov et al. [2008]類似)即可實現。在第一步中,我們進行塊搜尋的步驟,來尋找具有最小的D(s,t)的塊(參見等式1),D表示平方差之和。在下一步中,我們實現了投票步驟,在上一步給定的算得的塊的基礎上,獲取最小化等式5的T1,…,TN。注意,正如我們接下來要提到的,我們的投票機制與Simakov et al. [2008]是不同的,這是由於我們添加了額外的一致性約束EC

方便起見,我們通過先單獨討論等式5中的每個項來解釋我們的投票機制。

第一項(相似性):與Simakov et al. [2008]類似,我們通過使用在搜尋過程中獲得的塊來重新定義BDS能量函式(E1):

E1(i,xi)是指指定相機i(這個i是)和畫素xi對應誤差的E1susv分別是重疊部分包含了畫素xi的源塊,用以確保目標影象的完整性和一致性。此外,yuyv分別指susv中的,對應於目標影象的第xi個畫素位置的單個畫素。最後,U和V分別指代為保證完整性和一致性所需的塊的數目。注意到絕大多數的這些變數是當前畫素xi的函式,但是我們為標記符號的簡單原則而省略了這部分。等式的推導參見 Simakov et al. [2008]的論文。為獲取能最小化上述等式的Ti,我們需要對未知的顏色Ti(xi)求導,令其值為0,從而得到:

目標影象通過計算源塊的集合中,包含目標影象的第xi個畫素的所有塊的畫素顏色加權均值。注意到儘管標準化係數1L可被約去,我們將它保留在等式中,以便使其可以在等式9中與等式8很容易結合。

第二項(一致性):第一項是標準的投票過程,如Simakov等人所述,主要用於從源影象中抽取資訊來重建目標。我們的主要區別在於第二項,它通過保證目標影象與紋理一致確保了一致性約束。正如附錄中所示,最小化等式5中的第二項的目標值的計算方式為:

這裡儘管權重wi(xi)會被約去,我們在等式中仍然將其保留,以便在等式9中融合兩項。在此通過計算當前紋理對映在不同視角的均值來計算目標。這是憑直覺得出的等式,因為約束主要是要求配準後的影象與紋理儘可能一致。

結合項:直覺上,求解結合項的目標值,應當通過在保證與紋理的相似性的同時,抽取源影象中資訊,然後重建得到。由於這兩項通過λ引數結合在一起,結合的結果應當能通過分別在分子、分母上新增等式7、8中的項來得到,記做:

最終版的目標值是加權的,包含常規的投票過程(等式7)和所有當前紋理對映均值(等式8)的結果。這意味著一致性那一項主要保證了我們的目標值與當前的紋理對映具有一致性。該能量函式的最小化步驟就是反覆地做搜尋、投票過程,直到收斂。該迭代過程通過將投票後的,經過更新的目標值作為新一輪迭代過程的輸入。(這篇paper為何有這麼多冗餘的文字?!)我們實驗表明只需要一輪迭代就足以獲取高質量的結果,如圖7所示。

圖7

  1. 重建。

在該步驟中,我們固定T1,…,TN,計算出不同視角下最優的紋理M1,…,MN來最小化等式5.由於紋理只在第二項(EC)這個二次式中出現,最優紋理可通過以下的方式求得:

這是我們的紋理生成等式,它主要說明了最優紋理是由所有投影后的目標的加權均值算得的。在目標失配這種優化初期很常見的情況之下,該過程會產生帶重影和模糊的紋理。下一個配準過程的迭代就會試著緩和目標間的失配程度,最終使得在重建之後紋理對映中出現的人工痕跡更少。

我們迭代地執行配準和重建兩步,直至收斂。與[Barnes et al. 2009; Wexler et al. 2007]基於塊的配準方式相同,我們在多尺度上執行這兩步來避免區域性最小值,同時加速收斂(參見模組4)。注意到這裡的迭代是在我們的配準、重建這兩大步驟之間進行的。我們還有一個內層迭代,它位於配準步驟中,反覆進行的是搜尋和投票步驟(不過這個迭代只需進行1次)。

一經收斂,我們的演算法就生成配準的影象T1,…,TN以及在不同視角下的最優紋理M1,…,MN,這兩者非常相似。由於目標影象具有一致性,通過將所有的目標影象投影到集合結構上,並求出他們的顏色樣本均值,以獲得每個頂點上的最終顏色,完成這些步驟後最終僅生成一個全域性紋理。

四、實現細節

獲取輸入資料。我們使用Intel RealSense R200相機來抓取我們的RGB-D序列。該相機以628X468,或1920X1080的解析度記錄深度及色彩序列,幀率為30.為了最小化顏色差異,我們固定了曝光及白平衡(參見部落格13)。我們使用KinectFusion的演算法([Izadi et al. 2011])來估計每一幀的集合結構和相機姿態。注意到該方法估計了相機姿態的深度結構,我們也將此估計賦給相應的彩圖結構(有種獲取彩圖的相機結構的方法,需要將嚴格的轉換用到深度相機的姿態之上,但是該策略不能顯著地起幫助作用,主要是因為以下兩個原因:一是深度相機和彩度相機的快門不是同步的,二是我們的深度和彩度相機非常靠近,所以有相似的姿態)。

關鍵幀選擇。為了減少我們輸入的影象的數目,我們用與Koltun’s method [2014]類似的貪心的方式來選取一個影象的子集。特別地,給定一個已經選擇好關鍵幀的集合,我們使用Crete et al. [2007] 的方法來尋找在已選擇的最後一個關鍵幀之後的,有著最低模糊度的,介於區間(t,2t)的一幀。在實現時,t根據場景可在30到60幀之間做選擇。

配準。為加速搜尋過程,我們使用塊匹配的演算法(Barnes et al. [2009] ),塊尺寸引數設定為預設值7.此外,為了避免目標影象與源影象的偏差過大,我們將搜尋框的尺寸限制在0.1w·h,w和h分別表示源影象的寬度與高度。

多尺度優化。我們通過將優化過程在多尺度上應用來求解等式5中的能量函式。特別地,我們首先對所有的源影象下采樣至最粗糙的尺度(上下采樣的定義參見參考部落格④)。我們先用低解析度的源影象初始化T1,…,TN和紋理M1,…,MN,並且迭代地進行配準和重建步驟直至收斂。我們接著對所有的目標和紋理上取樣至下個尺度的清晰度,並且在新的尺度上迭代地做這兩個步驟。注意到我們並不是在更粗糙的尺度上對源影象上取樣,而是直接對原先的高解析度源影象做下采樣至當前的尺度。這就使得系統可以將高頻率出現的細節插入到目標影象和紋理中。我們在所有的更精細的尺度上繼續做該步驟,從而在最精細的尺度上獲取最終結果。在最粗糙的尺度上,輸入的影象在更小的維度上有64個畫素我們總共有10個尺度,尺度引數為9x/64,x是原先的源影象中較小的維度。我們在最粗糙的尺度上做50次配準、重建的迭代,在更精細的尺度上則減少至5次。

正如圖8所示,這種多尺度的方式對於避免區域性極小值來說是很有必要的,因而會生成高質量的結果。直覺上說,我們的優化系統在更粗糙的尺度上配準全域性結構,在更精細的尺度上覆原細節。我們在附件視訊中演示了我們演算法在不同尺度上的收斂演算法。

圖8

五、結果(配圖灰色部分就是物體的(較為精確的)三維幾何結構)

我們用MATLAB/C++ 實現了框架演算法,並與當下最好方法(Eisemann et al. [2008];Waechter et al. [2014];Zhou and Koltun [2014])做對比。我們直接使用了前兩者的原始碼,而第三個方法由於沒有開原始碼,因此我們自己程式設計實現了。注意到對於Eisemann 等人的演算法,我們使用了靜態的場景,並生成了視角獨立的紋理,來做公平的比較。我們通過展示每個物體的一至兩個視角來演示結果,在附錄的視訊中可以找到來自不同視角的,體現了紋理對映效果的物體的段落。注意到我們的應用場景通常比Zhou and Koltun的更具挑戰性。這(更具挑戰性的原因)主要是由於我們隨機地在典型的光照條件下選擇場景,因此我們的幾何結構精確度較低。我們在Zhou and Koltun論文中提到的FOUNTAIN(噴泉)場景中測試了我們的方法,得到了有可比性的效果,參見圖14(配準目標)。

圖9是我們的方法與其他方法在6個有挑戰性物體上應用效果的比較,這些物體的經估計的幾何結構參見圖10。TRUCK(卡車)是有著複雜幾何結構的有挑戰性的景物,它無法通過消費級深度相機直接獲取幾何結構。Eisemann et al. [2008]在一對影象上做處理,使用沒有優化全域性能量函式的光流來校正失配,這種解法是求次優解的。由於他們的扭曲後的影象包含了區域性失配的情況,他們的方法會生成模糊的紋理。Waechter et al. [2014]的方法通過求解優化系統從每個表面選擇一個視角,來隱藏相鄰面的接縫。然而它們的方法無法在該情形下生成令人滿意的結果,這是因為他們在精確度很低的情況下會將不連續的紋理賦給鄰接面。參見上一行插圖中撕裂的人工痕跡,和下一行插圖的失真的熊臉。

此外由於不精確的幾何結構(見圖10),Zhou and Koltun的方法中的區域性扭曲無法對該情況中的顯著的失配做校正。因此他們的結果飽受重影和模糊之苦。我們的方法將配準後的目標影象進行合成,從而能夠產生人工痕跡很少的紋理對映影象。

沒有其他方法能夠處理槍的場景。特別注意在下一行插圖中只有我們的方法能夠重建細的黑的結構。

由於光流估計的不精確性,Eisemann等人的方法產生的結果具有撕裂的人工痕跡。Waechter等人的方法通過校正顏色的做法來解決鄰接面之間顏色差異的問題,這種做法價值並不大。由於在這種情況下影象是顯著地失配的,鄰接面可能有不連續的紋理。因此在兩行插圖中可以看到,顏色校正會帶來肉眼可見的變色情況。另外,我們嘗試了具有複雜幾何結構的房屋景物。

 

Waechter等人的方法產生了撕裂的人工痕跡,而Eisemann、Zhou and Koltun的結果則會有重影。這主要是由於景物的複雜性以及集合結構的不精確造成的。不過我們的方法可以在這些挑戰性的場景下產生高質量的結果。

書包景物的上一行插圖展示了一個幾何結構相對平滑的區域。然而Eisemann等人的方法仍然無法正確地配準影象,他們生成的還是模糊的紋理。此外,Waechter等人的方法因為相機姿態資料不正確的緣故,產生了具有撕裂的人工痕跡的結果。

儘管Zhou and Koltun的方法在該樣例中矯正了大部分的失配,他們的結果相比我們的還是要模糊一些。下一行插圖展示了有著複雜紋理的書包的一個側面區域。在該區域中,Waechter等人的方法會顯示出褪色的人工痕跡,而Zhou and Koltun或是Eisemann的方法則會造成重影的結果。這些方法在處理枕頭樣例的邊沿時,由於區域的幾何結構很複雜,也無法提供正確重建的紋理。值得一提的是,Waechter等人的做法在枕頭的陰暗面也會產生褪色的人工痕跡(參見附件視訊)。最終我們的方法在牛的樣例中恰當地重建了眼和愛心圖案的部分,以及藍色和棕色的結構部分。

在人的樣例上,將我們的方法與其他方法做比較,如圖11所示:由於在抓取環節物體一致在動,所以這個景物對所有方法來說都很有挑戰性。雖然其他的所有方法產生的結果都具有重影和模糊的人工痕跡,我們的方法恰當地處理了所有的不精確性,產生了高質量的紋理。

圖11

侷限性。我們的方法的主要侷限在於,基於塊的合成通常產生貌似真實的結果,但是在某些場景下卻無法保留語義資訊,正如圖12所示。這裡儘管我們的方式矯正了顯著的失配,生成了看似合理的結果,卻不能保留洞的結構。

圖12

六、其他應用

在本章節,我們討論本系統的幾個應用,包括紋理的修補孔洞,影象重組,多視角影象偽裝。注意到儘管基於塊的合成在之前已經被用於影象補洞和重組([Barnes et al. 2009; Simakov et al. 2008]),這些方法因為缺少一致性所以在我們的應用中不合適。

6.1紋理補洞

在一些情形下,真實世界中物體的紋理可能包含一些我們區域,需要我們用填洞的方式將它修飾掉。圖13就是一個例子:枕頭上的標籤是我們不想要的,應當在最終的紋理對映中被移除。為了實現該目標,我們首先用我們的系統合成配準後的目標影象。接著在一張配準影象中標記需要填補的區域(用藍色標記)。該區域可以被簡單地投影到其他視角,從而在所有的目標影象中生成這個洞。這些標記過的區域將每張目標影象分為HiIi(洞外區域)。

這裡的目標是從每個輸入Ii中抽取資訊來填補Hi,同時保證被填充區域的光學一致性。這與等式5中能量函式的主要性質很相似,所以我們的系統能用於實現補洞操作。注意到這個問題與多視角補洞這個課題有關,在[Baek et al. 2016; Thonat et al. 2016]中也有不少技術用於解決這些問題,但是我們提出了一種使用紋理對映框架來實現該工作的方法。

我們令等式5中的Si= IiTi= Hi。在此情形下,我們的優化以連續的方式從源中(洞外區域)抽取資訊來填補目標(洞)。這是通過對洞內外區域做塊搜尋,對搜出的區域做投票,然後只對洞的區域進行重建而成的。初始化的時候,我們並沒有使用源影象,而是使用MATLAB的roifill函式(參見部落格⑧)對洞的邊界畫素做平滑的填充。我們也省略了BDS能量項中的完整性那一項(見等式1),它用於在目標影象中保留絕大部分源影象中的資訊。注意到雖然對於配準是必要的,對於填洞來說不是必須的,因為我們只需要輸入的部分,而不是全部資訊來填洞。

在圖13中包含了我們的方法與[Wexler et al. 2007]基於塊的影象補洞技術的比較。雖然獨立地補洞在每個視角都能產生看似合理的結果(頂行),將它們結合起來的時候就會產生重影的效果(底部左列),這是因為它們缺乏一致性。Zhou and Koltun [2014]的方法可用於在不同的視角配準填洞後的影象(底部中間)。然而最終的紋理仍然包含了重影的效果,因為通過扭曲無法校正不一致性。我們的方法能夠在不同的視角生成一致的填洞後的結果,進而生成高質量填洞後的紋理。

圖13

不過該技術不能用於幾何結構填洞。因此我們的方法只能填補哪些底層幾何結構不復雜的紋理的洞,就像圖13中的情形。如何將我們的系統擴充套件到幾何結構的填補是未來有趣的一個研究方向。

6.2紋理重組

如圖14所示,我們的方