1. 程式人生 > >All-in-focus based on Multi-focus Image Fusion 相關文獻閱讀理解

All-in-focus based on Multi-focus Image Fusion 相關文獻閱讀理解

2018 Unsupervised Deep Multi-focus Image Fusion  Xiang Yan

2016 Multi-focus image fusion with a deep convolutional neural network Yu Liu

2014 Multi-scale weighted gradient-based fusion for multi-focus images

LytroDataset

大部分成像系統,例如數碼單反相機,有一個有限的景深,使場景內容在有限的距離成像平面保持焦點。具體來說,離焦點更近或更遠的物體在影象中表現為模糊

(失焦)對焦有的會導致全圖失焦。多聚焦影象融合(MFIF)旨在從同一場景的兩個或多個部分聚焦的影象中重建一個完全聚焦的影象。

平時我們拍照一般都是區域性聚焦,也就是我們拍照時點選某一處,該處會聚焦,那麼其他部分則會失焦,那麼有時我們想全圖都聚焦,這時可以通過多個部分聚焦的影象進行合成,形成全聚焦影象all-in-focus.

 

2018 Unsupervised Deep Multi-focus Image Fusion  Xiang Yan

    我們難以自己合成失焦模糊的影象,同理也就難以得到標籤影象(全聚焦的影象)。

本文提出了一個無監督的基於深度學習的多聚焦影象融合方法,重點還是無監督的,解決了我們可以獲得大量真實部分失焦的影象卻無法獲得真實的全聚焦影象問題。能夠實現無監督,主要作者利用影象結構相似度

(SSIM)來計算損失。

     本文提出的網路見下圖,主要包含特徵提取網路子網路和一個特徵重建子網路。

1 輸入為一對影象,兩個部分失焦影象(理想時失焦部位不要相同,不然一樣清晰了,目的讓CNN學習選擇清晰的區域作為最終合成的部位);

2 將兩個紫色特徵提取網路提取的兩個影象特徵進行融合+conv+relu

3 橘色特徵網路的輸入則是這對影象的均值影象;

4 最後紫色特徵提取網路提取的特徵與step2合成的特徵進行相加作為特徵重建的輸入。

5 特徵重建網路的目標是生成最終的融合影象,輸出融合影象由最後一個具有Sigmoid

形非線性的卷積層給出。

6 SSIM(結構相似性) 指標經常用來作為影象融合演算法的效能,他主要基於影象的方差,協方差等性質計算。一般用來計算兩幅影象中不同滑動視窗對應位置的結構相似性。例如輸入的成對影象x1x2, SSIM範圍為[-1,1],當其為1時表示x1和x2相同。

7 STD(標準偏差)則代表影象的清晰度,當STD(x1) 大於 STD(x2),則表示x1更清晰。因此當x1x2清晰時,我們希望目標生成的合成影象與x1的結構相似性要儘量相同。

8 目標損失函式:目標函式就是最大化融合影象和輸入影象之間的結構一致性。輸入影象則是多個屬於影象的由各個清晰區域性塊組成的。

9 文章使用了來自基準測試的60對多焦點影象Lytro多焦點影象資料集,且基於patch訓練。

主要懟的論文:

Y. Liu, X. Chen, H. Peng, and Z. Wang, “Multi-focus image fusion with a deep convolutional neural network,” Information Fusion, vol. 36, pp. 191–207, 2017.

 

H. Tang, B. Xiao, W. Li, and G. Wang, “Pixel convolutional neural network for multi-focus image fusion,” Information Sciences, Vol 433-434, pp 125 – 141, 2017.

 

 

2016 Multi-focus image fusion with a deep convolutional neural network Yu Liu

這篇文章的主要共享就是將深度學習應用到多聚焦影象融合。通過深度學習直接輸入多個失焦模糊影象,生成一個失焦概率圖,然後基於概率圖對輸入的影象組進行融合。

0  多聚焦影象融合的難點在於聚焦程度的測量以及融合的策略,因此本文通過深度學習將這兩個問題聯合學習,直接輸出一個融合的概率圖。

1 文章的啟發點則是將融合問題轉為一個二分類問題(失焦或者聚焦),例如輸入影象p1p2,p1p2清晰則對應的標籤為1,反之為0作為負樣本。

2 在使用網路進行預測時,如何採用分塊預測的話,特徵提取重複過多,影響效率,因此採用另外一種方法,直接將整個影象作為輸入,先進行尺度歸一化,類似影象分割輸出為一個概率圖;

3 為了比較patch相似度,文章分析三種類型的CNN模型: siamese, pseudo-siamese and 2-channel,選擇siamese one作為本文的網路模型,

4 訓練時則採用patch進行訓練,那麼選擇多大的pactch,作者也進行了分析。

  patch32*32 準確率確實高,因為patch足夠大包含的影象內容也就多了。但是最大池化層的個數不容易確定,例如,當一個分支中有兩個甚至更多的最大池化層時,這意味著補丁的步長至少為4個畫素,融合結果往往會受到類似馬賽克的artifacts. 另一方面,當分支中只有一個最大池化層時,由於完全連線層中的權重顯著增加,CNN模型的大小通常非常大。進一步問題是,multi-focus影象融合,32×32的設定通常不是很準確,因為32×32塊更可能同時包含聚焦和散焦地區,這將導致在邊界地區融合影象有不良的結果。當然8*8太小了,因此作者根據測試的效果選擇了16*16.

2014 Multi-scale weighted gradient-based fusion for multi-focus images

這是一個傳統方法,基於梯度融合多個失焦模糊的影象(效果一般)

0 文章首先指出多聚焦影象往往因為相機的抖動導致影象出現各向異性模糊,同時影象間出現錯位(不對齊問題)。各向異性模糊會導致聚焦的區域性塊因為模糊,導致計算出的聚焦測度比非聚焦的影象小,導致最終融合的是非聚焦部位。不對齊問題則會導致圖A某失焦部分對應到圖B的平滑區域,這樣圖A的整個失焦區域計算的聚焦測度較大,最終合成到融合影象中。因此作者認為單一尺度無法有效的對影象進行聚焦測度。而目前大多聚焦測度方法沒有考慮到這兩個問題。

  1. 針對上面兩個問題,作者提出了一個影象結構顯著性,以及基於該影象結構顯著性的基於加權梯度融合的影象融合方法。最後作者定義了一個基於多尺度影象結構的聚焦測度方法,作者認為大尺度測度下,不匹配和各向異性模糊帶來的問題會減弱,而小尺度的測度,可以大致確定邊緣附近的聚焦區域。
  2. 作者首先描述了大家之前的結合結構張量(區域性影象的方差,協方差等計算得到)的梯度融合方法,這個方法使得各個影象融合時,其各個梯度的權重一樣,這樣會導致artifcats.因此本文提出了結合結構顯著性的加權梯度融合方法,基於影象區域性的特徵值S1,S22個,x,y方向),如果兩個值都小,則表示為平滑區域,如果一個值大,為邊緣,兩個都大,則為角點。
  3. 基於提出的結合結構顯著性的加權梯度融合方法,對其值乘一個不同方差的高斯核,形成多尺度的聚焦測度方法,大尺度的可以較弱不匹配和模糊帶來的問題,小尺度可以基本定位邊緣的聚焦性。