影象超解析度演算法（續）

前DL時代的SR

從訊號處理的角度來說，LR之所以無法恢復成HR，主要在於丟失了影象的高頻資訊。（Nyquist取樣定理）

Harry Nyquist，1889~1976，University of North Dakota本碩（1914,1915）+耶魯博士（1917）。AT&T貝爾實驗室電子工程師。IEEE Medal of Honor獲得者（1960）。

IEEE Medal of Honor是IEEE的最高獎，除了1963年之外，每年只有1人得獎，個別年份甚至會輪空。

最簡單的當然是《影象處理理論（二）》中提到的梯度銳化和拉普拉斯銳化，這種簡單演算法當然不要指望有什麼好效果，聊勝於無而已。這是1995年以前的主流做法。

稍微複雜的方法，如同CV的其它領域經歷了“訊號處理->ML->DL”的變遷一樣，SR也進入了ML階段。

這裡寫圖片描述

上圖是兩種典型的SR演算法。

左圖演算法的中心思想是從圖片中找出相似的大尺度區域，然後利用這個大區域的邊緣資訊進行SR。但這個方法對於那些只出現一次的邊緣資訊是沒什麼用的。

於是就有了右圖的演算法。對各種邊緣資訊建立一個數據庫，使用時從資料庫中挑一個最類似的邊緣資訊進行SR。這個方法比上一個方法好一些，但不夠魯棒，圖片稍作改動，就有可能無法檢索到匹配的邊緣資訊了。

ML時代的代表演算法還有：

《Image Super-Resolution via Sparse Representation》

這篇論文是黃煦濤和馬毅小組的Jianchao Yang的作品。

黃煦濤（Thomas Huang），1936年生。生於上海，國立臺灣大學本科（1956）+MIT碩博（1960,1963）。UIUC教授。美國工程院院士，中國科學院+中國工程院外籍院士。

馬毅，清華本科（1995）+UCB碩博（1997,2000）。UCB教授。IEEE fellow。
個人主頁：
http://yima.csl.illinois.edu/

這篇論文提出的演算法，在形式上和後文這些DL演算法已經非常類似了，也是基於HR和LR配對的有監督訓練。區別只在於這篇論文使用矩陣的稀疏表示來擬合SR函式，而DL演算法使用神經網路擬合SR函式。前者是線性變換，而後者是非線性變換。

參考

深度學習在影象超解析度重建中的應用

深度對抗學習在影象分割和超解析度中的應用

深度學習在單影象超解析度上的應用：SRCNN、Perceptual loss、SRResNet

NTIRE2017奪冠論文：用於單一影象超解析度的增強型深度殘差網路

如何通過多幀影像進行超解析度重構？

超解析度重建還有什麼可以研究的嗎？

胎兒MRI高解析度重建技術：現狀與趨勢

華為推出新型HiSR：移動端的超解析度演算法

SRCNN

SRCNN（Super-Resolution CNN）是湯曉鷗小組的Chao Dong的作品。

湯曉鷗，中國科學技術大學本科（1990）+羅切斯特大學碩士（1991）+麻省理工學院博士（1996）。香港中文大學教授，商湯科技聯合創始人。

論文：

《Learning a Deep Convolutional Network for Image Super-Resolution》

這裡寫圖片描述

該方法對於一個低解析度影象，先使用雙三次（bicubic）插值將其放大到目標大小，再通過三層卷積網路做非線性對映，得到的結果作為高解析度影象輸出。作者將三層卷積的結構解釋成與傳統SR方法對應的三個步驟：影象塊的提取和特徵表示，特徵非線性對映和最終的重建。

三個卷積層使用的卷積核的大小分為為9x9, 1x1和5x5，前兩個的輸出特徵個數分別為64和32。

以下是論文的效果表格：

這裡寫圖片描述

吐槽一下，這種表格屬於論文必須有，但是卻沒什麼營養的部分，且不乏造假的例子。原因很簡單，一個idea，如果沒有好效果，paper連發都發不了。但是，沒有好效果的idea，未必沒有價值，不說是否能啟發人們的思維，至少能讓後來者，不用再掉到同一個坑裡。
比如化學領域，失敗的實驗遠遠多於成功的實驗。在計算能力不發達的時代，人們主要關注成功的案例，但現在大家逐漸意識到：失敗的案例才是更大的財富。

這裡對其中的指標做一個簡介。

PSNR（Peak Signal to Noise Ratio，峰值信噪比）

M S E = \frac{1}{H \times W} \sum_{i = 1}^{H} \sum_{j = 1}^{W} (X (i, j) - Y (i, j))^{2}

P S N R = 10 \log_{10} (\frac{(2^{n} - 1)^{2}}{M S E})

其中，MSE表示當前影象X和參考影象Y的均方誤差（Mean Square Error），H、W分別為影象的高度和寬度；n為每畫素的位元數，一般取8，即畫素灰階數為256. PSNR的單位是dB，數值越大表示失真越小。

雖然PSNR和人眼的視覺特性並不完全一致，但是一般認為PSNR在38以上的時候，人眼就無法區分兩幅圖片了。

SSIM（structural similarity，結構相似性），也是一種全參考的影象質量評價指標，它分別從亮度、對比度、結構三方面度量影象相似性。

μ_{X} = \frac{1}{H \times W} \sum_{i = 1}^{H} \sum_{j = 1}^{W} X (i, j), σ_{X}^{2} = \frac{1}{H \times W} \sum_{i = 1}^{H} \sum_{j = 1}^{W} (X (i, j) - μ_{X})^{2}

σ_{X Y} = \frac{1}{H \times W} \sum_{i = 1}^{H} \sum_{j = 1}^{W} ((X (i, j) - μ_{X}) (Y (i, j) - μ_{Y}))

l (X, Y) = \frac{2 μ_{X} μ_{Y} + C_{1}}{μ_{X}^{2} + μ_{Y}^{2} + C_{1}}, c (X, Y) = \frac{2 σ_{X} σ_{Y} + C_{2}}{σ_{X}^{2} + σ_{Y}^{2} + C_{2}}, s (X, Y) = \frac{σ_{X Y} + C_{3}}{σ_{X} σ_{Y} + C_{3}}

深度學習（二十一）——SRCNN, DRCN, VDSR

影象超解析度演算法（續）

前DL時代的SR

參考

SRCNN

深度學習（二十一）——SRCNN, DRCN, VDSR

系統學習深度學習（二十一）--GoogLeNetV4與Inception-ResNet V1,V2

Python學習（二十一） —— 前端之JavaScript

初識Leetcode----學習（二十一）【打家劫舍、快樂數】

opencv學習（二十一）：圓檢測

spring深入學習（二十一） IOC 之屬性填充

Python3學習（二十一）：python操作MongoDB（增、刪、改、複雜查詢）

Spring 學習（二十一）——使用 JdbcTemplate

深度學習（二十四）——L2 Normalization, Attention（1）

深度學習（二十八）基於多尺度深度網路的單幅影象深度估計

機器學習（二十一）——Optimizer, 單分類SVM&多分類SVM, 時間序列分析

深度學習（二十九）——Normalization進階, CTC

深度學習（二十七）視覺化理解卷積神經網路（反池化 pooling unpooling）

ROS的學習（二十一）使用時間和TF

深度學習（二十七）視覺化理解卷積神經網路

深度學習（二十九）Batch Normalization 學習筆記

深度學習（六十一）NNPACK 移植與實驗

深度學習（四十一）cuda8.0+ubuntu16.04+theano、caffe、tensorflow環境搭建

機器學習與深度學習系列連載：第二部分深度學習（二十一) Beam Search

軟體設計模式學習（二十一）中介者模式

深度學習（二十一）——SRCNN, DRCN, VDSR

影象超解析度演算法（續）

前DL時代的SR

參考

SRCNN

相關推薦