1. 程式人生 > >論文學習 + 論文寫作 | 最前沿的亞畫素運動補償 + 視訊超分辨:Detail-revealing Deep Video Super-resolution

論文學習 + 論文寫作 | 最前沿的亞畫素運動補償 + 視訊超分辨:Detail-revealing Deep Video Super-resolution

目錄

在看這篇論文的時候,我們既學習論文的思想,也學習論文的寫作方式。

O. Abstract

摘要是最亮眼的部分,需要簡潔明瞭地點出:

  1. 簡要背景介紹,及其存在的問題或者動機。
  2. 提出的方法。
  3. 達到的效果。

作者指出,視訊超分辨中最關鍵的環節,是從相鄰幀中獲取有效資訊。
獲取方法無非是 frame alignment

和運動補償。
而作者正是通過引入 SPMC layer ,取得了更好的效果。

  1. 之前的基於 CNN 的視訊超分辨方法,需要 align multiple frames to the reference 。
    我們發現,合理的 frame alignment 和運動補償,對超分辨結果非常關鍵。
  2. 我們提出了 sub-pixel motion compensation (SPMC) 層。
  3. 該運動補償層在 SR 網路中的適應性很好,與整體 CNN 網路配合默契,效果超過了 state-of-the-art 且不需要調參。

I. Introduction

Introduction 是對工作的概述,說白了就是對 Abstract 的全面拓展。注意以下幾點:

  1. 在介紹動機或解決的問題時,只需要簡要說明前人的工作,但目的是引出自己工作的不同和進步。
    回顧前人工作不能太詳細,詳細部分在後面的 Related Work 部分。
  2. 貢獻點是需要著重強調的,最好有最精煉、最亮眼的資料支援。詳細資料也應該

首先作者再次強調了 alignment 對視訊 SR 的重要性。這實際上也是 Motivation 。
其次,作者用兩個大標題:Motion CompensationDetail Fusion ,回答了 Motivation 中需要解決的兩大核心問題。
最後,作者再用一個大標題:Scalability ,補充闡述了本文的第三大貢獻點。

這種寫作方式值得借鑑,在分段概述工作的同時,還說清楚了貢獻點,簡潔明瞭。

影象 SR 只能從 external 樣本中獲取先驗知識(因為測試集和訓練集是分開的);但對於一個好的視訊 SR 系統,它必須能夠從多幀中提取資訊,而不借助外部力量(其他視訊的樣本)。
因此,多幀 align 和 fuse 是視訊 SR 的兩大核心問題。

Motion Compensation
幀間的劇烈運動,使得我們很難在多幀中尋找同一物體。但是,亞畫素的運動是微小的,因此有助於細節的恢復。
大多數前人的工作,都通過預測 optical flow 或通過 block-matching ,來實現幀間運動補償。
補償完了,再用傳統的方法重建 HR 影象。這種方法計算量很大。
近期的深度學習方法,是通過 backward warping 來實現運動補償的。
我們將要證明,這個看上去合理的方法,實際上對視訊 SR 而言是不合理的!通過改進運動補償機制,SR 效果可以提升。
我們提出的是 SPMC 策略,我們將從理論分析和實驗上驗證它。

Detail Fusion
當然了,這一部分是 SR 的第二個核心問題。
我們提出了新的 CNN 網路,來與 SPMC 協同合作。
儘管前人的 CNN 網路也可以輸出邊緣清晰的影象,但是,我們不清楚這些細節是從輸入中得到的,還是從外部資料中得到的(訓練得到的先驗知識)。
後果是,在人臉識別、文字識別等實際應用中,只有真實的細節是有效的。
因此,本文會提供 insightful ablation study ,來驗證這一觀點。

Scalability
這是一個一直以來被忽視,但在應用中很有意義的 SR 系統特點:可放縮性。
之前的基於學習的網路,受引數影響很大。如果輸入的格式不同,那麼訓練好的網路引數可能就不能用了。
與之相反,我們的網路具有完全的可放縮性。

  1. 我們的網路可以接收任意大小的輸入;
  2. SPMC 不含任何可訓練引數,因此縮放倍數可隨意選擇;
  3. 我們的 Conv-LSTM 可以接收任意數量的圖片。

II. Relative Work

要按時間順序,列舉具有代表性的重要工作,並且指出本文工作的不同點。

要分別介紹不同環節各自的 Relative work 。

III. Sub-pixel Motion Compensation (SPMC)

概述和鋪墊都介紹完了,以下是正文時刻。
網路的不同環節,可以分為多個章節介紹。這就是第一個環節。

在介紹前,一定要說清楚 notations 。有時候藉助 notations ,後文講解起來也更輕鬆。
比如要表示相鄰的最近2幀,左、右各1幀,不妨定義幀序列,用下標來表示。

本文的做法:定義幀,幀序列,降質過程:

1

接下來的一張圖非常重要:

2

很有意思的是,我們可以把這些操作都理解為矩陣運算。
首先,每一張圖片都是一個列向量。如果是一張 8x8 的圖片,那麼該向量維度就是64。向量中的元素非0即1。
其次,我們對圖片的操作有兩種:降取樣和形變。
如果是2倍降取樣,那麼 S 矩陣就是 4x8 的,意味著 LR 圖片是一個維度為16的列向量。
形變矩陣恆為 8x8 。
通過矩陣轉置,我們可以看出這兩種操作的轉置操作的物理意義:降取樣的轉置是補零升取樣,形變的轉置操作結果看圖,會產生一些新的元素。
注意,轉置操作雖然不是逆操作,但操作方向是相反的。如果我們定義正向為第0幀到第i幀,那麼轉置操作就是從第i幀到第0幀。

現在,我們的目的就是構建這一降質過程。由於是利用多幀資訊,因此事情變得不那麼簡單,需要考慮噪聲的影響。
論文中還近似求解了降質誤差最小時:

3

參考我的部落格:https://www.cnblogs.com/RyanXing/p/9487245.html

摘抄本

0. Abstract

We show that ... is crucial. We accordingly propose a ...

For that reason.

1. Introduction

Video SR aims at recovering HR images from a sequence of LR ones.

避免 images 重複出現。

An ideal video SR system should be able to correctly extract and fuse image details in multiple frames.

這兩個詞的搭配在 CNN 中使用得非常頻繁。

While large motion between consecutive frames increases the difficulty to locate corresponding image regions, subtle sub-pixel motion contrarily benefits restoration of details.

一句話就說清楚了,原來的侷限性,和 sub-pixel 的優勢。

A traditionally-overlooked but practically meaningful property of SR systems is the scalability.

簡潔。

With the seminal work of SRCNN, a majority of recent SR methods employ deep neural networks.

一句話介紹開端、工作和方向。