1. 程式人生 > >影象質量評價之結構相似性SSIM(中)

影象質量評價之結構相似性SSIM(中)

上一篇文章中,我們介紹了對影象質量進行評價的必要性、主觀評價和客觀評價的兩種標準,以及設計符合人類直覺的評價標準的困難性和重要性。

本來這篇文章想把我們的主角SSIM講完,但是發現前面需要寫的鋪墊有點長hhh,所以本文是作為一個過渡,系統的講解一下設計影象評價標準的過程和目前的缺點,SSIM的詳細講解將在下一篇文章中介紹(保證下一篇是最後一篇,別打我QAQ)

提前預告一下,這一篇可能比較無聊==,但是對在腦海中構建一個整體框架還是挺有幫助的~

基於誤差敏感性的影象質量評價

在對影象質量進行評價時,我們會拿到一些未失真的原始影象訊號和一個失真影象訊號,之後我們將失真影象與未失真影象通過一定的方法進行比較,最終得到一個失真影象與原始影象的誤差

。我們一般會假設失真影象質量與得到的誤差直接相關,這樣這個誤差最終就被認為是衡量影象質量的標準。

這裡面最簡單的例子就是MSE,但MSE效果是在太差(參照前面講的,同一個MSE對應不同質量的圖片),於是近年來新的方法不斷被提出。在這裡我們介紹一下提出一個新的基於**誤差敏感性(error sensitivity)**的評價標準的一般步驟,以及現有的方法有什麼侷限性。

一般步驟

評價標準的設計過程一般分為預處理、CSF濾波、通道分解、誤差歸一化、誤差池化5步,下面分別簡單介紹,這個部分大略看看就好不需要完全理解~

  1. 預處理(pre-processing):首先,拿到影象一般不能直接用,需要做些預處理,對影象訊號進行一些基本變換,比如縮放、排列,或者轉換顏色空間(color space),以及針對顯示裝置逐畫素進行變換等等。
  2. CSF濾波(CSF Filtering):接下來可能要對對預處理得到的影象訊號使用CSF進行加權。CSF的全稱是contrast sensitivity function,按照字面翻譯過來就是對比度敏感性函式。這個函式描述了人類視覺系統(HVS)對視覺刺激的時空頻率的敏感程度。
    CSF一般會用一個線性濾波器來近似實現。不過在現在的一些研究當中,是在後面提到的通道分解之後,用基頻靈敏度歸一化(base-sensitivity normalization)實現CSF。
  3. 通道分解(Channel Decomposition):影象一般由多個**通道(channel)**組成(比如最常見的RGB+alpha通道)。經過前面兩步處理的影象訊號,往往需要再分解成多個不同的通道。
    把影象訊號分解成若干通道時,可以考慮視覺皮層的神經元的特性,也可以只做一些很簡單的變換,比如離散餘弦變換(discrete cosine transformDCT)
    、*可分離的小波變換(separable wavelet transform)*等等。
  4. 誤差歸一化(Error Normalization):分解完通道,我們混通過指標中的定義計算出失真影象與參照影象在每個通道的誤差。但是需要注意,各個通道計算出的誤差的數量級可能不一樣,需要歸一化到相當的水平。
  5. 誤差池化(Error Pooling):現在到了最後一步,就是把空間上各部分和各通道的誤差使用某種方法“合成”為一個數字,也就是我們最終得到的誤差啦~
    其中,一個很經典的“合成”方法是使用閔可夫斯基範數(Minkowski Norm),公式是這樣滴:
    E({el,k})=(lkel,kβ)1βE(\{e_{l,k}\}) = (\sum\limits_l \sum\limits_k|e_{l,k}|^\beta)^\frac{1}{\beta}
    這裡的el,ke_{l,k} 是第ll個通道的第kk個係數歸一化之後的誤差,而β\beta是個常數,一般取1到4。我們可以選擇先累加kk再累加ll,當然也可以反過來。

侷限性

現在基於誤差敏感性的方法確實有用,不過侷限性也有很多。其中一個很突出的問題是,人類視覺系統很複雜,是高度非線性的,但早期的評價標準很多都只使用了線性(linear)或準線性(quasilinear)運算元進行計算。

目前已經有很多對這些方法的侷限性的研究了,這裡大略總結一下(這個部分只是簡單介紹,省略了原始論文中的一些細節說明):

  1. 影象質量的定義問題(The Quality Definition Problem):對於傳統的評價方法來說,最基本的一個問題就是怎樣定義影象質量。我們很難說影象的質量上的損失是否就能體現保真程度。有些質量問題可以輕易觀察到,但是不太影響影象的失真程度。比如說,我們把所有的畫素都乘上一個常數,影象並不會失真多少,但影象的各畫素值卻有明顯的變化。
  2. 超閾值問題(The Suprathreshold Problem):這屬於精神物理學(psychophysics)中的概念,很多標準是建立在**閾值(threshold)的基礎上的,也就是研究剛剛能引起響應的刺激。而當刺激遠遠超過閾值,也就是在閾上(suprathreshold )**時,相關研究就很少。但影象中卻需要考慮這方面。
    關於閾值和超閾想要了解的可以參考這裡
  3. 自然影象的複雜性問題(The Natural Image Complexity Problem):真實圖片十分複雜,而現有的應用的模式卻很簡單,這是個不得不面對的問題。
  4. 去除相關性問題(The Decorrelation Problem):在使用之前提到的Minkowski範數進行誤差的計算時,我們其實已經暗自做了一個假設:不同位置上的誤差是獨立的。只有這樣,我們才能把它們累加起來。而事實上,如果我們在之前誤差池化這一步中使用一些線性的分解方法,就沒有去除這種相關性。
  5. 認知互動問題(The Cognitive Interaction Problem):人類在認知上的特點以及在觀察圖片時的所做的一些互動行為(比如看圖片時眼睛的移動)也會影響人對圖片質量的感受。之前也有研究表明,在觀察圖片時,給的互動方式不同,最終人的評價也不一樣。但這種東西很難去把握,所以多數方法種也就沒有考慮這方面的影響。