尺度空間(scale space)理論

要理解多尺度,首先要知道什麼是尺度空間。xiaowei一文中提到,自然界中的物體呈現出不同的形態,需要不同的尺度觀測。比如,建築物用“米”測量,原子用“納米”。比較形象的是,在平常使用的Google地圖,可以滑動滑鼠來改變地圖的尺度;照相機通過調焦,將景物拉近拉遠。尺度空間中各尺度影象的模糊程度逐漸變大,模擬了景物由近到遠在視網膜形成過程。

為什麼要討論尺度空間?因為計算機在不知道影象尺寸的情況下,需要考慮多尺度以獲取興趣物體的最佳尺度。同時,在一幅影象的不同尺度下檢測出相同的關鍵點來匹配,即尺度不變性。

尺度空間表達——高斯模糊

David Lowe 2004年 在Int. Journal of Computer Vision 的經典論文(Distinctive Image Features from Scale-Invariant Keypoints)中,對尺度空間的定義:

“It has been shown by Koenderink (1984) and Lindeberg (1994) that under a variety of reasonable assumptions the only possible scale-space kernel is the Gaussian function. Therefore, the scale space of an image is defined as a function, L(x, y, σ), that is produced from the convolution of a variable-scale Gaussian, G(x, y, σ), with an input image, I (x, y)."

抽取要點:

1. 高斯核是唯一可以產生多尺度空間的核;

2. 一幅影象的尺度空間 L(x, y, σ), 定義為原始影象 I(x,y) 與一個可變尺度的2維高斯函式G(x, y, σ)卷積運算。

即尺度空間形式表示為:

多尺度和多解析度的區別
最大的不同:
    尺度空間表達是由不同高斯核平滑卷積得到,在所有尺度上有相同的解析度;
    而(金字塔)多解析度表達每層解析度減少固定比率。

所以,(金字塔)多解析度生成較快,且佔用儲存空間少;而多尺度表達隨著尺度引數的增加冗餘資訊也變多。
多尺度表達的優點在於影象的區域性特徵可以用簡單的形式在不同尺度上描述;而(金字塔)多分辨的表達沒有理論基礎,難以分析影象區域性特徵。

1. 比如有一幅影象,裡面有房子有車有人,在這整張圖上提取特徵,提取的是全域性的特徵;現在,擷取影象的一部分,比如擷取汽車的部分,並將其放大至與原圖相同的尺寸,在此時擷取後放大的圖上提取特徵,提取的是整幅影象中某一部分的詳細特徵。

2. 或者,例如在進行卷積時,如圖(隨便截的圖),分別提取出第三、四、五層卷積得到的特徵圖,然後將他們縮放到同一尺寸,也是一種多尺寸的表現。其中越深的卷積層提取出的特徵圖越抽象,提取到的特徵更高階。

使用多尺度,就可以提取更全面的資訊,既有全域性的整體資訊,又有區域性的詳細資訊