《影象處理、分析與機器視覺》(第4版)閱讀筆記——第四章 影象分析的資料結構
4.1 影象資料表示的層次
共分為四個層次:
最底層的表示:圖示影象(iconic images),由含有原始資料的影象組成,原始資料也就是畫素亮度資料的整數矩陣。(預處理的部分)
第二層的表示:分割影象(segmented images)。
第三層:幾何表示(geometric representation),儲存2D和3D形狀知識。拍攝影象與CAD模型之間的轉換。
第四層:關係模型(relational models)。涉及AI技術,語義網路或框架。
4.2 傳統影象資料結構
4.2.1 矩陣
用矩陣表示的特殊影象有:
- 二值影象(binary image)(僅有兩個亮度級別的影象)用僅含有0和1的矩陣來表示。
- 多光譜影象(multispectral image)的資訊可以用幾個矩陣來表示,每個矩陣含有一個頻帶的影象。
- 分層影象資料結構(hierarchical image data structures)用不同解析度的矩陣來獲得。影象的這種分層表示對於具有處理陣列結構的平行計算機是非常方便的。
矩陣中有大量的影象資料。如果首先從原始的影象矩陣得出全域性資訊,由於全域性資訊更緊湊並且佔用的儲存少,那麼演算法就可以加速。全域性資訊的例子如下:
- 亮度直方圖(brightness histogram)從概率的角度觀察,標準化的直方圖是如下現象的概率密度的估計:一個影象的畫素具有某個亮度。
- 共生矩陣(co-occurrence matrix)
- 積分影象(integral image)的構造方式是位置處的值是原影象左上角所有畫素的和:
其中是原影象。
積分影象主要用來快速計算多個尺度的簡單矩形影象特徵。這種特徵能用在快速的目標識別和目標跟蹤。
4.2.2 鏈
鏈在計算機視覺中用於描述物體的邊界。
鏈碼(chain codes)(也稱Freeman碼)常用於描述物體的邊界,或者影象中一個畫素寬的線條。
行程編碼(run length coding)
4.2.3 拓撲資料結構
拓撲資料結構將影象描述成一組元素及其相互關係,這些關係通常用圖結構來表示。
圖(graph)、賦值圖(weighted graph)、區域鄰接圖(region adjacency graph)
4.2.4 關係結構
使用關係結構的描述適合於高層次的影象理解工作。在這種情況下,類似於資料庫檢索,用關鍵詞搜尋適用於加速整個處理過程。
4.3 分層資料結構
4.3.1 金字塔
分為M型金字塔(M-pyramids)(矩陣型金字塔)和T型金字塔(T-pyramids)(樹形金字塔)。
M型金字塔是一個影象序列,其中是具有與原影象同樣的解析度和元素的影象,是降低一半解析度得到的影象。當建立金字塔3,通常只考慮維數是2的冪的方陣,這時則僅對應於一個畫素。
當需要對影象的不同分辨率同時進行處理時,可以採用M型金字塔。解析度每降低一層,資料量則減少4倍,因而處理速度差不多也提高4倍。
通常同時使用幾個解析度比僅使用M型金字塔中的一個影象要優越。對於這類演算法,則可用T型金字塔,樹狀結構。在T型金字塔中,除了根(0,0,0)之外的所有結點都有定義。除了葉子結點外,T型金字塔的每個結點都有4個結點;葉子結點是第L層的結點,對應於影象的單個畫素。葉子結點的值就是原始影象在最高解析度下的影象函式的值(亮度),影象的尺度是。樹的其他層結點的數值或者是四個子結點的算數平均值,或者是由粗取樣定義的值。
4.3.2 四叉樹
四叉樹是對T型金字塔的改進。
優點:對於影象相加、物體面積計算和統計矩(moments)計算存在簡單的演算法。
缺點:依賴於物體的位置、方向和相對大小。兩個僅有微小差別的相似影象可能會具有非常不同的金字塔或四叉樹表示。甚至,完全相同而只有略微移動的景物的兩幅影象也可能產生完全不同的表示。