1. 程式人生 > >高階視覺之影象分類

高階視覺之影象分類

這裡所關注的問題:根據影象是否包含某個特定物體來分類影象、分類場景、分類材質
分類:提取影象(描述)特徵、訓練分類器(機器學習方法)、驗證分類器

一、一起聊聊影象的特徵提取吧!(更關注的是全域性資訊,而不是區域性,比如佈局等,所以經典的SIFT失效啦,但在構建視覺詞典的時候還是能用到SIFT的)

方法一:GIST特徵
32個gabor filter(8個orientation ,4 個scale),將卷積結果分為16個region,每個region求一個平均值,最終形成一個32*16=512維的特徵向量,能表示梯度資訊。
GIST特徵常用來表示場景

方法二:visual word
影象特徵由多個patch來描述,生成影象關於不同patch個數的直方圖作為影象特徵描述子
建立詞典:由多個patch的sift描述子構成(每個patch有一個描述子),通過k-means方法,獲得型別相似的patch描述子
在這裡插入圖片描述

生成影象的直方圖:給定一個影象,提取所有特徵點,特徵點與其周圍的畫素點形成patch,特徵點的sift描述子可作為patch的描述,依次與詞典中patch做距離運算進行聚類,記錄最近的類,為其個數加1。最終可以得到影象關於詞典中特徵出現個數的向量描述。
存在的問題:全域性的統計資訊,無法區分位置資訊

Spatial pyramids 空間金字塔(構建多尺度金字塔 ,對visual word的改進)
多尺度體現在把影象分為不同個數的塊(1、4、16塊,在每個塊上計算基於visual word的特徵表示)
在這裡插入圖片描述
通常獲取的特徵向量維數太大,需要降維處理,因而引出資料降維

二、得到的特徵向量太大了運算不好,於是乎人們提出了降維!

PCA:
選取使得樣本間的方差最大的投影子空間
選取k個主要的投影子空間,得到k維的資料。
存在問題:僅僅是重建資料,對分類無益,引出了LDA,我們是對特徵資料降維處理,自然是希望降維後的資料能保持區分性

LDA:
投影子空間使得類間差別最大,類內差別最小

終於獲得了影象完美的資料特徵(運算量可接受),下一步就可以訓練分類器啦,然後分類影象。