1. 程式人生 > >PCANet: A Simple Deep Learning Baseline for Image Classification?--名詞解釋

PCANet: A Simple Deep Learning Baseline for Image Classification?--名詞解釋

1 上取樣與下采樣

縮小影象(或稱為下采樣(subsampled)或降取樣(downsampled))的主要目的有兩個:

  1. 使得影象符合顯示區域的大小
  2. 生成對應影象的縮圖

下采樣原理:對於一幅影象I尺寸為M*N,對其進行s倍下采樣,即得到(M/s)*(N/s)尺寸的得解析度影象,當然s應該是M和N的公約數才行,如果考慮的是矩陣形式的影象,就是把原始影象s*s視窗內的影象變成一個畫素,這個畫素點的值就是視窗內所有畫素的均值。

放大影象(或稱為上取樣(upsampling)或影象插值(interpolating))的主要目的是放大原影象,從而可以顯示在更高解析度的顯示裝置上。
上取樣原理

:影象放大幾乎都是採用內插值方法,即在原影象畫素的基礎上在畫素點之間採用合適的插值演算法插入新的元素。

2 LDA介紹
LDA(Latent Dirichlet Allocation)是一種文件生成模型。它認為一篇文章是有多個主題的,而每個主題又對應著不同的詞。一篇文章的構造過程,首先是以一定的概率選擇某個主題,然後再在這個主題下以一定的概率選出某一個詞,這樣就生成了這篇文章的第一個詞。不斷重複這個過程,就生成了整片文章。當然這裡假定詞與詞之間是沒順序的。LDA的使用是上述文件生成的逆過程,它將根據一篇得到的文章,去尋找出這篇文章的主題,以及這些主題對應的詞。
3  Gabor features

在機器視覺中,gabor feature是一種比較常見的特徵,因為其可以很好地模擬人類的視覺衝擊響應而被廣泛應用於影象處理, gabor feature 一般是通過對影象與gabor filter做卷積而得到,gabor filter定義為高斯函式與正弦函式的乘積,其表示式如下:

上面的式子可以通過三角函式展開:

實數部分:

虛數部分:

其中原始資料x,y與x',y'滿足如下關係:

表示波長,表示旋轉角度,表示相位偏移量,是高斯函式裡的標準差,表示空間比率。當為 1 的時候,表示在x-y 平面的投影是一個圓,如果不為1,則投影是一個橢圓。越大,橢圓在 x 方向的軸越長,反之,

越小,橢圓在 y 方向的軸越長。

 4 LBP特徵原理

4.1 LBP特徵背景的介紹

LBP指區域性二值模式,英文全稱:Local Binary Pattern,是一種用來描述影象區域性特徵的運算元,LBP特徵具有灰度不變性和旋轉不變性等顯著優點。它是由T. Ojala, M.Pietikäinen, 和 D. Harwood [1][2]在1994年提出,由於LBP特徵計算簡單、效果較好,因此LBP特徵在計算機視覺的許多領域都得到了廣泛的應用,LBP特徵比較出名的應用是用在人臉識別和目標檢測中,在計算機視覺開源庫OpenCV中有使用LBP特徵進行人臉識別的介面,也有用LBP特徵訓練目標檢測分類器的方法,Opencv實現了LBP特徵的計算,但沒有提供一個單獨的計算LBP特徵的介面。

4.2 LBP特徵的原理

原始的LBP運算元定義在畫素3*3的鄰域內,以鄰域中心畫素為閾值,相鄰的8個畫素的灰度值與鄰域中心的畫素值進行比較,若周圍畫素大於中心畫素值,則該畫素點的位置被標記為1,否則為0。這樣,3*3鄰域內的8個點經過比較可產生8位二進位制數,將這8位二進位制數依次排列形成一個二進位制數字,這個二進位制數字就是中心畫素的LBP值,LBP值共有28種可能,因此LBP值有256種。中心畫素的LBP值反映了該畫素周圍區域的紋理資訊。
備註:計算LBP特徵的影象必須是灰度圖,如果是彩色圖,需要先轉換成灰度圖。

上述過程用影象表示為:

以後針對LBP有很多改進的版本,這裡就不一一贅述。

5 SIFT特徵

SIFT(Scale-Invariant Feature Transform)特徵,即尺度不變特徵變換,是一種計算機視覺的特徵提取演算法,常用來進行物體辨識和影象匹配。所謂的尺度不變特徵是指每個檢測到的特徵點都伴隨著對應的尺寸因子(特徵點的區域性尺寸引數與特徵的尺度成正比)。它在尺度空間中尋找極值點,並提取出其位置、尺度、旋轉不變數,此演算法由 David Lowe在1999年所發表,2004年完善總結。
SIFT 特徵是基於物體上的一些區域性外觀的興趣點而與影像的大小和旋轉無關。對於光線、噪聲、些微視角改變的容忍度也相當高。基於這些特性,它們是高度顯著而且相對容易擷取,在母數龐大的特徵資料庫中,很容易辨識物體而且鮮有誤認。使用 SIFT特徵描述對於部分物體遮蔽的偵測率也相當高,甚至只需要3個以上的SIFT物體特徵就足以計算出位置與方位。在現今的電腦硬體速度下和小型的特徵資料庫條件下,辨識速度可接近即時運算。SIFT特徵的資訊量大,適合在海量資料庫中快速準確匹配。
SIFT演算法的特點有:

  • SIFT特徵是影象的區域性特徵,其對旋轉、尺度縮放、亮度變化保持不變性,對視角變化、仿射變換、噪聲也保持一定程度的穩定性;
  • 獨特性(Distinctiveness)好,資訊量豐富,適用於在海量特徵資料庫中進行快速、準確的匹配;
  • 多量性,即使少數的幾個物體也可以產生大量的SIFT特徵向量;
  • 高速性,經優化的SIFT匹配演算法甚至可以達到實時的要求;
  • 可擴充套件性,可以很方便的與其他形式的特徵向量進行聯合。

SIFT演算法的實質是在不同的尺度空間上查詢關鍵點(特徵點),並計算出關鍵點的方向。SIFT所查詢到的關鍵點是一些十分突出,不會因光照,仿射變換和噪音等因素而變化的點,如角點、邊緣點、暗區的亮點及亮區的暗點等。

6 HOG特徵

方向梯度直方圖(Histogram of Oriented Gradient, HOG)特徵是一種在計算機視覺和影象處理中用來進行物體檢測的特徵描述子。它通過計算和統計影象區域性區域的梯度方向直方圖來構成特徵。Hog特徵結合SVM分類器已經被廣泛應用於影象識別中,尤其在行人檢測中獲得了極大的成功。
HOG特徵的核心思想是在一幅影象中,區域性目標的表象和形狀(appearance and shape)能夠被梯度和邊緣的方向密度(梯度的統計資訊,而梯度主要存在於邊緣地方)很好地描述。通過將整幅影象分為多個小的連通區域(cells),並計算每個cell的梯度或邊緣方向直方圖,這些直方圖的組合可用於構成特徵描述子,為了提高準確率,可以將區域性直方圖在影象更大範圍內(稱為block)進行對比度歸一化(constrast-normalized)。所採用的方法是:先計算各直方圖在對應的block中的密度,然後根據這個密度對block中的所有cell做歸一化(normalize)。歸一化操作對光照變化和陰影具有更好的魯棒性。

演算法特點:

  • HOG特徵是在影象的區域性操作,對影象幾何和光學的變化有較好的穩健性,這兩種變化只會出現在更大的空域上。
  • 在粗粒度的空域抽樣、細粒度的方向抽樣,以及較強的區域性光學歸一化條件下,只要行人大體保持直立的姿勢,可以容許行人有一些細微的肢體動作,而不影響檢測效果。

注:(1) 空域,即所說的畫素域,在空域的處理就是在畫素級的處理,如在畫素級的影象疊加。

      (2) 在機器視覺研究中,影象分類任務主要包括粗粒度影象分類和細粒度影象分類兩種。其中,粗粒度影象分類的物件屬性差異較大,例如汽車、人、樹等;而細粒度影象分類的物件通常屬於同一個大類,例如細粒度影象庫CUB200[1]中的200種鳥類和Flower102[2]中的102種花類等。由於細粒度類別屬於同一個大類,所以各類別之間的差距很小,這些細微的差距容易被光照、顏色、背景、形狀和位置等變化因素覆蓋,導致細粒度影象分類相對困難。