1. 程式人生 > >影象特徵提取三大法寶:HOG特徵、LBP特徵、Haar-like特徵

影象特徵提取三大法寶:HOG特徵、LBP特徵、Haar-like特徵

轉自:https://blog.csdn.net/q123456789098/article/details/52748918

(一)HOG特徵

1、HOG特徵:

方向梯度直方圖(Histogram of Oriented Gradient, HOG)特徵是一種在計算機視覺和影象處理中用來進行物體檢測的特徵描述子。它通過計算和統計影象區域性區域的梯度方向直方圖來構成特徵。Hog特徵結合SVM分類器已經被廣泛應用於影象識別中,尤其在行人檢測中獲得了極大的成功。需要提醒的是,HOG+SVM進行行人檢測的方法是法國研究人員Dalal在2005的CVPR上提出的,而如今雖然有很多行人檢測演算法不斷提出,但基本都是以HOG+SVM的思路為主。

(1)主要思想:

在一副影象中,區域性目標的表象和形狀(appearance and shape)能夠被梯度或邊緣的方向密度分佈很好地描述。(本質:梯度的統計資訊,而梯度主要存在於邊緣的地方)。

(2)具體的實現方法是:

首先將影象分成小的連通區域,我們把它叫細胞單元。然後採集細胞單元中各畫素點的梯度的或邊緣的方向直方圖。最後把這些直方圖組合起來就可以構成特徵描述器。

(3)提高效能:

把這些區域性直方圖在影象的更大的範圍內(我們把它叫區間或block)進行對比度歸一化(contrast-normalized),所採用的方法是:先計算各直方圖在這個區間(block)中的密度,然後根據這個密度對區間中的各個細胞單元做歸一化。通過這個歸一化後,能對光照變化和陰影獲得更好的效果。

(4)優點:

與其他的特徵描述方法相比,HOG有很多優點。首先,由於HOG是在影象的區域性方格單元上操作,所以它對影象幾何的和光學的形變都能保持很好的不變性,這兩種形變只會出現在更大的空間領域上。其次,在粗的空域抽樣、精細的方向抽樣以及較強的區域性光學歸一化等條件下,只要行人大體上能夠保持直立的姿勢,可以容許行人有一些細微的肢體動作,這些細微的動作可以被忽略而不影響檢測效果。因此HOG特徵是特別適合於做影象中的人體檢測的。

2、HOG特徵提取演算法的實現過程:

大概過程:

HOG特徵提取方法就是將一個image(你要檢測的目標或者掃描視窗):

1)灰度化(將影象看做一個x,y,z(灰度)的三維影象);

2)採用Gamma校正法對輸入影象進行顏色空間的標準化(歸一化);目的是調節影象的對比度,降低影象區域性的陰影和光照變化所造成的影響,同時可以抑制噪音的干擾;

3)計算影象每個畫素的梯度(包括大小和方向);主要是為了捕獲輪廓資訊,同時進一步弱化光照的干擾。

4)將影象劃分成小cells(例如6*6畫素/cell);

5)統計每個cell的梯度直方圖(不同梯度的個數),即可形成每個cell的descriptor;

6)將每幾個cell組成一個block(例如3*3個cell/block),一個block內所有cell的特徵descriptor串聯起來便得到該block的HOG特徵descriptor。

7)將影象image內的所有block的HOG特徵descriptor串聯起來就可以得到該image(你要檢測的目標)的HOG特徵descriptor了。這個就是最終的可供分類使用的特徵向量了。

 

具體每一步的詳細過程如下:

(1)標準化gamma空間和顏色空間

為了減少光照因素的影響,首先需要將整個影象進行規範化(歸一化)。在影象的紋理強度中,區域性的表層曝光貢獻的比重較大,所以,這種壓縮處理能夠有效地降低影象區域性的陰影和光照變化。因為顏色資訊作用不大,通常先轉化為灰度圖;

Gamma壓縮公式:

比如可以取Gamma=1/2;

(2)計算影象梯度

計算影象橫座標和縱座標方向的梯度,並據此計算每個畫素位置的梯度方向值;求導操作不僅能夠捕獲輪廓,人影和一些紋理資訊,還能進一步弱化光照的影響。

影象中畫素點(x,y)的梯度為:

最常用的方法是:首先用[-1,0,1]梯度運算元對原影象做卷積運算,得到x方向(水平方向,以向右為正方向)的梯度分量gradscalx,然後用[1,0,-1]T梯度運算元對原影象做卷積運算,得到y方向(豎直方向,以向上為正方向)的梯度分量gradscaly。然後再用以上公式計算該畫素點的梯度大小和方向。

(3)為每個細胞單元構建梯度方向直方圖

第三步的目的是為區域性影象區域提供一個編碼,同時能夠保持對影象中人體物件的姿勢和外觀的弱敏感性。

我們將影象分成若干個“單元格cell”,例如每個cell為6*6個畫素。假設我們採用9個bin的直方圖來統計這6*6個畫素的梯度資訊。也就是將cell的梯度方向360度分成9個方向塊,如圖所示:例如:如果這個畫素的梯度方向是20-40度,直方圖第2個bin的計數就加一,這樣,對cell內每個畫素用梯度方向在直方圖中進行加權投影(對映到固定的角度範圍),就可以得到這個cell的梯度方向直方圖了,就是該cell對應的9維特徵向量(因為有9個bin)。

畫素梯度方向用到了,那麼梯度大小呢?梯度大小就是作為投影的權值的。例如說:這個畫素的梯度方向是20-40度,然後它的梯度大小是2(假設啊),那麼直方圖第2個bin的計數就不是加一了,而是加二(假設啊)。

細胞單元可以是矩形的(rectangular),也可以是星形的(radial)。

(4)把細胞單元組合成大的塊(block),塊內歸一化梯度直方圖

由於區域性光照的變化以及前景-背景對比度的變化,使得梯度強度的變化範圍非常大。這就需要對梯度強度做歸一化。歸一化能夠進一步地對光照、陰影和邊緣進行壓縮。

作者採取的辦法是:把各個細胞單元組合成大的、空間上連通的區間(blocks)。這樣,一個block內所有cell的特徵向量串聯起來便得到該block的HOG特徵。這些區間是互有重疊的,這就意味著:每一個單元格的特徵會以不同的結果多次出現在最後的特徵向量中。我們將歸一化之後的塊描述符(向量)就稱之為HOG描述符。

區間有兩個主要的幾何形狀——矩形區間(R-HOG)和環形區間(C-HOG)。R-HOG區間大體上是一些方形的格子,它可以有三個引數來表徵:每個區間中細胞單元的數目、每個細胞單元中畫素點的數目、每個細胞的直方圖通道數目。

例如:行人檢測的最佳引數設定是:3×3細胞/區間、6×6畫素/細胞、9個直方圖通道。則一塊的特徵數為:3*3*9;

(5)收集HOG特徵

最後一步就是將檢測視窗中所有重疊的塊進行HOG特徵的收集,並將它們結合成最終的特徵向量供分類使用。

(6)那麼一個影象的HOG特徵維數是多少呢?

順便做個總結:Dalal提出的Hog特徵提取的過程:把樣本影象分割為若干個畫素的單元(cell),把梯度方向平均劃分為9個區間(bin),在每個單元裡面對所有畫素的梯度方向在各個方向區間進行直方圖統計,得到一個9維的特徵向量,每相鄰的4個單元構成一個塊(block),把一個塊內的特徵向量聯起來得到36維的特徵向量,用塊對樣本影象進行掃描,掃描步長為一個單元。最後將所有塊的特徵串聯起來,就得到了人體的特徵。例如,對於64*128的影象而言,每16*16的畫素組成一個cell,每2*2個cell組成一個塊,因為每個cell有9個特徵,所以每個塊內有4*9=36個特徵,以8個畫素為步長,那麼,水平方向將有7個掃描視窗,垂直方向將有15個掃描視窗。也就是說,64*128的圖片,總共有36*7*15=3780個特徵。

(二)LBP特徵

LBP(Local Binary Pattern,區域性二值模式)是一種用來描述影象區域性紋理特徵的運算元;它具有旋轉不變性和灰度不變性等顯著的優點。它是首先由T. Ojala, M.Pietikäinen, 和D. Harwood 在1994年提出,用於紋理特徵提取。而且,提取的特徵是影象的區域性的紋理特徵;

1、LBP特徵的描述

原始的LBP運算元定義為在3*3的視窗內,以視窗中心畫素為閾值,將相鄰的8個畫素的灰度值與其進行比較,若周圍畫素值大於中心畫素值,則該畫素點的位置被標記為1,否則為0。這樣,3*3鄰域內的8個點經比較可產生8位二進位制數(通常轉換為十進位制數即LBP碼,共256種),即得到該視窗中心畫素點的LBP值,並用這個值來反映該區域的紋理資訊。如下圖所示:

LBP的改進版本:

原始的LBP提出後,研究人員不斷對其提出了各種改進和優化。

(1)圓形LBP運算元:

基本的 LBP運算元的最大缺陷在於它只覆蓋了一個固定半徑範圍內的小區域,這顯然不能滿足不同尺寸和頻率紋理的需要。為了適應不同尺度的紋理特徵,並達到灰度和旋轉不變性的要求,Ojala等對 LBP 運算元進行了改進,將 3×3鄰域擴充套件到任意鄰域,並用圓形鄰域代替了正方形鄰域,改進後的 LBP 運算元允許在半徑為 R 的圓形鄰域內有任意多個畫素點。從而得到了諸如半徑為R的圓形區域內含有P個取樣點的LBP運算元;

(2)LBP旋轉不變模式

從 LBP 的定義可以看出,LBP 運算元是灰度不變的,但卻不是旋轉不變的。影象的旋轉就會得到不同的 LBP值。

Maenpaa等人又將 LBP運算元進行了擴充套件,提出了具有旋轉不變性的 LBP 運算元,即不斷旋轉圓形鄰域得到一系列初始定義的 LBP值,取其最小值作為該鄰域的 LBP 值。

圖 2.5 給出了求取旋轉不變的 LBP 的過程示意圖,圖中運算元下方的數字表示該運算元對應的 LBP值,圖中所示的 8 種 LBP模式,經過旋轉不變的處理,最終得到的具有旋轉不變性的 LBP值為 15。也就是說,圖中的 8種 LBP 模式對應的旋轉不變的 LBP模式都是00001111。

(3)LBP等價模式

一個LBP運算元可以產生不同的二進位制模式,對於半徑為R的圓形區域內含有P個取樣點的LBP運算元將會產生P2種模式。很顯然,隨著鄰域集內取樣點數的增加,二進位制模式的種類是急劇增加的。例如:5×5鄰域內20個取樣點,有220=1,048,576種二進位制模式。如此多的二值模式無論對於紋理的提取還是對於紋理的識別、分類及資訊的存取都是不利的。同時,過多的模式種類對於紋理的表達是不利的。例如,將LBP運算元用於紋理分類或人臉識別時,常採用LBP模式的統計直方圖來表達影象的資訊,而較多的模式種類將使得資料量過大,且直方圖過於稀疏。因此,需要對原始的LBP模式進行降維,使得資料量減少的情況下能最好的代表影象的資訊。

為了解決二進位制模式過多的問題,提高統計性,Ojala提出了採用一種“等價模式”(Uniform Pattern)來對LBP運算元的模式種類進行降維。Ojala等認為,在實際影象中,絕大多數LBP模式最多隻包含兩次從1到0或從0到1的跳變。因此,Ojala將“等價模式”定義為:當某個LBP所對應的迴圈二進位制數從0到1或從1到0最多有兩次跳變時,該LBP所對應的二進位制就稱為一個等價模式類。如00000000(0次跳變),00000111(只含一次從0到1的跳變),10001111(先由1跳到0,再由0跳到1,共兩次跳變)都是等價模式類。除等價模式類以外的模式都歸為另一類,稱為混合模式類,例如10010111(共四次跳變)(這是我的個人理解,不知道對不對)。

通過這樣的改進,二進位制模式的種類大大減少,而不會丟失任何資訊。模式數量由原來的2P種減少為 P ( P-1)+2種,其中P表示鄰域集內的取樣點數。對於3×3鄰域內8個取樣點來說,二進位制模式由原始的256種減少為58種,這使得特徵向量的維數更少,並且可以減少高頻噪聲帶來的影響。

2、LBP特徵用於檢測的原理

顯而易見的是,上述提取的LBP運算元在每個畫素點都可以得到一個LBP“編碼”,那麼,對一幅影象(記錄的是每個畫素點的灰度值)提取其原始的LBP運算元之後,得到的原始LBP特徵依然是“一幅圖片”(記錄的是每個畫素點的LBP值)。

LBP的應用中,如紋理分類、人臉分析等,一般都不將LBP圖譜作為特徵向量用於分類識別,而是採用LBP特徵譜的統計直方圖作為特徵向量用於分類識別。

因為,從上面的分析我們可以看出,這個“特徵”跟位置資訊是緊密相關的。直接對兩幅圖片提取這種“特徵”,並進行判別分析的話,會因為“位置沒有對準”而產生很大的誤差。後來,研究人員發現,可以將一幅圖片劃分為若干的子區域,對每個子區域內的每個畫素點都提取LBP特徵,然後,在每個子區域內建立LBP特徵的統計直方圖。如此一來,每個子區域,就可以用一個統計直方圖來進行描述;整個圖片就由若干個統計直方圖組成;

例如:一幅100*100畫素大小的圖片,劃分為10*10=100個子區域(可以通過多種方式來劃分區域),每個子區域的大小為10*10畫素;在每個子區域內的每個畫素點,提取其LBP特徵,然後,建立統計直方圖;這樣,這幅圖片就有10*10個子區域,也就有了10*10個統計直方圖,利用這10*10個統計直方圖,就可以描述這幅圖片了。之後,我們利用各種相似性度量函式,就可以判斷兩幅影象之間的相似性了;

3、對LBP特徵向量進行提取的步驟

(1)首先將檢測視窗劃分為16×16的小區域(cell);

(2)對於每個cell中的一個畫素,將相鄰的8個畫素的灰度值與其進行比較,若周圍畫素值大於中心畫素值,則該畫素點的位置被標記為1,否則為0。這樣,3*3鄰域內的8個點經比較可產生8位二進位制數,即得到該視窗中心畫素點的LBP值;

(3)然後計算每個cell的直方圖,即每個數字(假定是十進位制數LBP值)出現的頻率;然後對該直方圖進行歸一化處理。

(4)最後將得到的每個cell的統計直方圖進行連線成為一個特徵向量,也就是整幅圖的LBP紋理特徵向量;

然後便可利用SVM或者其他機器學習演算法進行分類了。

1、Haar-like特徵

       Haar-like特徵最早是由Papageorgiou等應用於人臉表示,Viola和Jones在此基礎上,使用3種類型4種形式的特徵。

Haar特徵分為三類:邊緣特徵、線性特徵、中心特徵和對角線特徵,組合成特徵模板。特徵模板內有白色和黑色兩種矩形,並定義該模板的特徵值為白色矩形畫素和減去黑色矩形畫素和。Haar特徵值反映了影象的灰度變化情況。例如:臉部的一些特徵能由矩形特徵簡單的描述,如:眼睛要比臉頰顏色要深,鼻樑兩側比鼻樑顏色要深,嘴巴比周圍顏色要深等。但矩形特徵只對一些簡單的圖形結構,如邊緣、線段較敏感,所以只能描述特定走向(水平、垂直、對角)的結構。

對於圖中的A, B和D這類特徵,特徵數值計算公式為:v=Sum白-Sum黑,而對於C來說,計算公式如下:v=Sum白-2*Sum黑;之所以將黑色區域畫素和乘以2,是為了使兩種矩形區域中畫素數目一致。

通過改變特徵模板的大小和位置,可在影象子視窗中窮舉出大量的特徵。上圖的特徵模板稱為“特徵原型”;特徵原型在影象子視窗中擴充套件(平移伸縮)得到的特徵稱為“矩形特徵”;矩形特徵的值稱為“特徵值”。

矩形特徵可位於影象任意位置,大小也可以任意改變,所以矩形特徵值是矩形模版類別、矩形位置和矩形大小這三個因素的函式。故類別、大小和位置的變化,使得很小的檢測視窗含有非常多的矩形特徵,如:在24*24畫素大小的檢測視窗內矩形特徵數量可以達到16萬個。這樣就有兩個問題需要解決了:(1)如何快速計算那麼多的特徵?—積分圖大顯神通;(2)哪些矩形特徵才是對分類器分類最有效的?—如通過AdaBoost演算法來訓練(這一塊這裡不討論,具體見http://blog.csdn.net/zouxy09/article/details/7922923

2、Haar-like特徵的計算—積分圖

積分圖就是隻遍歷一次影象就可以求出影象中所有區域畫素和的快速演算法,大大的提高了影象特徵值計算的效率。

積分圖主要的思想是將影象從起點開始到各個點所形成的矩形區域畫素之和作為一個數組的元素儲存在記憶體中,當要計算某個區域的畫素和時可以直接索引陣列的元素,不用重新計算這個區域的畫素和,從而加快了計算(這有個相應的稱呼,叫做動態規劃演算法)。積分圖能夠在多種尺度下,使用相同的時間(常數時間)來計算不同的特徵,因此大大提高了檢測速度。

我們來看看它是怎麼做到的。

積分圖是一種能夠描述全域性資訊的矩陣表示方法。積分圖的構造方式是位置(i,j)處的值ii(i,j)是原影象(i,j)左上角方向所有畫素的和:

積分圖構建演算法:

1)用s(i,j)表示行方向的累加和,初始化s(i,-1)=0;

2)用ii(i,j)表示一個積分影象,初始化ii(-1,i)=0;

3)逐行掃描影象,遞迴計算每個畫素(i,j)行方向的累加和s(i,j)和積分影象ii(i,j)的值

s(i,j)=s(i,j-1)+f(i,j)

ii(i,j)=ii(i-1,j)+s(i,j)

4)掃描影象一遍,當到達影象右下角畫素時,積分影象ii就構造好了。

積分圖構造好之後,影象中任何矩陣區域的畫素累加和都可以通過簡單運算得到如圖所示。

設D的四個頂點分別為α、β、γ、δ,則D的畫素和可以表示為

Dsum = ii( α )+ii( β)-(ii( γ)+ii( δ ));

而Haar-like特徵值無非就是兩個矩陣畫素和的差,同樣可以在常數時間內完成。所以矩形特徵的特徵值計算,只與此特徵矩形的端點的積分圖有關,所以不管此特徵矩形的尺度變換如何,特徵值的計算所消耗的時間都是常量。這樣只要遍歷影象一次,就可以求得所有子視窗的特徵值。

3、Haar-like矩形特徵拓展

Lienhart R.等對Haar-like矩形特徵庫作了進一步擴充套件,加入了旋轉45角的矩形特徵。擴充套件後的特徵大致分為4種類型:邊緣特徵、線特徵環、中心環繞特徵和對角線特徵:

在特徵值的計算過程中,黑色區域的權值為負值,白色區域的權值為正值。而且權值與矩形面積成反比(使兩種矩形區域中畫素數目一致);

豎直矩陣特徵值計算:

對於豎直矩陣,與上面2處說的一樣。

45°旋角的矩形特徵計算:

對於45°旋角的矩形,我們定義RSAT(x,y)為點(x,y)左上角45°區域和左下角45°區域的畫素和。

用公式可以表示為:

為了節約時間,減少重複計算,可按如下遞推公式計算:

而計算矩陣特徵的特徵值,是位於十字行矩形RSAT(x,y)之差。可參考下圖:

注:轉載文章均來自於公開網路z

一、Haar分類器的前世今生

人臉檢測屬於計算機視覺的範疇,早期人們的主要研究方向是人臉識別,即根據人臉來識別人物的身份,後來在複雜背景下的人臉檢測需求越來越大,人臉檢測也逐漸作為一個單獨的研究方向發展起來。

目前的人臉檢測方法主要有兩大類:基於知識和基於統計。

“基於知識的方法主要利用先驗知識將人臉看作器官特徵的組合,根據眼睛、眉毛、嘴巴、鼻子等器官的特徵以及相互之間的幾何位置關係來檢測人臉。基於統計的方法則將人臉看作一個整體的模式——二維畫素矩陣,從統計的觀點通過大量人臉影象樣本構造人臉模式空間,根據相似度量來判斷人臉是否存在。在這兩種框架之下,發展了許多方法。目前隨著各種方法的不斷提出和應用條件的變化,將知識模型與統計模型相結合的綜合系統將成為未來的研究趨勢。”(來自論文《基於Adaboost的人臉檢測方法及眼睛定位演算法研究》)

基於知識的人臉檢測方法

Ø 模板匹配

Ø 人臉特徵

Ø 形狀與邊緣

Ø 紋理特性

Ø 顏色特徵

基於統計的人臉檢測方法

Ø 主成分分析與特徵臉

Ø 神經網路方法

Ø 支援向量機

Ø 隱馬爾可夫模型

Ø Adaboost演算法

本文中介紹的Haar分類器方法,包含了Adaboost演算法,稍候會對這一演算法做詳細介紹。所謂分類器,在這裡就是指對人臉和非人臉進行分類的演算法,在機器學習領域,很多演算法都是對事物進行分類、聚類的過程。OpenCV中的ml模組提供了很多分類、聚類的演算法。

注:聚類和分類的區別是什麼?一般對已知物體類別總數的識別方式我們稱之為分類,並且訓練的資料是有標籤的,比如已經明確指定了是人臉還是非人臉,這是一種有監督學習。也存在可以處理類別總數不確定的方法或者訓練的資料是沒有標籤的,這就是聚類,不需要學習階段中關於物體類別的資訊,是一種無監督學習。

其中包括Mahalanobis距離、K均值、樸素貝葉斯分類器、決策樹、Boosting、隨機森林、Haar分類器、期望最大化、K近鄰、神經網路、支援向量機。

我們要探討的Haar分類器實際上是Boosting演算法的一個應用,Haar分類器用到了Boosting演算法中的AdaBoost演算法,只是把AdaBoost演算法訓練出的強分類器進行了級聯,並且在底層的特徵提取中採用了高效率的矩形特徵和積分圖方法,這裡涉及到的幾個名詞接下來會具體討論。

雖說haar分類器採用了Boosting的演算法,但在OpenCV中,Haar分類器與Boosting沒有采用同一套底層資料結構,《Learning OpenCV》中有這樣的解釋:“Haar分類器,它建立了boost篩選式級聯分類器。它與ML庫中其他部分相比,有不同的格局,因為它是在早期開發的,並完全可用於人臉檢測。”

是的,在2001年,ViolaJones兩位大牛發表了經典的Rapid Object Detection using a Boosted Cascade of Simple Features》【1】Robust Real-Time Face Detection》【2】,在AdaBoost演算法的基礎上,使用Haar-like小波特徵和積分圖方法進行人臉檢測,他倆不是最早使用提出小波特徵的,但是他們設計了針對人臉檢測更有效的特徵,並對AdaBoost訓練出的強分類器進行級聯。這可以說是人臉檢測史上里程碑式的一筆了,也因此當時提出的這個演算法被稱為Viola-Jones檢測器。又過了一段時間,Rainer LienhartJochen Maydt兩位大牛將這個檢測器進行了擴充套件【3】,最終形成了OpenCV現在的Haar分類器。之前我有個誤區,以為AdaBoost演算法就是ViolaJones搞出來的,因為網上講Haar分類器的地方都在大講特講AdaBoost,所以我錯覺了,後來理清脈絡,AdaBoost是Freund Schapire在1995年提出的演算法,是對傳統Boosting演算法的一大提升。Boosting演算法的核心思想,是將弱學習方法提升成強學習演算法,也就是“三個臭皮匠頂一個諸葛亮”,它的理論基礎來自於Kearns Valiant牛的相關證明【4】,在此不深究了。反正我是能多簡略就多簡略的把Haar分類器的前世今生說完鳥,得出的結論是,大牛們都是成對兒的。。。額,回到正題,Haar分類器 =  Haar-like特徵 + 積分圖方法 + AdaBoost + 級聯; 

注:為何稱其為Haar-like?這個名字是我從網上看來的,《Learning OpenCV》中文版提到Haar分類器使用到Haar特徵,但這種說法不確切,應該稱為類Haar特徵,Haar-like就是類Haar特徵的意思。

二、Haar分類器的淺入淺出

之所以是淺入淺出是因為,我暫時深入不能,只是根據其他人的總結,我加以梳理歸納,用自己的理解闡述出來,難免會有錯誤,歡迎指正。

Haar分類器演算法的要點如下:

① 使用Haar-like特徵做檢測。

② 使用積分圖(Integral Image)對Haar-like特徵求值進行加速。

③ 使用AdaBoost演算法訓練區分人臉和非人臉的強分類器。

④ 使用篩選式級聯把強分類器級聯到一起,提高準確率。

2.1 Haar-like特徵你是何方神聖?

一看到Haar-like特徵這玩意兒就頭大的人舉手。好,很多人。那麼我先說下什麼是特徵,我把它放在下面的情景中來描述,假設在人臉檢測時我們需要有這麼一個子視窗在待檢測的圖片視窗中不斷的移位滑動,子視窗每到一個位置,就會計算出該區域的特徵,然後用我們訓練好的級聯分類器對該特徵進行篩選,一旦該特徵通過了所有強分類器的篩選,則判定該區域為人臉。

那麼這個特徵如何表示呢?好了,這就是大牛們乾的好事了。後人稱這他們搞出來的這些東西叫Haar-Like特徵。

下面是Viola牛們提出的Haar-like特徵。

 

下面是Lienhart等牛們提出的Haar-like特徵。

 

 

 


這些所謂的特徵不就是一堆堆帶條紋的矩形麼,到底是幹什麼用的?我這樣給出解釋,將上面的任意一個矩形放到人臉區域上,然後,將白色區域的畫素和減去黑色區域的畫素和,得到的值我們暫且稱之為人臉特徵值,如果你把這個矩形放到一個非人臉區域,那麼計算出的特徵值應該和人臉特徵值是不一樣的,而且越不一樣越好,所以這些方塊的目的就是把人臉特徵量化,以區分人臉和非人臉。

為了增加區分度,可以對多個矩形特徵計算得到一個區分度更大的特徵值,那麼什麼樣的矩形特徵怎麼樣的組合到一塊可以更好的區分出人臉和非人臉呢,這就是AdaBoost演算法要做的事了。這裡我們先放下積分圖這個概念不管,為了讓我們的思路連貫,我直接開始介紹AdaBoost演算法。

2.2 AdaBoost你給我如實道來!

本節旨在介紹AdaBoost在Haar分類器中的應用,所以只是描述了它在Haar分類器中的特性,而實際上AdaBoost是一種具有一般性的分類器提升演算法,它使用的分類器並不侷限某一特定演算法。

上面說到利用AdaBoost演算法可以幫助我們選擇更好的矩陣特徵組合,其實這裡提到的矩陣特徵組合就是我們之前提到的分類器,分類器將矩陣組合以二叉決策樹的形式儲存起來。

我現在腦子裡浮現了很多問題,總結起來大概有這麼些個:

弱分類器和強分類器是什麼?

弱分類器是怎麼得到的?

強分類器是怎麼得到的?

二叉決策樹是什麼?

要回答這一系列問題,我得跟你羅嗦一會兒了,這得從AdaBoost的身世說起。

2.2.1 AdaBoost的身世之謎

關於AdaBoost的身世,我把相關英文文獻從上世紀80年代一直下到2001年,我發現我在短時間內沒法讀完,所以我只能嘗試著從別人的總結中拼湊那些離散的片段,難免有誤。

之前講Haar分類器的前世今生也簡單說過AdaBoost的身世,但是說的還不透。我比較喜歡查演算法的戶口,所以新寫了一章查了下去。