1. 程式人生 > >【王曉剛】深度學習在圖像識別中的研究進展與展望

【王曉剛】深度學習在圖像識別中的研究進展與展望

ast eric all orm 反向 nic 分類函數 大網 goole

深度學習是近十年來人工智能領域取得的最重要的突破之中的一個。

它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域都取得了巨大成功。本文將重點介紹深度學習在物體識別物體檢測視頻分析的最新研究進展,並探討其發展趨勢。

1. 深度學習發展歷史的回想

現有的深度學習模型屬於神經網絡。

神經網絡的歷史可追述到上世紀四十年代,以前在八九十年代流行。神經網絡試圖通過模擬大腦認知的機理,解決各種機器學習的問題。1986 年Rumelhart,Hinton 和Williams 在《自然》發表了著名的反向傳播算法用於訓練神經網絡[1]。直到今天仍被廣泛應用。

可是後來因為種種原因,大多數學者在相當長的一段的時間內放棄了神經網絡。神經網絡有大量的參數,經常發生過擬合問題

,即往往在訓練集上準確率非常高,而在測試集上效果差。

這部分歸因於當時的訓練數據集規模都較小。並且計算資源有限。即便是訓練一個較小的網絡也須要非常長的時間。

整體而言,神經網絡與其他模型相比並未在識別的準確率上體現出明顯的優勢。並且難於訓練。

因此很多其他的學者開始採用諸如支持向量機Boosting近期鄰等分類器

這些分類器能夠用具有一個或兩個隱含層的神經網絡模擬,因此被稱作淺層機器學習模型。它們不再模擬大腦的認知機理;相反,針對不同的任務設計不同的系統,並採用不同的手工設計的特征。比如語音識別採用高斯混合模型和隱馬爾可夫模型,物體識別採用SIFT 特征,人臉識別採用LBP 特征,行人檢測採用HOG特征

2006 年,Geoffrey Hinton 提出了深度學習。之後深度學習在諸多領域取得了巨大成功,受到廣泛關註。神經網絡能夠又一次煥發青春的原因有幾個方面。首先是大數據的出如今非常大程度上緩解了訓練過擬合的問題。

比如ImageNet[2]訓練集擁有上百萬有標註的圖像。計算機硬件的飛速發展提供了強大的計算能力。使得訓練大規模神經網絡成為可能。

一片GPU 能夠集成上千個核。此外神經網絡的模型設計和訓練方法都取得了長足的進步。比如,為了改進神經網絡的訓練,學者提出了非監督和逐層的預訓練。

它使得在利用反向傳播對網絡進行全局優化之前。網絡參數能達到一個好的起始點,從而訓練完畢時能達到一個較好的局部極小點。

深度學習在計算機視覺領域最具影響力的突破發生在2012 年。Hinton 的研究小組採用深度學習贏得了ImageNet [2] 圖像分類的比賽[3]。

ImageNet 是當今計算機視覺領域最具影響力的比賽之中的一個。它的訓練和測試樣本都來自於互聯網圖片。

訓練樣本超過百萬,任務是將測試樣本分成1000 類。自2009 年,包括工業界在內的非常多計算機視覺小組都參加了每年一度的比賽。各個小組的方法逐漸趨同。

在2012 年的比賽中,排名2 到4 位的小組都採用的是傳統的計算機視覺方法,手工設計的特征。他們準確率的區別不超過1%。Hinton 的研究小組是首次參加比賽,深度學習比第二名超出了10%以上。這個結果在計算機視覺領域產生了極大的震動,掀起了深度學習的熱潮。

計算機視覺領域還有一個重要的挑戰是人臉識別。Labeled Faces in the Wild (LFW) [4] 是當今最著名的人臉識別測試集。創建於2007 年。在此之前,人臉識別測試集大多採集於實驗室可控的條件下。LFW 從互聯網收集了五千多個名人的人臉照片。用於評估人臉識別算法在非可控條件下的性能。這些照片往往具有復雜的光線、表情、姿態、年齡和遮擋等方面的變化。LFW的測試集包括了6000 對人臉圖像。當中3000 對是正樣本,每對的兩張圖像屬於同一個人;剩下3000 對是負樣本,每對的兩張圖像屬於不同的人。隨機猜的準確率是50%。有研究表明[5],假設僅僅把不包括頭發在內的人臉的中心區域給人看。人眼在LFW 測試集上的識別率是97.53%。假設把整張圖像。包括背景和頭發給人看。人眼的識別率是99.15%。

經典的人臉識別算法Eigenface [6] 在這個測試集上僅僅有60%的識別率。

在非深度學習的算法中。最好的識別率是96.33% [7]。眼下深度學習能夠達到99.47%的識別率[8]。

在學術界收到廣泛關註的同一時候。深度學習也在工業界產生了巨大的影響。在Hinton 的科研小組贏得ImageNet 比賽之後6 個月。谷歌和百度發都布了新的基於圖像內容的搜索引擎。他們沿用了Hinton 在ImageNet 競賽中用的深度學習模型,應用在各自的數據上。發現圖像搜索的準確率得到了大幅度的提高。

百度在2012 年就成立了深度學習研究院。於2014 年五月又在美國矽谷成立了新的深度學習實驗室,聘請斯坦福著名教授吳恩達擔任首席科學家。

Facebook 於2013 年12 月在紐約成立了新的人工智能實驗室。聘請深度學習領域的著名學者。卷積網路的發明人YannLeCun 作為首席科學家。

2014 年1 月,谷歌四億美金收購了一家深度學習的創業公司,DeepMind。

鑒於深度學習在學術和工業界的巨大影響力。2013 年MIT Technology Review將其列為世界十大技術突破之首。

2. 深度學習有何與眾不同?

很多人會問,深度學習和其他機器學習方法相比有哪些關鍵的不同點,它成功的秘密在哪裏?我們以下將對這此從幾個方面作簡要的闡述。

2.1 特征學習

深度學習與傳統模式識別方法的最大不同在於它是從大數據中自己主動學習特征。而非採用手工設計的特征。

好的特征能夠極大提高模式識別系統的性能。在過去幾十年模式識別的各種應用中,手工設計的特征處於同統治地位。它主要依靠設計者的先驗知識。非常難利用大數據的優勢。因為依賴手工調參數。特征的設計中僅僅同意出現少量的參數。深度學習能夠從大數據中自己主動學習特征的表示,當中能夠包括成千上萬的參數。

手工設計出有效的特征是一個相當漫長的過程。回想計算機視覺發展的歷史,往往須要五到十年才幹出現一個受到廣泛認可的好的特征。而深度學習能夠針對新的應用從訓練數據中非常快學習得到新的有效的特征表示。

一個模式識別系統包括特征和分類器兩個基本的組成部分,二者關系密切,而在傳統的方法中它們的優化是分開的。在神經網絡的框架下,特征表示和分類器是聯合優化的。能夠最大程度發揮二者聯合協作的性能。以2012 年Hinton 參加ImageNet 比賽所採用的卷積網絡模型[9]為例,這是他們首次參加ImageNet 圖像分類比賽。因此沒有太多的先驗知識。模型的特征表示包括了6 千萬個參數。從上百萬樣本中學習得到。令人吃驚的是,從ImageNet 上學習得到的特征表示具有非常強的泛化能力。能夠成功地應用到其他的數據集和任務,比如物體檢測、跟蹤和檢索等等。

在計算機視覺領域另外一個著名的競賽是PSACAL VOC。可是它的訓練集規模較小,不適合訓練深度學習模型。

有學者將ImageNet 上學習得到的特征表示用於PSACALVOC 上的物體檢測。將檢測率提高了20%[10]。

既然特征學習如此重要,什麽是好的特征呢?一幅圖像中,各種復雜的因素往往以非線性的方式結合在一起。比如人臉圖像中就包括了身份、姿態、年齡、表情和光線等各種信息。

深度學習的關鍵就是通過多層非線性映射將這些因素成功的分開。比如在深度模型的最後一個隱含層。不同的神經元代表了不同的因素。

假設將這個隱含層當作特征表示,人臉識別、姿態預計、表情識別、年齡預計就會變得非常easy。因為各個因素之間變成了簡單的線性關系。不再彼此幹擾。

2.2 深層結構的優勢

深度學習模型意味著神經網絡的結構深,由非常多層組成。而支持向量機和Boosting 等其他經常使用的機器學習模型都是淺層結構。有理論證明,三層神經網絡模型(包括輸入層、輸出層和一個隱含層)能夠近似不論什麽分類函數。既然如此,為什麽須要深層模型呢?

理論研究表明。針對特定的任務,假設模型的深度不夠。其所須要的計算單元會呈指數添加。這意味著盡管淺層模型能夠表達同樣的分類函數,其須要的參數和訓練樣本要多得多。

淺層模型提供的是局部表達。它將高維圖像空間分成若幹局部區域。每一個局部區域存儲至少一個從訓練數據中獲得的模板。

淺層模型將一個測試樣本和這些模板逐一匹配,依據匹配的結果預測其類別。比如在支持向量機模型中,這些模板就是支持向量;在近期鄰分類器中,這些模板是全部的訓練樣本。隨著分類問題復雜度的添加,圖像空間須要被劃分成越來越多的局部區域。因而須要越來越多的參數和訓練樣本。

深度模型能夠降低參數的關鍵在於反復利用中間層的計算單元。

比如,它能夠學習針對人臉圖像的分層特征表達。最底層能夠從原始像素學習濾波器,刻畫局部的邊緣和紋理特征;通過對各種邊緣濾波器進行組合,中層濾波器能夠描寫敘述不同類型的人臉器官;最高層描寫敘述的是整個人臉的全局特征。深度學習提供的是分布式的特征表示。

在最高的隱含層,每一個神經元代表了一個屬性分類器。比如男女、人種和頭發顏色等等。每一個神經元將圖像空間一分為二,N 個神經元的組合就能夠表達2N 個局部區域。而用淺層模型表達這些區域的劃分至少須要個2N 模板。

由此我們能夠看到深度模型的表達能力更強,更有效率。

2.5 提取全局特征和上下文信息的能力

深度模型具有強大的學習能力,高效的特征表達能力。從像素級原始數據到抽象的語義概念逐層提取信息。

這使得它在提取圖像的全局特征和上下文信息方面具有突出的優勢。

這為解決一些傳統的計算機視覺問題,如圖像切割和關鍵點檢測,帶來了新的思路。

以人臉的圖像切割為例。為了預測每一個像素屬於哪個臉部器官(眼睛、鼻子、嘴、頭發),通常的作法是在該像素周圍取一個小的區域,提取紋理特征(比如局部二值模式),再基於該特征利用支持向量機等淺層模型分類。因為局部區域包括信息量有限,往往產生分類錯誤,因此要對切割後的圖像添加平滑和形狀先驗等約束。其實即使存在局部遮擋的情況下,人眼也能夠依據臉部其他區域的信息預計被遮擋處的標註。這意味著全局和上下文的信息對於局部的推斷是非常重要的,而這些信息在基於局部特征的方法中從最開始階段就丟失了。

理想的情況下,模型應該將整幅圖像作為輸入,直接預測整幅切割圖。

圖像切割能夠被當作一個高維數據轉換的問題來解決。

這樣不但利用到了上下文信息,模型在高維數據轉換過程中也隱式地添加了形狀先驗。可是因為整幅圖像內容過於復雜,淺層模型非常難有效地捕捉全局特征。深度學習的出現使這一思路成為可能,在人臉切割[11]、人體切割[12]、人臉圖像配準[13]和人體姿態預計等各個方面都取得了成功[14]。

2.4 聯合深度學習

一些計算機視覺學者將深度學習模型視為黑盒子。這樣的看法是不全面的。其實我們能夠發現傳統計算機視覺系統和深度學習模型存在著密切的聯系。並且能夠利用這樣的聯系提出新的深度模型和新的訓練方法。

這方面一個成功的樣例是用於行人檢測的聯合深度學習[15]。

一個計算機視覺系統包括了若幹關鍵的組成模塊。比如一個行人檢測器就包括了特征提取、部件檢測器、部件幾何形變建模、部件遮擋推理、分類器等等。在聯合深度學習中[15],深度模型的各個層和視覺系統的各個模塊能夠建立起相應關系。假設視覺系統中一些有效的關鍵模塊在現有深度學習的模型中沒有與之相應的層,它們能夠啟示我們提出新的深度模型。比如大量物體檢測的研究工作證明對物體部件的幾何形變建模能夠有效地提高檢測率。可是在經常使用的深度模型中沒有與之相相應的層。於是聯合深度學習[15]及其興許的工作[16]都提出了新的形變層和形變池化層實現這一功能。

從訓練方式上看,計算機視覺系統的各個模塊是逐一訓練或手工設計的;在深度模型的預訓練階段。各個層也是逐一訓練的。假設我們能夠建立起計算機視覺系統和深度模型之間的相應關系。在視覺研究中積累的經驗能夠對深度模型的預訓練提供指導。

這樣預訓練後得到的模型至少能夠達到與傳統計算機視覺系統可比的結果。在此基礎上。深度學習還會利用反向傳播對全部的層進行聯合優化。使它們之間的相互協作達到最優,從而使整個網絡的性能得到重大提升。

3. 深度學習在物體識別中的應用

3.1 ImageNet 圖像分類

深度學習在物體識別中最重要的進展體如今ImageNet ILSVRC 挑戰中的圖像分類任務。

傳統計算機視覺方法在這個測試集上最低的top5 錯誤率是26.172%。

2012 年Hinton 的研究小組利用卷積網絡在這個測試集上把錯誤率大幅降到15.315%。這個網絡的結構被稱作Alex Net [3]。與傳統的卷積網絡相比,它有三點比較重要的不同。首先是採用了dropout 的訓練策略,在訓練過程中將一些輸入層和中間層的神經元隨機置零。

這模擬了因為噪音和對輸入數據的各種幹擾,從而使一些神經元對一些視覺模式產生漏檢的情況。Dropout使訓練過程收斂更慢,但得到的網絡模型更加魯棒。其次,它採用整流線型單元作為非線性的激發函數。這不僅大大降低了計算的復雜度。並且使神經元的輸出具有稀疏的性質。

稀疏的特征表示對各種幹擾更加魯棒。第三。它通過對訓練樣本鏡像映射。和添加隨機平移擾動產生了很多其他的訓練樣本。以降低過擬合。

ImageNet ILSVRC2013 比賽中,排名前20 的小組使用的都是深度學習,其影響力可見一斑。獲勝者是來則紐約大學Rob Fergus 的研究小組,所採用的深度模型還是卷積網絡。對網絡結構作了進一步優化。Top5 錯誤率降到11.197%,其模型稱作Clarifai[17]。

2014 年深度學習又取得了重要進展, 在ILSVRC2014 比賽中。獲勝者GooLeNet[18]將top5 錯誤率降到6.656%。

它突出的特點是大大添加了卷積網絡的深度。超過20 層,這在之前是不可想象的。非常深的網絡結構給預測誤差的反向傳播帶了困難。

因為預測誤差是從最頂層傳究竟層的,傳究竟層的誤差非常小。難以驅動底層參數的更新。GooLeNet 採取的策略是將監督信號直接加到多個中間層,這意味著中間和低層的特征表示也須要能夠準確對訓練數據分類。

怎樣有效地訓練非常深的網絡模型仍是未來研究的一個重要課題。

盡管深度學習在ImageNet 上取得了巨大成功。可是一個現實的問題是,非常多應用的訓練集是較小的。怎樣在這樣的情況下應用深度學習呢?有三種方法可供讀者參考。

(1)能夠將ImageNet 上訓練得到的模型做為起點,利用目標訓練集和反向傳播對其進行繼續訓練。將模型適應到特定的應用[10]。ImageNet 起到預訓練的作用。(2)假設目標訓練集不夠大 ,也能夠將低層的網絡參數固定,沿用ImageNet 上的訓練集結果,僅僅對上層進行更新。

這是因為底層的網絡參數是最難更新的。而從ImageNet 學習得到的底層濾波器往往描寫敘述了各種不同的局部邊緣和紋理信息,而這些濾波器對一般的圖像有較好的普適性。(3)直接採用ImageNet 上訓練得到的模型,把最高的隱含層的輸出作為特征表達,取代經常使用的手工設計的特征[19][20]。

3.2 人臉識別

深度學習在物體識別上了還有一個重要突破是人臉識別。人臉識別的最大挑戰是怎樣區分因為光線、姿態和表情等因素引起的類內變化和因為身份不同產生的類間變化。這兩種變化分布是非線性的且極為復雜,傳統的線性模型無法將它們有效區分開。深度學習的目的是通過多層的非線性變換得到新的特征表示。該特征須要盡可能多地去掉類內變化,而保留類間變化。

人臉識別有兩種任務,人臉確認和人臉辨識。

人臉確認的任務是推斷兩張人臉照片是否屬於同一個人,屬二分類問題。隨機猜的正確率是50%。人臉辨識的任務是將一張人臉圖像分為N 個類別之中的一個,類別是由人臉的身份定義的。這是個多分類問題,更具挑戰性,其難度隨著類別數的增多而增大,隨機猜的正確率是1/N。兩個任務都能夠用來通過深度模型學習人臉的特征表達。

2013 年,[21]採用人臉確認任務作為監督信號,利用卷積網絡學習 人臉特征,在LFW 上取得了92.52%的識別率。這一結果盡管與興許的深度學習方法相比較低,但也超過了大多數非深度學習的算法。因為人臉確認是一個二分類的問題,用它學習人臉特征效率比較低。這個問題能夠從幾個方面理解。

深度學習面臨的一個主要問題是過擬合。作為一個二分類問題,人臉確認任務相對簡單,easy在訓練集上發生過擬合。

與之不同,人臉辨識是一個更具 挑戰性的多分類問題。不easy發生過擬合,更適合通過深度模型學習人臉特征。還有一方面。在人臉確認中,每一對訓練樣本被人工標註成兩類之中的一個,所含信息量較少。

而在人臉辨識中,每一個訓練樣本都被人工標註成N 類之中的一個,信息量要大的多。

2014 年CVPR,DeepID[22]和DeepFace[23] 都採用人臉辨識作為監督信號,在LFW 上取得了97.45%和97.35%的識別率。他們利用卷積網絡預測N 維標註向量,將最高的隱含層作為人臉特征。

這一層在訓練過程中要區分大量的人臉類別(比如在DeepID 中要區分1000類人臉),因此包括了豐富的類間變化的信息,並且有非常強的泛化能力。盡管訓練中採用的是人臉辨識任務,得到特征能夠應用到人臉確認任務,以及識別訓練集中沒有新人。


比如LFW 上用於測試的任務是人臉確認任務,不同於訓練中採用的人臉辨識任務;DeepID[22]和DeepFace[23]的訓練集與LFW 測試集的人物身份是不重合的。

通過人臉辨識任務學習得到的人臉特征包括了較多的類內變化。

DeepID2[24]聯合使用人臉確認和人臉辨識作為監督信號。得到的人臉特征在保持類間變化的同一時候最小化類內變化,從而將LFW 上的人臉識別率提高到99.15%。

利用Titan GPU,DeepID2 提取一幅人臉圖像的特征僅僅須要35 毫秒,並且能夠離線進行。

經過PCA 壓縮終於得到80 維的特征向量,能夠用於高速人臉在線比對。在興許的工作中。DeepID2+[25]對DeepID2 通過加大網絡結構,添加訓練數據。以及在每一層都添加監督信息進行了進一步改進,在LFW 達到了99.47%的識別率。

一些人覺得深度學習的成功在於用具有大量參數的復雜模型去擬合數據集。這個看法也是不全面的。

其實,進一步的研究[25]表明DeepID2+的特征有非常多重要有趣的性質。比如,它最上層的神經元響應是中度稀疏的,對人臉身份和各種人臉屬性具有非常強的選擇性。對局部遮擋有非常強的魯棒性。以往的研究中。為了得到這些屬性,我們往往須要對模型添加各種顯示的約束。而DeepID2+通過大規模學習自己主動擁有了這些引人註目的屬性,其背後的理論分析值得未來進一步研究。

4. 深度學習在物體檢測中的應用

深度學習也對圖像中的物體檢測帶來了巨大提升。物體檢測是比物體識別更難的任務。一幅圖像中可能包括屬於不同類別的多個物體,物體檢測須要確定每一個物體的位置和類別。深度學習在物體檢測中的進展也體如今ImageNet ILSVRC 挑戰中。

2013 年比賽的組織者添加了物體檢測的任務,須要在四萬張互聯網圖片中檢測200 類物體。當年的比賽中贏得物體檢測任務的方法使用的依舊是手動設計的特征,平均物體檢測率,即meanAveraged Precision (mAP),僅僅有22.581%。在ILSVRC2014 中。深度學習將mAP 大幅提高到43.933%。較有影響力的工作包括 RCNN[10],Overfeat[26]。GoogLeNet[18],DeepID‐Net[27],network in network[28],VGG[29],和spatialpyramid pooling in deep CNN[30]。

被廣泛採用的基於深度學習的物體檢測流程是在RCNN[10]中提出的。首先採用非深度學習的方法(比如selective search[31])提出候選區域,利用深度卷積網絡從候選區域提取特征。然後利用支持向量機等線性分類器基於特征將區域分為物體和背景。DeepID‐Net[27]將這一流程進行了進一步的完好使得檢測率有了大幅提升,並且對每一個環節的貢獻做了具體的實驗分析。此外深度卷積網絡結構的設計也至關重要。

假設一個網絡結構提高提高
圖像分類任務的準確性。通常也能使物體檢測器的性能顯著提升。

深度學習的成功還體如今行人檢測上。在最大的行人檢測測試集(Caltech[32])上,被廣泛採用的HOG 特征和可變形部件模型[33]平均誤檢率是68%。眼下基於深度學習最好的結果是20.86%[34]。在最新的研究進展中,非常多在物體檢測中已經被證明行之有效的思路都有其在深度學習中的實現。

比如。聯合深度學習[15]提出了形變層,對物體部件間的幾何形變進行建模。多階段深度學習[35]能夠模擬在物體檢測中經常使用的級聯分類器。可切換深度網絡[36]能夠表達物體各個部件的混合模型;[37]通過遷移學習將一個深度模型行人檢測器自適應到一個目標場景。

5. 深度學習用於視頻分析

深度學習在視頻分類上的應用整體而言還處於起步階段,未來還有非常多工作要做。描寫敘述視頻的靜態圖像特征, 能夠採用用從ImageNet 上學習得到的深度模型。難點是怎樣描寫敘述動態特征。以往的視覺方法中,對動態特征的描寫敘述往往依賴於光流預計,對關鍵點的跟蹤,和動態紋理。怎樣將這些信息體如今深度模型中是個難點。最直接的做法是將視頻視為三維圖像。直接應用卷積網絡[38],在每一層學習三維濾波器。

可是這一思路顯然沒有考慮到時間維和空間維的差異性。第二種簡單但更加有效的思路是通過預處理計算光流場。作為卷積網絡的一個輸入通道[39]。也有研究工作利用深度編碼器(deep autoencoder)以非線性的方式提取動態紋理[40],而傳統的方法大多採用線性動態系統建模。在一些最新的研究工作中[41]。長短記憶網絡(LSTM)正在受到廣泛關註,它能夠捕捉長期依賴性,對視頻中復雜的動態建模。

6. 未來發展的展望

深度學習在圖像識別中的發展方興未艾,未來有著巨大的空間。本節對幾個可能的方向進行探討。

在物體識別和物體檢測中正趨向使用更大更深的網絡結構。ILSVRC2012 中Alex Net 僅僅包括了5 個卷積層和兩個全連接層。而ILSVRC2014 中 GooLeNet 和 VGG 使用的網絡結構都超過了20 層。更深的網絡結構使得反向傳播更加困難。

與此同一時候訓練數據的規模也在迅速添加。

這迫切須要研究新的算法和開發新的並行計算系統更加有效的利用大數據訓練更大更深的模型。

與圖像識別相比,深度學習在視頻分類中的應用還遠未成熟

從ImageNet 訓練得到的圖像特征能夠直接有效地應用到各種與圖像相關的識別任務(比如圖像分類、圖像檢索、物體檢測和圖像切割等等),和其他不同的圖像測試集,具有良好的泛化性能。

可是深度學習至今還沒有得到相似的可用於視頻分析的特征。要達到這個目的,不但要建立大規模的訓練數據集([42]最新建立了包括一百萬YouTube 視頻的數據庫),還須要研究適用於視頻分析的新的深度模型。此外訓練用於視頻分析的深度模型的計算量也會大大添加。

在與圖像和視頻相關的應用中,深度模型的輸出預測(比如切割圖或物體檢測框)往往具有空間和時間上的相關性。因此研究具有結構性輸出的深度模型也是一個重點。

盡管神經網絡的目的在於解決一般意義的機器學習問題,領域知識對於深度模型的設計也起著關鍵的數據。在與圖像和視頻相關的應用中,最成功的是深度卷積網絡,它正是利用了與圖像的特殊結構。

當中最重要的兩個操作,卷積和池化(pooling)都來自於與圖像相關的領域知識。

怎樣通過研究領域知識,在深度模型中引入新的有效的操作和層。對於提高圖像識別的性能有著重要意義。

比如池化層帶來了局部的平移不變性,[27]中提出的形變池化層在此基礎上更好的描寫敘述了物體各個部分的幾何形變。在未來的研究中,能夠將其進一步擴展,從而取得旋轉不變性、尺度不變性、和對遮擋的魯棒性。

通過研究深度模型和傳統計算機視覺系統之間的關系,不但能夠幫助我們理解深度學習成功的原因,還能夠啟示新的模型和訓練方法。聯合深度學習[15]和多階段深度學習[35]是兩個樣例,未來這方面還能夠有很多其他的工作。

最然深度學習在實踐中取得了巨大成功。通過大數據訓練得到的深度模型體現出的特性(比如稀疏性、選擇性、和對遮擋的魯棒性[22])引人註目,其背後的理論分析還有很多工作須要在未來完畢。比如,何時收斂,怎樣取得較好的局部極小點。每一層變換取得了那些對識別故意的不變性,又損失了那些信息等等。近期Mallat 利用小波對深層網絡結構進行了量化分析[43],是在這一個方向上的重要探索。

深度學習在圖像識別上的巨大成功,必將對於多媒體相關的各種應用產生重大影響。我們期待著很多其他的學者在不久的將來研究怎樣利用深度學習得到的圖像特征,推動各種應用的高速進步。

7. 結束語

2012 年以來,深度學習極大的推動了圖像識別的研究進展,突出體如今ImageNet ILSVRC 和人臉識別,並且正在高速推廣到與圖像識別相關的各個問題。

深度學習的本質是通過多層非線性變換,從大數據中自己主動學習特征,從而替代手工設計的特征。

深層的結構使其具有極強的表達能力和學習能力,尤其擅長提取復雜的全局特征和上下文信息,而這是淺層模型難以做到的。一幅圖像中,各種隱含的因素往往以復雜的非線性的方式關聯在一起,而深度學習能夠使這些因素分級開。在其最高隱含層不同神經元代表了不同的因素,從而使分類變得簡單。

深度模型並不是黑盒子。它與傳統的計算機視覺體統有著密切的聯系,可是它使得這個系統的各個模塊(即神經網絡的各個層)能夠通過聯合學習,整體優化,從而性能得到大幅提升。

與圖像識別相關的各種應用也在推動深度學習在網絡結構、層的設計和訓練方法各個方面的的高速發展。

我們能夠預見在未來的數年內,深度學習將會在理論、算法、和應用各方面進入高速發展的時期,期待著愈來愈多精彩的工作對學術和工業界產生深遠的影響。

王曉剛 香港中文大學 原文PDF下載

參考文獻:
[1] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning internal representations by error propagation. Nature, 323(99):533–536, 1986.
[2] J. Deng, W. Dong, R. Socher, L. Li, K. Li, and L. Fei‐Fei. Imagenet: A large‐scale hierarchical image database. In IEEE Int’l Conf. Computer Vision and Pattern Recognition,2009.
[3] A. Krizhevsky, L. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Proc.Neural Information Processing Systems,2012.
[4] G. B. Huang, M. Ramesh, T. Berg, and E.Learned‐Miler. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical report, University of Massachusetts, Amherst, 2007.
[5] N. Kumar, A. C. Berg, P. N. Belhumeur, and S. K. Nayar. Attribute and simile classifiers for face verification. In IEEE Int’l Conf. Computer Vision, 2009.
[6] M. Turk and A. Pentland. Eigenfaces for recognition. Journal of Cognitive Neuroscience, 3(1):71–86, 1991.
[7] D. Chen, X. Cao, F. Wen, and J. Sun. Blessing of dimensionality: Highdimensional feature and its efficient compression for face verification. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition,2013.
[8] Y. Sun, X. Wang, and X. Tang. Deeply learned face representations are sparse, selective, and robust. arXiv:1412.1265, 2014.
[9] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient‐based learning applied todocument recognition. Proceedings of the IEEE, 86:2278– 2324, 1998.
[10] R. Girshick, J. Donahue, T. Darrell, and J.Malik. Rich feature hierarchies for accurate object detection and semantic
segmentation. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[11] P. Luo, X. Wang, and X. Tang. Hierarchical face parsing via deep learning. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2012.
[12] P. Luo, X. Wang, and X. Tang. Pedestrian parsing via deep decompositional network. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[13] Y. Sun, X. Wang, and X. Tang. Deep convolutional network cascade for facial point detection. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition,2013.
[14] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[15] W. Ouyang and X. Wang. Joint deep learning for pedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[16] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H. Li, S. Yang, Z. Wang, C. Qian, Z. Zhu, R. Wang, C. Loy, X. Wang, and X. Tang. Deepidnet: multi‐stage and deformable deep convolutional neural networks for object detection. arXiv:1409.3505, 2014.
[17] http://www.clarifai.com/
[18] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. arXiv:1409.4842, 2014.
[19] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson. Cnn features off‐the‐shelf: an astounding baseline for recognition. arXiv:1403.6382, 2014.
[20] Y. Gong, L. Wang, R. Guo, and S. Lazebnik.Multi‐scale orderless pooling of deepconvolutional activation features. arXiv:1403.1840, 2014.
[21] Y. Sun, X. Wang, and X. Tang. Hybrid deeplearning for computing face similarities. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[22] Y. Sun, X. Wang, and X. Tang. Deep learningface representation from predicting 10,000classes. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[23] Y. Taigman, M. Yang, M. Ranzato, and L.Wolf. Deepface: Closing the gap to humanlevelperformance in face verification. In Proc. IEEE Int’l Conf. Computer Vision andPattern Recognition, 2014.
[24] Y. Sun, X. Wang, and X. Tang. Deep learningface representation by joint identificationverification.In Proc. Neural Information Processing Systems, 2014.
[25] Y. Sun, X. Wang, and X. Tang. Deeplylearned face representations are sparse,selective, and robust. arXiv:1412.1265, 2014.
[26] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu,R. Fergus, and Y. Le‐ Cun. Overfeat:Integrated recognition, localization and detection using convolutional networks. InProc. Int’l Conf. Learning Representations,2014.
[27] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H.Li, S. Yang, Z. Wang, C. Qian, Z. Zhu, R. Wang, C. Loy, X. Wang, and X. Tang. Deepidnet:multi‐stage and deformable deepconvolutional neural networks for object detection. arXiv:1409.3505, 2014.
[28] M. Lin, Q.. Chen, and S. Yan. Network innetwork. arXiv:1312.4400v3, 2013.
[29] K. Simonyan and A. Zisserman. Very deepconvolutional networks for large‐scaleimage recognition. arXiv:1409.1556, 2014, 2014.
[30] K. He, X. Zhang, S. Ren, and J. Sun. Spatialpyramid pooling in deep convolutionalnetworks for visual recognition. arXiv:1406.4729, 2014.
[31] J. R. R. Uijlings, K. E. A. Van de Sande, T.Gevers, and W. M. Smeulders. Selectivesearch for object recognition. InternationalJournal of Computer Vision, 104:154–171,2013.
[32] P. Dollar, C. Wojek, B. Schiele, and P. Perona.Pedestrian detection: A benchmark. In Proc.IEEE Int’l Conf. Computer Vision and PatternRecognition, 2009.
[33] P. Felzenszwalb, R. B. Grishick, D.McAllister,and D. Ramanan. Object detection with discriminatively trained part based models.IEEE Trans. PAMI, 32:1627–1645, 2010.
[34] Y. Tian, P. Luo, X. Wang, and X. Tang,“Pedestrian Detection aided by DeepLearning Semantic Tasks,” arXiv 2014.
[35] X. Zeng, W. Ouyang, and X. Wang. Multistagecontextual deep learning forpedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[36] P. Luo, Y. Tian, X. Wang, and X. Tang.Switchable deep network for pedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[37] X. Zeng, W. Ouyang, and X. Wang. Deep learning of scene‐specific classifier for pedestrian detection. In Proc. European Conf. Computer Vision, 2014.
[38] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence, 35(1):221–231, 2013.
[39] K. Simonyan and A. Zisserman. Two‐Stream Convolutional Networks for Action Recognition in Videos. arXiv:1406.2199, 2014.
[40] X. Yan, H. Chang, S. Shan, and X. Chen, Modeling Video Dynamics with Deep Dynencoder. In Proc. European Conf. Computer Vision, 2015.
[41] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. Long‐term recurrent convolutional networks for visual recognition and description.arXiv:1411.4389, 2014.
[42] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei‐Fei. Large‐scalevideo classification with convolutional neural networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[43] J. Bruna and S. Mallat. Invariant scattering convolution networks. IEEE Trans. on Pattern Analysis and Machine Intelligence, 35(8):1872 – 1886, 2013.

【王曉剛】深度學習在圖像識別中的研究進展與展望