影象識別泛化能力人機對比:CNN比人類還差得遠
深度神經網路在很多工上都已取得了媲美乃至超越人類的表現,但其泛化能力仍遠不及人類。德國蒂賓根大學等多所機構近期的一篇論文對人類和 DNN 的目標識別穩健性進行了行為比較,並得到了一些有趣的見解。機器之心對該論文進行了編譯介紹。
-
論文地址:https://arxiv.org/pdf/1808.08750.pdf
-
專案地址:https://github.com/rgeirhos/generalisation-humans-DNNs
摘要
我們通過 12 種不同型別的影象劣化(image degradation)方法,比較了人類與當前的卷積式 深度神經網路 (DNN)在目標識別上的穩健性。首先,對比三種著名的 DNN(ResNet-152、VGG-19、GoogLeNet),我們發現不管對影象進行怎樣的操作,幾乎所有情況下人類視覺系統都更為穩健。我們還觀察到,當訊號越來越弱時,人類和 DNN 之間的分類誤差模式之間的差異會逐漸增大。其次,我們的研究表明直接在畸變影象上訓練的 DNN 在其所訓練的同種畸變型別上的表現總是優於人類,但在其它畸變型別上測試時,DNN 卻表現出了非常差的泛化能力。比如,在椒鹽噪聲上訓練的模型並不能穩健地應對均勻白噪聲,反之亦然。因此,訓練和測試之間噪聲分佈的變化是深度學習視覺系統所面臨的一大關鍵難題,這一難題可通過終身機器學習方法而系統地解決。我們的新資料集包含 8.3 萬個精心度量的人類心理物理學試驗,能根據人類視覺系統設定的影象劣化提供對終身穩健性的有用參考。
圖 1:在(有可能畸變的)ImageNet影象上從頭開始訓練的 ResNet-50 的分類表現。(a)在標準的彩色影象上訓練後的模型在彩色影象上的測試表現接近完美(優於人類觀察者)。(b)類似地,在添加了均勻噪聲的影象上訓練和測試的模型也優於人類。(c)顯著的泛化問題:在添加了椒鹽噪聲的影象上訓練的模型在具有均勻噪聲的影象上進行測試時,表現時好時壞——即使這兩種噪聲型別在人眼看來並沒有太大的區別。
1 引言
1.1 作為人類目標識別模型的 深度神經網路
人類在日常生活中進行的視覺識別速度很快,似乎也毫不費力,而且很大程度無關視角和物體的方向 [Biederman (1987)]。在單次注視過程中完成的主要由中心凹進行的快速識別被稱為「核心目標識別(coreobject recognition)」[DiCarlo et al. (2012)]。比如,在檢視「標準的」影象時,我們能夠在不到 200 毫秒的單次注視內可靠地辨別出視野中心的目標。[DiCarlo et al. (2012); Potter (1976); Thorpe et al. (1996)]。由於目標識別速度很快,所以研究者常認為核心目標識別主要是通過前饋處理實現的,儘管反饋連線在靈長類大腦中無處不在。靈長類大腦中的目標識別據信是通過腹側視覺通路實現的,這是一個由區域 V1-V2-V4-IT 組成的分層結構,來自視網膜的資訊會首先傳遞至 V1 的皮層 [Goodale and Milner (1992)]。
就在幾年前,動物視覺系統還是已知的唯一能夠進行種類廣泛的視覺目標識別的視覺系統。但這種情況已然改變,在數百萬張有標註影象上訓練之後的腦啟發式 深度神經網路 已經在自然場景影象中的物體分類上達到了人類水平 [Krizhevsky et al. (2012)]。DNN 現在可用於各種型別的任務,並且創造了新的當前最佳,甚至在一些幾年前還被認為需要數十年時間才能通過演算法解決的任務上取得了超越人類的表現 [He et al. (2015); Silver et al. (2016)]。因為 DNN 和人類能達到相近的準確度,所以已有一些工作開始研究 DNN 和人類視覺的相似和不同之處。一方面,由於大腦本身的複雜性和神經元的多樣性,所以 DNN 的網路單元得到了很大的簡化 [Douglas and Martin (1991)]。另一方面,一個模型的能力往往並不取決於對原有系統的復現,而在於模型取得原系統的重要方面並將其從實現的細節中抽象出來的能力 [如 Box (1976); Kriegeskorte (2015)]。
人類視覺系統最顯著的性質之一是穩健的泛化能力。即使輸入分佈發生很大的變化(比如不同的光照條件和天氣型別),人類視覺系統也能輕鬆應對。比如,即使在一個物體前面有雨滴或雪花,人類對物體的識別也基本不會出錯。儘管人類在一生中肯定會遇到很多這樣的變化情況(對於 DNN,即是我們所說的「訓練時間」),但似乎人類的泛化方式非常普適,並不侷限於之前看過的同種分佈。否則我們將無法理解存在某些全新之處的場景,之前未見過的噪聲也會讓我們束手無策。即使一個人的頭上還從未被撒過彩片碎紙,但他仍然可以毫無壓力地辨認出花車巡遊中的目標。很自然,這樣通用穩健的機制並不只是動物視覺系統所需的,要讓人工視覺系統具備超出其訓練時間所用分佈的「眼界」,從而處理各種各樣的視覺任務,也將需要類似的機制。用於自動駕駛的深度學習可能就是其中一個突出案例:即使系統在訓練時間從沒見過彩片碎紙雨,在花車巡遊時也需要有穩健的分類表現。因此,從機器學習角度看,因為終身機器學習所需的泛化能力並不依賴於在測試時間使用獨立同分布(i.i.d.)樣本的標準假設,所以對一般噪聲的穩健性可用作終身機器學習的高度相關的案例 [Chen and Liu (2016)]。
1.2 泛化能力比較
DNN 的泛化效果一般很好:首先,DNN 能夠在訓練分佈上學習到足夠一般的特徵,能在獨立同分布的測試分佈上得到很高的準確度;儘管 DNN 也有足夠的能力完全記憶訓練資料 [Zhang et al. (2016)],。有很多研究致力於理解這一現象 [如 Kawaguchi et al. (2017); Neyshabur et al. (2017); Shwartz-Ziv and Tishby (2017)]。其次,在一個任務上學習到特徵往往只會遷移到有所相關的任務上,比如從分類任務遷移到顯著性預測任務 [Kümmerer et al. (2016)]、情緒識別任務 [Ng et al. (2015)]、醫學成像任務 [Greenspan et al. (2016)] 以及其它很多遷移學習任務 [Donahue et al. (2014)]。但是,在用於新任務之前,遷移學習仍然需要大量訓練。這裡,我們採用第三種設定:終身機器學習角度的泛化 [Thrun (1996)]。即當一個視覺學習系統在學習過處理一種特定型別的影象劣化後,在處理新型別的影象劣化時效果如何?作為一種目標識別穩健性的度量方法,我們可以測試分類器或視覺系統能夠忍受輸入分佈的變化達到一定程度的能力,即在一定程度上不同於訓練分佈的測試分佈上評估時的識別表現是否夠好(即在接近真實的情況下測試,而非在獨立同分布上測試)。使用這種方法,我們可以衡量 DNN 和人類觀察者應對由引數化影象處理所造成的原始影象逐漸畸變的能力。
首先,我們將評估在ImageNet上訓練的表現最好的 DNN,即 GoogLeNet [Szegedy et al. (2015)]、 VGG-19 [Simonyan and Zisserman (2015)] 和 ResNet-152 [He et al. (2016)],並會在 12 種不同的影象畸變上比較這些 DNN 與人類的表現,看各自在之前未見過的畸變上的泛化能力如何。圖 2 展示了這些畸變型別,包含加性噪聲或相位噪聲等。
在第二組實驗中,我們會直接在畸變影象上訓練網路,看它們在一般意義上處理有噪聲輸入的效果究竟如何,以及在畸變影象上進行多少訓練就能以資料增強的形式助力對其它畸變形式的處理。研究者已對人類在目標識別任務上的行為進行了很多心理物理學研究,這些任務包括在不同顏色(灰度和彩色)或對比度以及添加了不同量的可見噪聲的影象上測量準確度。研究表明,這種方法確實有助於對人類視覺系統的探索,能揭示出有關其中內部計算和機制的資訊 [Nachmias and Sansbury (1974); Pelli and Farell (1999); Wichmann (1999); Henning et al. (2002); Carandini and Heeger (2012); Carandini et al. (1997); Delorme et al. (2000)]。因此,類似的實驗也許同樣能讓我們瞭解 DNN 的工作方式,尤其是還能通過與人類行為的高質量測量結果來進行比較。
特別需要指出,我們實驗中的人類資料是從受控的實驗環境中獲得的(而沒有使用 Amazon Mechanical Turk 等服務,因為這些服務無法讓我們充分地控制展示時間、顯示器校準、視角和參與者在實驗中的注意力)。我們精心測量得到的行為資料集共包含 12 個實驗的 82880 次心理物理學試驗,這些資料以及相關材料和程式碼都已公開:https://github.com/rgeirhos/generalisation-humans-DNNs
2 方法
這一節將報告所用的正規化、流程、影象處理方法、觀察者和 DNN 的核心元素;這裡的資訊足以讓讀者瞭解相關實驗和結果。更深入的解讀請參閱補充材料,其中有更詳細的細節,可幫助研究者重現我們的實驗。
2.1 正規化、流程和 16-class-ImageNet
為了本研究,我們開發了一種實驗正規化,旨在使用一種強制選擇的影象分類任務來儘可能公平地比較人類觀察者和 DNN。實現公平的心理物理學比較面臨著一些難題:首先,很多表現優良的 DNN 是在 ILSRVR 2012 資料庫 [Russakovsky et al. (2015)] 上訓練的,這個資料庫有 1000 種細粒度的類別(比如,超過 100 種狗)。如果讓人類說出這些目標的名稱,他們基本上很自然地會使用大類的名稱(比如會說這是「狗」,而不是說是「德國牧羊犬」)。因此,我們使用 WordNet 的層次結構 [Miller (1995)] 開發了一種對映方法,將 16 種大類類別(比如狗、車或椅子)對映到了它們對應的ImageNet類別。我們將這個資料集稱為 16-class-ImageNet,因為它將ImageNet的一個子集分組成了 16 個大類,即:飛機、兩輪車、船舶、小車、椅子、狗、鍵盤、烤箱、熊、鳥、瓶子、貓、鐘錶、象、刀具、卡車)。然後,在每次試驗中都會有一張影象顯示在計算機螢幕上,觀察者必須通過點選這 16 個類別中的 1 個來選出正確的類別。對於預訓練的 DNN,則是計算對映到特定大類的所有 softmax 值的總和。然後,具有最高總和的大類被用作該網路的最終決定。
另一個難題是實際上標準的 DNN 在推理時間僅會使用前饋式計算,而迴圈連線在人腦中無處不在 [Lamme et al. (1998); Sporns and Zwi (2004)]。為了防止這種差異在我們的實驗比較中成為混淆結果的主要原因,給人類觀察者的呈現時間被限制在了 200ms。在展示完一張影象之後,還會呈現 200ms 的 1/f 噪聲掩模——在心理物理學上,已知這種方法能夠儘可能地最小化大腦中的反饋影響。
2.2 觀察者和預訓練的 深度神經網路
來自人類觀察者的資料與三個預訓練的 DNN 的分類表現進行了比較,即 GoogLeNet、 VGG-19 和 ResNet-152。對於我們進行的 12 個實驗中的每一個,都有 5 或 6 個觀察者參與(只有彩色影象的實驗除外,該實驗僅有三位觀察者參與,因為已有很多研究執行過類似的實驗 [Delorme et al. (2000); Kubilius et al. (2016); Wichmann et al. (2006)]。觀察者的視力或矯正後視力處於正常水平。
2.3影象處理方法
我們在一個控制良好的心理物理學實驗室環境中進行了總共 12 個實驗。在每個實驗中,都會在大量影象上施加(可能是引數化的)影象畸變,這樣訊號強度的範圍就從「沒有畸變/全訊號」到「有畸變/(更)弱訊號」不等。然後我們測量了分類準確度隨訊號強度的變化情況。我們使用的影象處理方法中有三種是二分式的(彩色與灰度、真色與反色、原始與均衡化的功率譜);一種處理方式有 4 個不同層級(旋轉 0、90、180、270 度);還有一種方式有 7 個層級(0、30……180 度的相位噪聲);其它畸變方法則各有 8 個不同層級。這些方法為:均勻噪聲(受表示畫素層面加性均勻噪聲的邊界的「width」引數控制)、對比度下降(對比度從 100% 到 1% 不等)以及三種來自 Eidolon 工具箱的三種不同的處理方法 [Koenderink et al. (2017)]。這三個 Eidolon 實驗都對應於一種引數化影象處理的不同版本,「reach」引數控制了畸變的強度。此外,對於在畸變上訓練的實驗,我們也評估了在具有椒鹽噪聲的刺激上的表現(受引數p 控制,該引數表示將一個畫素設定成黑或白色的概率;p∈[0,10,20,35,50,65,80,95]%)。
更多有關不同影象處理方法的資訊請參閱補充材料,其中也包含各種不同處理方法和畸變等級的圖例。圖 2 則展示了每種畸變的一個圖例。整體而言,我們選擇使用的影象處理方法能夠代表很多不同型別的可能畸變。
圖 2:一張鳥影象在經過所有型別的畸變處理後的結果。從左至右的影象處理方法依次為:(上面一行):彩色原圖(未畸變)、灰度、低對比度、高通、低通(模糊)、相位噪聲、功率均衡;(下面一行):反色、旋轉、Eidolon I、Eidolon II、Eidolon III、加性均勻噪聲、椒鹽噪聲。補充材料中提供了所用到的所有畸變等級。
2.4 在畸變影象上訓練
除了在畸變影象上評估標準的預訓練的 DNN(結果見圖 3),我們還直接在畸變影象上訓練了神經網路(圖 4)。這些網路是在 16-class-ImageNet上訓練的,這是標準ImageNet資料集的一個子集,詳見 2.1 節。這將未受擾動的訓練集規模減小到了大約原來的五分之一。為了校正每個類別的高度不平衡的樣本數量,我們使用了一個與對應類別的樣本數量成正比的權重給損失函式中的每個樣本加權。這些實驗中訓練的所有網路都使用了類似 ResNet 的架構,與標準 ResNet-50 的不同之處僅有輸出神經元的數量——從 1000 降至了 16,以對應資料集的 16 個大類。權重使用了一個截斷的正態分佈進行初始化,均值為零,標準差為,其中 n 是一層中輸出神經元的數量。
在從頭開始訓練時,我們使用影象處理方法的不同組合在訓練過程中執行了資料增強。當在多種型別的影象處理上訓練網路時(圖 4 中的 B1-B9 和 C1-C2 模型),影象處理的型別(包括未畸變影象,即標準的彩色影象)是均勻選取的,而且我們每次僅應用一種處理(即網路永遠不會看到同時應用了多種影象處理方法的單張影象,但注意某些影象處理方法本質上已經包含了其它處理方法:比如均勻噪聲,總是在進行灰度轉換並將對比度降至 30% 後新增的)。對於一個給定的影象處理方法,擾動量是根據測試時間所用的等級均勻選取的(參見圖 3)。
訓練過程的其它方面都遵循在ImageNet上訓練 ResNet 的標準訓練流程:我們使用了動量為 0.997 的 SGD,批大小為 64,初始學習率為 0.025。在 30、60、80 和 90 epoch 後(當訓練 100 epoch 時)或 60、120、160、180 epoch 後(當訓練 200 epoch 時),學習率乘以 0.1。我們使用了TensorFlow 1.6.0 [Abadi et al. (2016)] 進行訓練。在訓練實驗中,除了 Eidolon 刺激(因為這些刺激的生成對ImageNet訓練而言的計算速度實在太慢)之外,所有的影象處理方法都有超過兩個層級。為了進行比較,我們額外添加了彩色與灰度和椒鹽噪聲的對比(因為椒鹽噪聲方面沒有人類的資料,但均勻噪聲和椒鹽噪聲之間不正式的比較說明人類的表現是相近的,參見圖 1(c))。
3 人類和預訓練後的 DNN 對影象畸變的泛化能力
為了評估訊號更弱時的泛化能力,我們測試了 12 種不同的影象劣化方法。然後將這些不同訊號強度的影象呈現給實驗室環境中的人類觀察者以及預訓練的 DNN(ResNet-152、GoogLeNet 和 VGG-19)進行分類。圖 3 給出了視覺化的結果比較。
圖 3:GoogLeNet、VGG-19 和 ResNet-152 以及人類觀察者的分類準確度和響應分佈熵。「熵」是指響應/決定分佈(16 類)的夏農熵。這裡衡量了與特定類別的偏差:使用一個在每個類別的影象數量方面平衡的測試資料集,對所有 16 個類別進行同等頻率的響應能得到 4 bit 的最大可能熵。如果網路或觀察者更偏愛響應其中某些類別,則熵會降低(如果是一直響應單個類別的極端情況,則會降至 0 bit,不管基本真值的類別如何)。人類表現的「誤差線」表示了所有參與者的結果的整個區間。2.3 節將解釋影象處理方法,視覺化結果請參閱補充材料。
雖然在僅有相對較小的與顏色相關的畸變時(比如灰度轉換或反色)人類和 DNN 的效能接近,但我們發現人類觀察者對其它所有畸變都更穩健:在低對比度、功率均衡和相位噪聲影象上有少許優勢,在均勻噪聲、低通、高通、旋轉和三種 Eidolon 實驗上優勢更大。此外,由響應分佈熵衡量的誤差模式存在很大的差異(這表明存在對特定類別的偏差)。當訊號越來越弱時,人類參與者的響應在 16 個類別上或多或少是均等分佈的,而三個 DNN 都表現出了對特定類別的偏差。這些偏差並不能完全通過先驗類別概率解釋,而且因具體畸變而各不相同。比如,對於有很強均勻噪聲的影象,ResNet-152 幾乎只能預測瓶子類別(與基本真值類別無關),而對於有嚴重相位噪聲的影象則只能預測狗或鳥類別。人們可能會想到一些降低 DNN 和人類的響應分佈熵之間的差異的簡單技巧。一種可能的方法是增大 softmax 溫度引數並假設模型的決定是從這個 softmax 分佈取樣的,而不是取自 argmax。但是,以這種方式增大響應 DNN 分佈熵會極大降低分類準確度,因此需要一定的權衡(參見補充材料圖 8)。
這些結果與之前報告的 DNN 中對顏色資訊的處理與人類類似的發現一致 [Flachot and Gegenfurtner (2018)],但 DNN 識別的準確度會因噪聲和模糊等影象劣化而顯著下降 [Vasiljevic et al. (2016); Dodge and Karam (2016, 2017a, 2017b); Zhou et al. (2017)]。整體而言,在各種影象畸變情況下,DNN 在泛化到更弱訊號上的表現比人類更差。儘管人類的視覺系統隨進化過程和生命週期已經遇到了大量畸變,但我們顯然沒遇到過我們的測試中很多確切的影象處理方式。因此,我們的人類資料表明原則上高水平的泛化能力是可能的。我們發現,人類與 DNN 的泛化能力差異的可能原因有很多:在當前所使用的網路架構方面是否存在侷限性(正如 Dodge and Karam (2016) 假設的那樣),使得 DNN 無法匹敵人腦中錯綜複雜的計算?訓練資料是否存在問題(Zhou et al. (2017) 就這樣認為)?還是說當今的訓練方法/優化方法不足以實現穩健和通用的目標識別?為了理解我們發現的差異之處,我們進行了另一批實驗——直接在畸變影象上訓練網路。
4 直接在畸變影象上訓練 DNN
圖 4:使用可能畸變的資料訓練的網路的分類準確度(百分數)。行表示中等難度的不同測試條件(括號中給出了具體條件,單位同圖 3)。列對應按不同方式訓練的網路(最左列:用於比較的人類觀察者;沒有人類在椒鹽噪聲方面的資料)。所有的網路都是在(可能處理過的)16-class-ImageNet上從頭開始訓練得到的。紅框標記了對應網路的訓練資料中使用的處理方法;此外,加上了下劃線的結果表示「灰度」是訓練資料的一部分,因為某些畸變方法包含了完全對比度的灰度影象。模型 A1-A9:在單一畸變上訓練的 ResNet-50(100 epoch)。模型 B1-B9:在均勻噪聲和另一種畸變上訓練的 ResNet-50(200 epoch)。模型 C1 和 C2:在除一種畸變外的所有畸變上訓練的 ResNet-50(200 epoch)。隨機選中的機率是十六分之一,即 6.25%。
我們為每種畸變直接在 16-class-ImageNet影象(有可能進行了影象處理)上從頭開始訓練一個網路。圖 4(A1-A9)展示了訓練的結果。我們發現,這些特定的網路在其所訓練的影象處理型別上總是優於人類觀察者的表現(即圖中對角線上的優良結果)。這表明,當前所用的架構(比如 ResNet-50)和訓練方法(標準的優化器和訓練過程)足以「解決」獨立同分布的訓練/測試條件下的畸變。我們不僅能解決 Dodge and Karam (2017a) 觀察到的人類與 DNN 表現的差異問題(他們在畸變上對網路進行了精細調節,但得到的 DNN 未達到人類水平),而且能在這方面超越人類的水平。儘管人類視覺系統的結構肯定更為複雜 [Kietzmann et al. (2017)],但看起來對處理這類影象處理問題來說似乎並不是必需的。
但是,正如之前指出的那樣,穩健的泛化能力的關鍵不是解決事先已知的特定問題。因此,我們測試了在特定畸變型別上訓練的網路在另一些畸變上的表現。圖 4 A1-A9 中非對角線上的資料即為實驗結果。整體而言,我們發現,在一些案例中,在特定畸變上訓練能稍微提升在其它畸變上的表現,但也有一些案例給出了相反的結果(比較物件是在彩色影象上訓練的純 ResNet-50,即圖中的 A1)。所有網路在椒鹽噪聲以及均勻噪聲上的表現都接近隨機亂選,即使是在各自相應的其它噪聲模型上直接訓練的網路也是如此。因為這兩種型別的噪聲在人眼看來其實差別並不大(如圖 1(c) 所示),所以這一結果可能還是頗讓人驚訝。因此,在一種畸變型別上訓練的網路並不總是能實現在其它畸變上的表現提升。
因為只在單一一種畸變上訓練似乎不足以為 DNN 帶來強大的泛化能力,所以我們還在另外兩種設定上訓練了同樣的架構(ResNet-50)。圖 4 中 B1-B9 模型展示了在一種特定的畸變與均勻噪聲的組合上訓練後的結果(來自每種影象處理方法的訓練資料各 50%)。選擇均勻噪聲的原因是這似乎是對所有網路而言最困難的畸變,因此將這種特定畸變納入訓練資料可能是有益的。此外,我們還在除去了一種畸變(除去了均勻噪聲或椒鹽噪聲)之外的所有畸變上訓練了模型 C1 和 C2。
我們發現,相比於模型 A1-A9,模型 B1-B9 的目標識別表現有所提升——不管是它們實際訓練的畸變上(圖 4 中的對角線上的紅框),還是在其它未在訓練資料中出現的畸變上。但是,這一提升的原因很大程度上可能是模型 B1-B9 訓練了 200 epoch,而不是像 A1-A9 那樣訓練了 100 epoch,因為模型 B9(在均勻噪聲上訓練和測試,200 epoch)的表現也由於模型 A9(在均勻噪聲上訓練和測試,100 epoch)。因此,當存在嚴重畸變時,訓練更長時間可能更有用,但將其它畸變整合到訓練過程中卻似乎並不具有普適的益處。此外,我們還發現,即使對於單個模型來說,在其所訓練的所有 8 種畸變上都達到較高的準確度也是可能(模型 C1 和 C2),但是對於剩下的兩種畸變(均勻噪聲或椒鹽噪聲),目標識別準確度卻僅有 11%-14%;比起在同一畸變上訓練得到的專用網路(準確度超過 70%),這一準確度離隨機亂選要近得多。
總的來說,這些發現表明僅使用畸變來進行資料增強可能不足以克服我們發現的泛化問題。問題也許應該變一變了——不再是「為什麼 DNN 的泛化能力這麼好(在獨立同分布條件下)?」[Zhang et al. (2016)],而變成「為什麼 DNN 的泛化能力這麼糟(在非獨立同分布條件下)?」目前被視為人類目標識別的計算模型的 DNN 將如何解決這一難題?還有待未來研究。這個激動人心的領域處於認知科學/視覺感知和深度學習領域的交叉點,會從這兩個領域同時汲取靈感和新思想:計算機視覺的域適應子領域(參閱 Patel et al. (2015) 的綜述)正在研究不受輸入分佈變化所影響的穩健型機器推理方法,同時人類視覺研究領域也正在積累證據證明區域性增益控制機制的優勢。這些標準化過程似乎對動物和人類的穩健視覺的很多方面而言都至關重要 [Carandini and Heeger (2012)],也能預測人類視覺資料 [Berardino et al. (2017); Schütt and Wichmann (2017)],並以證明可用於計算機視覺[Jarrett et al. (2009); Ren et al. (2016)]。神經標準化過程與 DNN 的泛化能力之間是否存在關聯?這將是值得未來研究一個有趣方向。
5 總結
我們基於 12 種不同的影象畸變,對人類和 DNN 的目標識別穩健性進行了行為比較。我們發現,與人類觀察者相比,在ImageNet上訓練的三種知名 DNN(ResNet-152、GoogLeNet 和 VGG-19)的表現會隨著影象畸變所造成的信噪比的減小而迅速降低。此外,我們還發現當訊號越來越弱時,人類與 DNN 的分類誤差模式的差別會逐漸增大。我們在良好控制的實驗室條件下進行了 82880 次心理物理學試驗,結果表明人類與當前 DNN 處理目標資訊的方式仍存在顯著區別。在我們的設定中,這些區別無法通過在畸變影象上進行訓練(即資料增強)而克服:儘管 DNN 能完美應對其所訓練過的特定畸變,但對於它們之前未曾見過的畸變型別,它們仍然束手無策。因為潛在畸變的型別基本上是無窮無盡的(不管是理論上還是實際應用中都是如此),所以不可能在所有畸變上都訓練一遍。當超出常規的獨立同分布假設時(通常是不現實的),DNN 就會遇到泛化問題。我們相信,不管是為了創造穩健的機器推理,還是為了更好地理解人類目標識別,解決這一泛化問題都至關重要。我們希望我們的發現以及我們精心測量並免費公開的行為資料能為 DNN 穩健性的提升提供一個有用的新基準,並能激勵神經科學家找到大腦中負責這一出色的穩健性機制。
ofollow,noindex" target="_blank">理論 計算機視覺 卷積神經網路 泛化
相關資料
Neural Network
(人工)神經網路是一種起源於 20 世紀 50 年代的監督式機器學習模型,那時候研究者構想了「感知器(perceptron)」的想法。這一領域的研究者通常被稱為「聯結主義者(Connectionist)」,因為這種模型模擬了人腦的功能。神經網路模型通常是通過反向傳播演算法應用梯度下降訓練的。目前神經網路有兩大主要型別,它們都是前饋神經網路:卷積神經網路(CNN)和迴圈神經網路(RNN),其中 RNN 又包含長短期記憶(LSTM)、門控迴圈單元(GRU)等等。深度學習是一種主要應用於神經網路幫助其取得更好結果的技術。儘管神經網路主要用於監督學習,但也有一些為無監督學習設計的變體,比如自動編碼器和生成對抗網路(GAN)。
來源:機器之心
Deep neural network
深度神經網路(DNN)是深度學習的一種框架,它是一種具備至少一個隱層的神經網路。與淺層神經網路類似,深度神經網路也能夠為複雜非線性系統提供建模,但多出的層次為模型提供了更高的抽象層次,因而提高了模型的能力。
來源:機器之心 Techopedia
Computer Vision
計算機視覺(CV)是指機器感知環境的能力。這一技術類別中的經典任務有影象形成、影象處理、影象提取和影象的三維推理。目標識別和麵部識別也是很重要的研究領域。
來源:機器之心
ImageNet
Image processing
影象處理是指對影象進行分析、加工、和處理,使其滿足視覺、心理或其他要求的技術。 影象處理是訊號處理在影象領域上的一個應用。 目前大多數的影象均是以數字形式儲存,因而影象處理很多情況下指數字影象處理。
來源: 維基百科
Machine Learning
機器學習是人工智慧的一個分支,是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的演算法。因為學習演算法中涉及了大量的統計學理論,機器學習與推斷統計學聯絡尤為密切,也被稱為統計學習理論。演算法設計方面,機器學習理論關注可以實現的,行之有效的學習演算法。
來源:Mitchell, T. (1997). Machine Learning. McGraw Hill.
Mapping
對映指的是具有某種特殊結構的函式,或泛指類函式思想的範疇論中的態射。 邏輯和圖論中也有一些不太常規的用法。其數學定義為:兩個非空集合A與B間存在著對應關係f,而且對於A中的每一個元素x,B中總有有唯一的一個元素y與它對應,就這種對應為從A到B的對映,記作f:A→B。其中,y稱為元素x在對映f下的象,記作:y=f(x)。x稱為y關於對映f的原象*。*集合A中所有元素的象的集合稱為對映f的值域,記作f(A)。同樣的,在機器學習中,對映就是輸入與輸出之間的對應關係。
來源: Wikipedia
Loss function
在數學優化,統計學,計量經濟學,決策理論,機器學習和計算神經科學等領域,損失函式或成本函式是將一或多個變數的一個事件或值對映為可以直觀地表示某種與之相關“成本”的實數的函式。
來源: Wikipedia
Momentum
優化器的一種,是模擬物理裡動量的概念,其在相關方向可以加速SGD,抑制振盪,從而加快收斂
neurons
(人工)神經元是一個類比於生物神經元的數學計算模型,是神經網路的基本組成單元。 對於生物神經網路,每個神經元與其他神經元相連,當它“興奮”時會向相連的神經元傳送化學物質,從而改變這些神經元的電位;神經元的“興奮”由其電位決定,當它的電位超過一個“閾值”(threshold)便會被啟用,亦即“興奮”。 目前最常見的神經元模型是基於1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神經元模型”。 在這個模型中,神經元通過帶權重的連線接處理來自n個其他神經元的輸入訊號,其總輸入值將與神經元的閾值進行比較,最後通過“啟用函式”(activation function)產生神經元的輸出。
來源: Overview of Artificial Neural Networks and its Applications. (2018). medium.com.
neuroscience
神經科學,又稱神經生物學,是專門研究神經系統的結構、功能、發育、演化、遺傳學、生物化學、生理學、藥理學及病理學的一門科學。對行為及學習的研究都是神經科學的分支。 對人腦研究是個跨領域的範疇,當中涉及分子層面、細胞層面、神經小組、大型神經系統,如視覺神經系統、腦幹、腦皮層。
來源: 維基百科
object recognition
計算機視覺領域的一個分支,研究物體的識別任務
self-driving
從 20 世紀 80 年代首次成功演示以來(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自動駕駛汽車領域已經取得了巨大進展。儘管有了這些進展,但在任意複雜環境中實現完全自動駕駛導航仍被認為還需要數十年的發展。原因有兩個:首先,在複雜的動態環境中執行的自動駕駛系統需要人工智慧歸納不可預測的情境,從而進行實時推論。第二,資訊性決策需要準確的感知,目前大部分已有的計算機視覺系統有一定的錯誤率,這是自動駕駛導航所無法接受的。
來源: 機器之心
Transfer learning
遷移學習是一種機器學習方法,就是把為任務 A 開發的模型作為初始點,重新使用在為任務 B 開發模型的過程中。遷移學習是通過從已學習的相關任務中轉移知識來改進學習的新任務,雖然大多數機器學習演算法都是為了解決單個任務而設計的,但是促進遷移學習的演算法的開發是機器學習社群持續關注的話題。 遷移學習對人類來說很常見,例如,我們可能會發現學習識別蘋果可能有助於識別梨,或者學習彈奏電子琴可能有助於學習鋼琴。
來源:機器之心Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.
Weight
線性模型中特徵的係數,或深度網路中的邊。訓練線性模型的目標是確定每個特徵的理想權重。如果權重為 0,則相應的特徵對模型來說沒有任何貢獻。
來源:Google AI Glossary
Deep learning
深度學習(deep learning)是機器學習的分支,是一種試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對資料進行高層抽象的演算法。 深度學習是機器學習中一種基於對資料進行表徵學習的演算法,至今已有數種深度學習框架,如卷積神經網路和深度置信網路和遞迴神經網路等已被應用在計算機視覺、語音識別、自然語言處理、音訊識別與生物資訊學等領域並獲取了極好的效果。
來源: LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.
Tensor
張量是一個可用來表示在一些向量、標量和其他張量之間的線性關係的多線性函式,這些線性關係的基本例子有內積、外積、線性對映以及笛卡兒積。其座標在 維空間內,有 個分量的一種量,其中每個分量都是座標的函式,而在座標變換時,這些分量也依照某些規則作線性變換。稱為該張量的秩或階(與矩陣的秩和階均無關係)。 在數學裡,張量是一種幾何實體,或者說廣義上的“數量”。張量概念包括標量、向量和線性運算元。張量可以用座標系統來表達,記作標量的陣列,但它是定義為“不依賴於參照系的選擇的”。張量在物理和工程學中很重要。例如在擴散張量成像中,表達器官對於水的在各個方向的微分透性的張量可以用來產生大腦的掃描圖。工程上最重要的例子可能就是應力張量和應變張量了,它們都是二階張量,對於一般線性材料他們之間的關係由一個四階彈性張量來決定。
來源: 維基百科

機器之心是國內領先的前沿科技媒體和產業服務平臺,關注人工智慧、機器人和神經認知科學,堅持為從業者提供高質量內容和多項產業服務。