1. 程式人生 > >2019校招面試必備,15個CNN關鍵回答集錦【必收藏】

2019校招面試必備,15個CNN關鍵回答集錦【必收藏】

關於利用卷積神經網路作為視覺系統的模型是否有生物學理論支援,目前仍然存在許多質疑之聲。本文作者通過多年在計算神經領域的經驗,以問答的形式詳細闡述了CNN與神經科學的種種關聯。

作者 | Grace Lindsay

編譯 | 專知

參與 | Mandy, Yingying, Xiaowen

新增微信:MLAPython

(姓名-單位-方向)

即可加入機器學習交流群

Deep Convolutional Neural Networks as Models of the Visual System: Q&A

就像我最近寫的部落格一樣,我之所以會寫這篇文章,是因為最近在twitter上的一個討論【1】,特別是關於如何將深度卷積神經網路(CNN)的元件與大腦關聯起來。然而,這裡的大多數想法都是我一直在思考並談論的東西。作為一個使用CNNs作為視覺系統模型的人,我經常(在研究會談和其他對話中)必須為這個選擇列出動機和支援。這在一定程度上是因為它們(在某些方面)是神經科學的新事物,同時也是因為人們對它們持懷疑的態度。在神經科學中,計算模型通常會出現鬆弛,這在很大程度上(但不完全)來自於那些不使用(或不構建)它們的人;計算模型經常被描繪成太不切實際或不實用。在這種氛圍中,你會對深度學習/人工智慧的過度炒作(以及它所獲得的金錢利益)產生一種普遍的厭惡感,你會得到一個一些人非常討厭的模型。

所以我在這裡要做的是使用簡單的問答(Q&A)的形式來儘可能合理和準確地解釋使用卷積神經網路(CNNs)來建模生物視覺的圖片。這個子領域還處於發展階段,所以沒有太多的確鑿事實,但是我儘可能地列舉一些東西。此外,這些顯然是我個人對這些問題的回答(以及我的一些疑問),所以請酌情考慮它的價值。

我選擇將CNNs作為視覺系統的模型,而不是更大的問題“深度學習能幫助我們理解大腦嗎?”——因為我相信這是比較合理和卓有成效的領域(同時這也是我所從事的領域)。但是,沒有理由證明這個一般的程式(指通過生物學和相關資料的訓練來說明一個架構)不能用來幫助理解和複製其他的大腦區域和功能。當然,關於這個更大的問題可以在相關文章中找到【2,3】。

1. 什麼是卷積神經網路(CNNs)?

卷積神經網路是一類人工神經網路。因此,它們由稱為神經元的單元組成,它們接受輸入的加權總和並由一個啟用層輸出。啟用層輸入的始終是非線性函式,通常會使用“ReLu”作為啟用函式,保留所有正數的輸入,而對於所有非正數輸入則變為0。

CNNs的特殊之處在於神經元之間的連線方式。在前饋神經網路中,單元被組織成層,而給定層的單元只能從下面層的單元中得到輸入(即不會出現來自同一層的其他單元的輸入)。CNN是前饋網路。然而,與標準的vanilla前饋網路不同,CNN的單位有空間佈局。在每一層,單元被組織成二維網格,稱為feature maps(特徵圖)。每個特徵對映都是在下面的層上執行一個卷積(convolution)的結果。這意味著在下面的層中的每個位置應用相同的卷積過濾器 (一組權重)。因此,在二維網格上的特定位置上的單元只能接收下面一層中相同位置的單元輸入。此外,附加到輸入的權重對於特徵對映中的每個單元是相同的(並且不同的特徵對映不同)。

在卷積(和非線性)之後,通常會做一些其他的計算。一種可能的計算方法(雖然在現代高效能的CNNs中不再流行)是交叉特徵歸一化(cross-feature normalization)。在這裡,在某一個feature map中的某個特定空間位置的啟用值,被其他feature map中相同位置的啟用值除。一個更常見的操作是池化(pooling)。在這裡,每個二維特徵圖網格的一個小空間區域的最大活動被用來表示該區域,這縮小了特徵對映的大小。這組操作(convolution+nonlin[—->normalization]—>pooling)被統稱為一個“層(layer)”。網路的體系結構是由層的數量和與之相關的各種引數的選擇(例如,卷積濾波器的大小等)來定義的。

640?wx_fmt=png

大多數現代的CNNs都有多個層(至少5個),最後進入一個全連線層(a fully-connected layer)。全連線層就像是標準的前饋網路,因為它們沒有空間佈局或連線受限制。經常使用2-3個全連線層,網路的最後一層執行分類操作。例如,如果網路正在執行一個10個物件分類,那麼最後一層將有10個單元並且進行一個softmax操作以產生與每個類別相關的概率。

這些網路主要通過監督式學習和反向傳播進行訓練。在這裡,影象對和它們相關的類別標籤被輸入進網路。影象畫素值輸入到網路的第一層,網路的最後一層產生預測類別。如果這個預測類別與實際類別不匹配,則通過計算梯度來確定權重(即卷積濾波器中的值)是否應該改變以使得分類正確。這樣不斷進行,做很多次(大多數情況下,這些網路都是在ImageNet資料庫上訓練的,它包含了1000個物件類別的100多萬張圖片),這些模型可以在測試影象上有很高的精確度。CNNs的變體現在可以達到4.94%的錯誤率【4】(或更低),好於人類的表現。許多訓練“技巧”通常都是為了讓這一工作順利進行,比如學習率的選擇和權重正則化(主要是通過dropout,在每個訓練階段,隨機的一半的權重會被關閉)。

歷史上,無監督預訓練用於初始化權重,然後通過監督學習進行優化。但是,這對於已經具備良好效能的模型不再是必需的。

對於深入的神經科學家友好的CNNs的介紹, 請查閱論文: Deep Neural Networks: A New Framework for Modeling BiologicalVision and Brain Information Processing (2015)【5】

2.CNN是否是受視覺系統的啟發?

是的。首先,作為整體的人工神經網路受到20世紀中期正在興起的神經元新興生物學的啟發(正如其名稱所示)。人造神經元被設計【6】用來模模擬正神經元的一些基本特徵,比如它們是如何接收和轉換資訊的。

其次,卷積網路的主要特徵和所做的計算直接受到視覺系統的一些早期發現的啟發。 1962年,Hubel和Wiesel發現,初級視覺皮層中的神經元對視覺環境中特定的簡單特徵(特別是定向邊緣)有反應。此外,他們注意到兩種不同型別的細胞【7】:簡單的細胞(它們只在非常特定的空間位置對它們的優選取方向作出最強烈的反應)和複雜的細胞(它們的反應具有更多的空間不變性)。他們得出結論:複雜的細胞通過彙集來自多個簡單細胞的輸入來實現這種不變性,每個簡單細胞具有不同的首選位置。這兩個特徵(對特定特徵的選擇性和通過前饋連線增加空間不變性)構成了像CNNs這樣的人工視覺系統的基礎。

這一發現可以直接追溯到CNN的發展,通過一個稱為Neocognitron的模型【8】(如下圖)。這個模型由Kunihiko Fukushima在1980年開發,綜合了目前關於生物視覺的知識,試圖構建一個功能性的人造視覺系統。neocognitron由“S-cells”和“C-cells”組成,並通過無監督學習來學習識別簡單影象。最初開發CNNs的人工智慧研究員Yann LeCun明確表示【9】,他們是基於neocognitron展開研究的。

640?wx_fmt=png

3.CNN從什麼時候開始廣受歡迎 ?

縱觀計算機視覺的歷史,許多工作都集中在手動設計影象中要檢測的特徵上,這些特徵的選擇是基於對資訊最有價值的信念。在基於這些手工特性進行過濾之後,學習只在最後階段完成,以便將這些特性對映到物件類。CNNs通過監督學習進行端到端的訓練,因此提供了一種自動生成特徵的方式,這種方法最適合於該任務。

第一個主要的例子是1989年,當LeCun et al.訓練了一個小型CNN【10】,使用backprop進行手寫數字識別。在1999年,隨著MNIST資料集的引入,CNN的能力得到進一步發展和證明。儘管取得了這些成功,但由於訓練過程被認為是困難的,並且非神經網路方法(如支援向量機support vector machines)變得風靡,使得這些方法逐漸從研究界消失。

下一個重大事件發生在2012年,當時CNN通過監督方法進行充分地訓練,贏得了一年一度的ImageNet競賽。那個時候,1000類物件分類的錯誤率為25%,但AlexNet【11】實現了16%的錯誤,這是一個巨大的改進。 ImageNet競賽先前的贏家依賴於較老的技術,如淺層網路和支援向量機(SVMs)。隨著CNNs的發展,使用了一些新技術,例如使用ReLu(代替sigmoid或雙曲正切非線性函式),將網路分配給兩個GPU,以及使用dropout正則化。早在2006年就可以看到神經網路的復甦,但是當時這些網路大多使用無監督的預訓練(pre-training)。這個2012年的進展無疑是現代深度學習爆炸的一個重要時刻。

參考資料:DeepConvolutional Neural Networks for Image Classification: A Comprehensive Review(2017)【12】

4. CNNs和視覺系統相關聯是什麼時候開始的 ?

現如今的神經科學中關於神經網路的許多研究都來自於在2014年發表的一些研究。這些研究明確地比較了當不同的系統顯示相同影象時,人類和獼猴的神經元活動與在CNNs中所記錄的人工神經元的活動。

第一個是Yamins et al. (2014)【13】。這項研究探索了許多不同的CNN架構,以確定是什麼導致了預測猴子IT細胞反應的良好表現。對於一個給定的網路,資料的一個子集用於訓練線性迴歸模型,該模型將人工網路中的活動對映到單個IT細胞活動。對資料的預測能力被用來評估模型。

還使用了第二種方法,表徵相似性分析【14】(representational similarityanalysis)。這種方法不涉及對神經活動的直接預測,而是問兩個系統是否以同樣的方式表示資訊。這是通過為每個系統構建一個矩陣來完成的,矩陣中的值表示對兩個不同輸入的響應的相似程度。如果這些矩陣在不同的系統中看起來相同,那麼它們表示的資訊也是相似的。如下圖所示:

640?wx_fmt=png

通過這兩種方法,在物件識別,CNNs的優化優於其他模型。此外,第三層的網路更好地預測了V4細胞的活動,而第四層(和最終的)層更好地預測了IT細胞。這表明了模型層和大腦區域之間的一種對應關係。

另一個發現是,在物件識別上表現更好的網路在捕獲IT細胞活動方面表現更好,而無需直接對IT資料進行優化。這一趨勢在更大和更好的網路中大體上也是成立的【15】,達到了一定的限度(見Q11)。

另一篇論文,Khaligh-Razavi and Kriegeskorte(2014)【16】,也使用了表徵相似性分析,將37種不同的模型與人類和猴子IT細胞進行比較。他們也發現在物件識別方面表現好的模型會更好地匹配IT表示。此外,通過監督式學習(“AlexNet”)訓練的深度CNN是表現最好和最佳的匹配,網路中後面的層表現比以前更好(如下圖所示)。

640?wx_fmt=png

5. 神經科學家之前是否使用過任何類似CNNs的東西 ?

是的!第二個問題中提到的neocognitron模型靈感來自於Hubel和Wiesel的發現, 並進而啟發了現代cnn, 但它也催生了視覺神經科學研究的一個分支, 這其中最突出的可能是TomasoPoggio【17】, Thomas Serre【18】, Maximilian Riesenhuber【19】以及 Jim DiCarlo【20】的實驗室。Models basedon stacks of convolutions and max-pooling【21】被用來解釋視覺系統的各種特性。這些模型傾向於使用與當前的CNN不同的非線性特性和無監督的特徵訓練(當時機器學習中也很流行),並且它們沒有達到現代CNN的規模。

視覺神經學家和計算機視覺研究人員所走的道路,隨著他們追求各自獨立又相互關聯的目標,有了不同的融合和分化。但總的來說,CNN可以被視為視覺神經科學家所設定的建模軌跡的延續。深度學習領域的貢獻與計算能力和訓練方法(以及資料)有關,這些方法使得這些模型最終能夠發揮作用。

6. 我們有什麼證據可以表明CNNs“像大腦一樣工作(work like thebrain)”?

卷積神經網路有三個主要特徵,可以支援它們作為生物視覺模型:(1)它們可以在接近人類水平的層面上執行視覺任務,(2)他們通過一個體繫結構來複制已知的關於視覺系統的基本特徵,(3)它們產生的活動直接關係到視覺系統中不同區域的活動。  

640?wx_fmt=png

圖:視覺層次結構的特徵

首先,根據其本質和體系結構,它們具有視覺層次結構的兩個重要組成部分。第一,隨著我們在從V1到IT的進步中,隨著我們在網路層面的進展,個體單元(units)的接受欄位規模不斷增長。第二,當我們在各個層上進行調整時,神經元會對越來越複雜的影象特徵做出反應,就像從V1的簡單線條到IT的物件部分一樣。這種功能複雜性的增加可以直接通過CNN中可用的視覺化技術【22】來看到。

更深入研究(3),在2014年原始工作(Q4)之後的許多研究進一步確立了CNN中的活動與視覺系統之間的關係。這些都表現出相同的一般性發現:人造網路的活動可能與視覺系統的活動有關,當兩者顯示相同的影象時。此外,網路中後面的層對應於腹側視覺流的後期區域(或者當響應諸如MEG的方法時後續的時間點)。  

640?wx_fmt=png

圖:網路在不同層次上學習的特性的視覺化

許多不同的方法和資料集被用來製造這些點,我們可以在如下的研究中看到: Seibertet al. (2016),Cadenaet al. (2017),Cichyet al. (2016), Wen et al. (2018),Eickenberget al. (2017), Güçlüand van Gerven (2015), and Seeliger et al. (2017).

這些研究的重點一般是對簡要呈現的各種物件類別的自然影象的初步神經反應。因此,這些CNNs捕獲了被稱為“核心物件識別”【23】的東西,或者“即使是在保護身份的轉換(位置、大小、視點和視覺環境)的情況下,也能快速區分給定的可視物件。”

由視覺系統產生的一系列神經表示可以被CNNs複製,這表明他們正在進行相同的“untangling”【24】過程。也就是說,兩個系統都接受不同物件類別的表示,它們在影象/視網膜層次上是不可分割的,並且建立了允許線性可分性的表示。 

640?wx_fmt=png

圖:不同CNN層和腦區域的表示之間的相關性,from Cichy et al.

除了比較活動之外,我們還可以深入研究(1),即網路的效能。將這些網路與人類和動物的行為進行詳細的比較,可以進一步驗證它們作為模型的用途,並確定仍需要進展的領域。這類工作的發現表明,這些網路能夠比先前模型在多個領域更好地捕捉人類分類行為的模式(甚至可以預測/操縱它),但在某些細節方面卻存在不足,例如效能如何隨著噪聲而下降,或者當影象的變化很小時會如何。

這類行為效應在如下的論文中已經被研究了:Rajalinghamet al. (2018), Kheradpisheshet al. (2015), Elsayed etal. (2018), Jozwiket al. (2017),  Kubilius et al. (2016), Dodge and Karam (2017), Berardino etal. (2017), and Geirhos et al. (2017).

是否所有這些都符合一個良好的人腦模型的規範,最好的方法都是通過觀察視覺系統中人們對視覺系統模型的看法: “理解大腦對物體識別的解決方案需要我們構建人工識別系統,最終旨在模擬我們自己的視覺能力,通常是通過生物靈感(例如[2-6])。

這樣的計算方法非常重要,因為它們可以提供實驗性的可測試假設,並且由於工作識別系統的例項化是理解物件識別成功的特別有效的度量。“– Pintoet al., 2007

從這個角度來看, 很明顯, CNNs並不代表視覺科學中目標的移動, 而是更多地涉及到它。

7. 其他模型能否更好地預測視覺領域的活動?

一般來說,沒有。一些研究直接比較了CNNs和以前的視覺系統模型(如HMAX【25】)捕捉神經活動的能力。CNN排在第一位。這些研究包括:Yamins et al. (2014), Cichy et al. (2017), and Cadieu et al. (2014).

8.CNNs是關於視覺系統的機械性模型還是描述性模型?

機械模型的一個合理定義是模型的內部部分可以對映到感興趣系統的內部部分。另一方面,描述性模型只與它們的總體輸入-輸出關係相匹配。因此,視覺系統的描述性模型可以是一個可以接受影象並輸出與人類標籤相對應的物件標籤的方法,但是這樣做的方式與大腦沒有明顯的關係。然而,如上所述,CNN的層可以被對映到大腦的區域。因此,CNNs是由腹側系統所進行的表徵轉換的機械模型,因為它能夠識別物體。

對於CNN來說,作為一個整體,機械模型並不要求我們接受所有的子元件都是機械的。以此為例,在傳統的腦電路模型中使用基於速率的神經元。基於速率的神經模型只是一個將輸入強度對映到輸出firing rate的函式。因此,這些是神經元的描述性模型:模型的內部元件與導致firing rate的神經過程相關(詳細的生物物理模型,例如Hodgkin-Huxley神經元是機械的)。然而,我們仍然可以使用基於速率的神經元來構建電路的機械模型(我喜歡的一個例子【26】)。所有的機械模型都依賴於描述性模型作為其基本單位(否則我們都需要去通過量子力學來構建模型)。

那麼CNN的組成部分(即由卷積,非線性,可能歸一化和池化組成的層)是大腦區域的機械性模型還是描述性模型呢?這個問題更難回答。雖然這些層由人造神經元組成,而這些人造神經元似乎可以被對映到(一組)真實的神經元,但是許多計算的實現不是生物學的。例如,正則化(在使用它的網路中)是用高度引數化的分裂方程實現的。我們相信這些計算可以用現實的神經機制來實現(參見上面引用的示例網路),但這些並不是目前在這些模型中使用的(儘管我和其他人正在研究它...參見Q12)。

9. 我們應該如何解釋CNN中的不同部分與大腦的關係?

神經學家過去在細胞層面上處理事情,像CNNs這樣的模型他們可能會覺得抽象,超出了實用性的意義(認知科學家已經從事抽象多區域建模一段時間,所以他們可能更熟悉)。

640?wx_fmt=png

 圖:將CNN與大腦區域和處理相關聯

但是,即使沒有精確的生物學細節,我們仍然可以將CNN的元件對映到視覺系統的元件。首先,CNN的輸入通常是3-D (RGB)畫素值,它們在某種程度上被歸一化,大致對應於由視網膜和外側膝狀核的計算。卷積的過程建立了具有空間佈局的特徵對映,就像視覺區域中的視網膜結構,這意味著每個人造神經元都有一個空間受限的接受域。與每個特徵對映關聯的卷積濾波器決定了該特徵對映中的神經元的特徵調整。單個的人工神經元並不意味著直接對映到單個的真實神經元;把單個單位看成是皮質柱(cortical columns)可能更合理。

CNN的哪些層對應於哪些腦區域呢?早期的工作使用的模型只包含少量的層,這為單層到大腦區域對映提供了支援。例如,在Yamins et al. (2014)中,最終的卷積層能夠最好地預測IT細胞活動,其次是V4細胞的活動。然而,確切的關係將取決於所使用的模型(更深層的模型允許每個大腦區域有更多的層)。

卷積網路末端的全連線層具有更復雜的解釋。它們與通過分類器之後的最終輸出之間的密切關係以及它們不再具有視網膜視覺的事實使他們像前額皮質(prefrontal cortex-like)一樣。但是他們在預測IT細胞活動時也可能會表現良好。

10.什麼是視覺系統有的但CNN沒有的?

有很多。尖刺,掃視,區分興奮和抑制細胞,反饋連線,前饋連線,振盪,樹突,皮質層,神經調質,不同的視覺細胞,適應性,也許是你最感興趣的大腦細節。

當然,這些是目前標準的CNN沒有的。但是其中很多已經被納入了更新的CNN模型,例如:反饋連線,橫向連線等【27-32】。

顯然,CNN不是靈長類視覺的直接複製品。但我們知道,這並不代表CNN是不合格的。沒有模型會(或應該是)某個系統的完整複製品。我們的目標是捕捉必要的特徵來解釋我們想知道的關於視覺的內容。不同的研究人員會想知道關於視覺系統的不同方面,因此缺少某個特定特徵對不同人的意義都不一樣。例如,為了預測IT神經元在第一100ms影象呈現中的平均響應,需要哪些特徵?這是一個經驗問題。我們不能先說需要所有的生物特徵,或者模型沒有它是不好的。

我們可以說沒有細節的模型比如E-I 比具有細節的模型更抽象。但抽象並沒有錯。這僅僅意味著我們願意將問題分解成一個層次結構並獨立處理它們。有一天,我們應該能夠拼湊出不同層次的解釋,並且有一個模式可以在大而精的範圍內複製大腦。

11.CNN做了什麼視覺系統沒做的事?

對我而言,這是更相關的問題。使用某種非生物魔法來解決棘手問題的模型比那些缺乏某些生物特徵的模型更成問題。

第一個問題:卷積權重可以為正或為負。這意味著前饋連線有興奮性的,也有抑制性的(而在大腦區域之間的連線大部分是興奮性的)。我們可以簡單地用權重表示它對網路的影響,這實際上可以通過與抑制性細胞的前饋興奮性連線來執行,但這不是問題最大的地方。

接下來:權重是共享的。這意味著在同一特徵圖中,所有位置都是由同一權重通過不同的輸入得到的。雖然在V1的視網膜檢視中表現出類似於方向調諧的情況,但我們並不認為在視覺空間的不同神經元具有相同的權重。在視覺系統中,並沒有一個機制可以確保所有的權重得到協調和共享。因此,當前使用權重共享來幫助訓練這些網路應該能夠被更具有生物學意義的方式所取代。

第三:最大池化是怎麼回事?在神經科學術語中,最大池化操作類似於神經元的放電率等於其最高放電輸入的放電率。由於這一點需要許多神經元的資訊,很難設計一個可以直接做到這一點的神經元。但池化操作的靈感來自複雜細胞的發現,一開始使用的是平均池化,這是神經元可以輕易實現的。然而,最大池化【33】在物體識別效能和擬合生物資料方面已經被證明是更成功的【34】,並且現在被廣泛使用。

機器學習研究人員對CNN的進一步改進使它與視覺系統越來越不一樣(因為機器學習研究人員的目標僅僅是模型的表現)。一些表現最好的CNN現在具有許多從生物學角度看起來很奇怪的特徵。此外,這些較新模型(50層)的深度使得它們的活動與視覺系統的關係更小【35】。

當然,這些網路是如何訓練的(通過反向傳播)的問題。這將在問題13中解決。

12.CNN能變得更像大腦嗎?

我成為一個計算神經科學家的主要原因之一是因為,我們可以做我們想做的任何事情。所以,是的!受生物特徵的啟發,我們可以讓標準的CNN具有更多的功能。讓我們看看到目前為止已經做了些什麼:

如上面在Q10中所提到的,許多元素已被新增到CNN的不同變體中,這使得它們更接近一個真實的視覺系統。此外,為了增加學習過程的合理性已經做了工作(見Q13)。

除了這些努力之外,一些更具體的複製生物細節的工作包括:

Spoerer et al.(2017),受生物學啟發,展示瞭如何增加橫向和反饋連線,使模型更好地識別閉塞和嘈雜的物體。

640?wx_fmt=png

Costa et al.(2017)實施了使用生物激勵元件的長短期記憶網路。當人工神經網路中加入遞迴時,經常使用LSTM,因此確定它們的功能如何在生物學上實現是非常有用的。

13.CNN使用反向傳播來學習他們的權重的意義?

反向傳播涉及網路中任何位置的權重應該如何改變來減少最終的誤差。這意味著,第一層的神經元會有一些資訊,說明在頂層發生了什麼問題。。然而,真正的神經元傾向於依賴於區域性學習規則,權重的變化主要由與之相關的神經元決定,但不會受太遠的神經元的影響。因此,反向傳播並沒有真正反映生物學的現象。

這並不需要影響我們把訓練好的CNN模型作為視覺系統的解釋。計算模型中的引數通常使用的技術並不打算與大腦學習方式有任何相似之處(例如貝葉斯推理以獲得功能連通性)。然而,這並不會使得出的電路模型無法解釋。那麼,在極端的情況下,我們可以將反向傳播看作僅僅是引數擬合工具。事實上,Yamins et al (2014)確實使用了不同的引數擬合技術(而不是反向傳播)。

然而,採取這種觀點確實意味著該模型的某些方面不適合解釋。例如,我們不希望學習曲線(即模型學習時誤差如何變化)與人類或動物學習時產生的錯誤相關。

640?wx_fmt=png

儘管當前使用反向傳播在生物學上並不合理,但它可以被解釋為大腦實際正在做的事情的抽象版本。研究者們正在進行各種努力,實現學習過程的生物合理性。這將對學習過程以更好地進行生物學解釋。使用更合理的生物學習程式是否會導致與資料更匹配的神經活動是尚未解答的經驗問題。

另一方面,無監督學習是大腦最有可能的機制,因為它不需要關於標籤的明確反饋,而是利用自然環境來生成表示。到目前為止,無監督學習還沒有達到監督學習的效能。但是,無監督學習方法的進步可能催生更好的視覺系統模型。

14.我們如何用CNN學習視覺系統?

孤立地從CNN中學不到任何東西。所有的見解和發展都需要通過在實驗資料基礎上進行驗證。也就是說,CNN有三種方式可以幫助我們理解視覺系統。

首先是驗證我們的直覺。費曼的解釋是“我們不明白我們無法建立的東西。”對於所有收集的資料和有關視覺系統的理論,為什麼神經科學家不能製作一個功能正常的視覺系統呢?這應該是令人震驚的,因為它意味著我們錯過了一些至關重要的東西。現在我們可以說我們對視覺系統的直覺大致是正確的,我們只是缺少計算能力和訓練資料。

其次是考慮到理想化的實驗測試場地。這是科學中機械模型的常見用法。我們使用現有的資料來建立一個模型。然後我們對模型進行各種各樣的調節,來實現我們真正需要的功能。這可以作為未來實驗的假設生成和/或解釋以前未用於構建模型的資料的方法。

第三種方法是通過數學分析。與計算建模一樣,將我們關於視覺系統如何工作的信念納入具體的數學術語。雖然對模型進行分析通常需要進一步簡化,但它仍然可以提供有關模型行為的一般趨勢和侷限性的有用見解。一些機器學習研究人員也對用數學解剖這些模型感興趣。

15.我們用CNN建模視覺系統學到了什麼?

首先,我們驗證了我們的直覺,表明CNN實際上可以建立一個有效的視覺系統。此外,這種方法幫助我們定義了計算和演算法級別的視覺系統。訓練捕捉神經和行為資料的能力是視覺系統進行物體識別的核心。卷積和和池化是實現它的演算法的一部分。

我相信,這些網路的成功也有助於改變我們隊視覺神經科學研究的認知。許多視覺神經科學一直研究以個體細胞為主。而對視覺系統進行抽象建模之後,並沒有對某一個特定神經元進行限制,而是將重點放在群體編碼上。試圖理解單個神經元有可能會產生相同的結果,但用上更多的神經元的方法似乎更有效。

此外,將視覺系統視為整個系統而不是孤立的區域,可以幫助我們更好地理解視覺系統。已經有大量的工作研究V4,例如試圖用文字或簡單的數學來描述導致該區域的細胞作出反應的原因。當V4被視為物體識別路徑上的中間一部分時,它就不應該孤立地被描述和解釋。從這個評論:“對一個單元的解釋,例如,作為一個眼睛或面部檢測器,可能有助於我們直觀的理解和捕捉重要的東西。然而,這樣的解釋可能誇大了分類和本地化的程度,並且低估了這些表述的統計和分佈性質。“事實上,對訓練過的網路的分析表明,單個單位的可解釋的調整與好的表現並不相關,而歷史上很多人被誤導了。

探索不同的架構會有更多的具體進展。通過檢視捕獲哪些元素的神經和行為響應需要哪些細節,我們可以在結構和功能之間建立直接聯絡。在這項研究中,加入網路的橫向連線更有助於解釋背側流響應的時間過程,而不是腹側流的時間過程。其他研究表明,反饋連線對於捕獲腹側流動力學非常重要。神經反應的某些組成部分可以在具有隨機權重的模型中被捕獲,這表明單獨的分層體系結構可以解釋它們。而其他元件則需要對自然和有效的影象類別進行訓練。

此外,觀察某些效能良好的CNN(參見Q11)不能準確預測神經活動,因為它表明並非所有做視覺的模型都是對大腦的好的建模。這證實了我們所看到的架構可以很好地預測神經活動(腦區和層之間的對應關係),因為它們確實捕獲了大腦所做的轉換。

因為CNN提供了“計算影象”的方法來生成真實的神經元反應,它們也可以關聯較少的訊號與視覺處理。

使用CNN作為視覺系統的模型,作者的工作【36】集中在證明特徵相似性增益模型(描述注意力機制對神經元的影響)可以解釋注意力的有益表現效應。

最後,一些研究記錄了CNNs未捕捉到的神經或行為元素(見Q6)。這些有助於確定需要進一步實驗和計算探索的領域。

總而言之,我會說不是一個不錯的數字,因為從2014年左右開始,這其中的大部分事情才真正開始。

  1. https://twitter.com/dlevenstein/status/994716148578037760

  2. https://neuroecology.wordpress.com/2018/05/12/what-hasnt-deep-learning-replicated-from-the-brain/

  3. https://www.frontiersin.org/articles/10.3389/fncom.2016.00094/full

  4. https://arxiv.org/abs/1502.01852

  5. https://www.annualreviews.org/doi/10.1146/annurev-vision-082114-035447

  6. http://www.cse.chalmers.se/~coquand/AUTOMATA/mcp.pdf

  7. http://fourier.eng.hmc.edu/e180/lectures/v1/node7.html

  8. https://www.rctn.org/bruno/public/papers/Fukushima1980.pdf

  9. https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf

  10. https://ieeexplore.ieee.org/document/6795724/

  11. https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

  12. https://www.mitpressjournals.org/doi/abs/10.1162/neco_a_00990

  13. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4060707/

  14. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2605405/

  15. https://arxiv.org/pdf/1609.03529.pdf

  16. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4222664/

  17. http://cbcl.mit.edu/people/poggio/poggio-new.htm

  18. http://serre-lab.clps.brown.edu/

  19. http://maxlab.neuro.georgetown.edu/index.html

  20. http://dicarlolab.mit.edu/

  21. http://www.pnas.org/content/104/15/6424.long

  22. https://distill.pub/2017/feature-visualization/

  23. https://www.cell.com/neuron/fulltext/S0896-6273(12)00092-X

  24. http://dicarlolab.mit.edu/sites/dicarlolab.mit.edu/files/pubs/dicarlo%20and%20cox%202007.pdf

  25. http://maxlab.neuro.georgetown.edu/hmax.html

  26. https://www.ncbi.nlm.nih.gov/pubmed/25611511

  27. https://arxiv.org/pdf/1608.06993.pdf

  28. http://papers.nips.cc/paper/5276-deep-networks-with-internal-selective-attention-through-feedback-connections.pdf

  29. http://proceedings.mlr.press/v37/xuc15.pdf

  30. https://arxiv.org/pdf/1804.08150.pdf

  31. https://www.cv-foundation.org/openaccess/content_cvpr_2015/app/2B_004.pdf

  32. http://vislab.isr.ist.utl.pt/wp-content/uploads/2017/11/aalmeida-robot2017.pdf

  33. http://yann.lecun.com/exdb/publis/pdf/boureau-icml-10.pdf

  34. https://www.cell.com/neuron/fulltext/S0896-6273(11)00876-2

  35. https://www2.securecms.com/CCNeuro/docs-0/5928796768ed3f664d8a2560.pdf

  36. https://www.biorxiv.org/content/biorxiv/early/2017/12/20/233338.full.pdf

原文連結:

https://neurdiness.wordpress.com/2018/05/17/deep-convolutional-neural-networks-as-models-of-the-visual-system-qa/

640?wx_fmt=png