1. 程式人生 > >卷積在深度學習中的作用(轉自http://timdettmers.com/2015/03/26/convolution-deep-learning/)

卷積在深度學習中的作用(轉自http://timdettmers.com/2015/03/26/convolution-deep-learning/)

範圍 SM 全連接 判斷 contact con 發展 .dsp length

卷積可能是現在深入學習中最重要的概念。卷積網絡和卷積網絡將深度學習推向了幾乎所有機器學習任務的最前沿。但是,卷積如此強大呢?它是如何工作的?在這篇博客文章中,我將解釋卷積並將其與其他概念聯系起來,以幫助您徹底理解卷積。

已經有一些關於深度學習卷積的博客文章,但我發現他們都對不必要的數學細節高度混淆,這些細節沒有以任何有意義的方式進一步理解。這篇博客文章也會有很多數學細節,但我會從概念的角度來看待他們,在這裏我用每個人都應該能夠理解的圖像表示底層數學。這篇博文的第一部分是針對任何想要了解深度學習中卷積和卷積網絡的一般概念的人。本博文的第二部分包含高級概念,旨在進一步提高深度學習研究人員和專家對卷積的理解。

什麽是卷積?

這整篇博文都將回答這個問題,但是首先了解這個問題的方向可能會非常有用,那麽什麽是粗略的卷積?

您可以將卷積想象為信息的混合。想象一下,有兩個桶裝滿了信息,這些信息被倒入一個桶中,然後按照特定的規則混合。每桶信息都有自己的配方,用於描述一個桶中的信息如何與另一個桶混合。因此,卷積是一個有序的過程,兩個信息來源交織在一起。

卷積也可以用數學來描述,事實上,它是一種數學運算,如加法,乘法或導數,雖然這種操作本身很復雜,但它可以用來簡化更復雜的方程。卷積在物理學和工程學中用於簡化這種復雜的方程,第二部分 - 經過簡短的卷積數學發展 - 我們將把這些科學領域和深度學習之間的想法聯系起來並整合起來,以更深入地理解卷積。

但現在我們將從實際的角度來看卷積。

我們如何對圖像應用卷積?

當我們對圖像應用卷積時,我們將其應用於兩個維度 - 即圖像的寬度和高度。我們混合兩個信息桶:第一個桶是輸入圖像,它總共有三個像素矩陣 - 每個矩陣用於紅色,藍色和綠色通道; 一個像素由每個顏色通道中0到255之間的整數值組成。第二個桶是卷積核,一個浮點數的單個矩陣,其中模式和數字的大小可以被認為是如何在卷積操作中將輸入圖像與內核交織在一起的配方。內核的輸出是經過改變的圖像,在深度學習中經常被稱為特征圖。每個顏色通道都會有一個功能圖。

技術分享圖片

圖像與邊緣檢測器卷積核的卷積。來源:1 2

我們現在通過卷積執行這兩個信息的實際交織。應用卷積的一種方法是從內核大小的輸入圖像中獲取圖像補丁 - 這裏我們有一個100×100圖像和一個3×3內核,所以我們需要3×3補丁 - 然後執行與圖像補丁和卷積核的元素明智的乘法。

這個乘法的和然後導致 特征映射的一個像素。在計算了特征映射的一個像素之後,圖像塊提取器的中心將一個像素滑動到另一個方向,並且重復該計算。當以這種方式計算了特征映射的所有像素時,計算結束。以下gif中的一個圖像補丁說明了此過程。

技術分享圖片

對結果特征映射的一個像素進行卷積運算:原始圖像(RAM)的一個圖像塊(紅色)與內核相乘,並且其總和被寫入特征映射像素(緩沖區RAM)。GIF格倫·威廉姆森誰運行一個網站,具有許多技術GIF格式。

正如你所看到的,還有一個規範化過程,其中輸出值通過內核的大小(9)進行歸一化; 這是為了確保圖片和特征地圖的總強度保持不變。

為什麽圖像的卷積有用於機器學習?

圖像中可能存在很多令人分心的信息,這與我們試圖實現的目標無關。一個很好的例子就是我Burda Bootcamp中Jannek Thomas一起完成的一個項目Burda Bootcamp是一個快速原型開發實驗室,學生在黑客馬拉松式的環境中工作,以非常短的時間間隔創造技術上有風險的產品。與我的9位同事一起,我們在2個月內創建了11款產品。在一個項目中,我想用深度自動編碼器建立時尚圖像搜索:您上傳時尚物品的圖像,自動編碼器應找到包含相似風格衣服的圖像。

現在,如果你想區分衣服的風格,衣服的顏色不會那麽有用; 像品牌標誌等微小的細節也不是很重要。最重要的可能是衣服的形狀。通常,襯衫的形狀與襯衫,外套或褲子的形狀非常不同。因此,如果我們可以過濾圖像中不必要的信息,那麽我們的算法不會被顏色和品牌標誌等不必要的細節分散註意力。我們可以通過使用內核來卷積圖像來輕松實現這一點。

我的同事Jannek Thomas對數據進行了預處理,並應用了一個Sobel邊緣檢測器(類似於上面的內核)將除圖像外形外的所有圖像都濾除掉 - 這就是為什麽卷積應用通常稱為濾波,內核通常被稱為過濾器(這個過濾過程的更精確的定義將在下面進行說明)。如果您想要區分不同類型的衣服,由於只保留相關的形狀信息,所以從邊緣檢測器內核生成的特征圖將非常有用。

技術分享圖片

Sobel過濾了訓練過的自動編碼器的輸入和結果:左上角的圖像是搜索查詢,其他圖像是具有自動編碼器代碼的結果,該代碼與通過余弦相似度測量的搜索查詢最相似。你會發現autoencoder真的只是看著搜索查詢的形狀而不是它的顏色。但是,您也可以看到,對於穿著衣服的人(第5列)的圖像以及對衣架形狀(第4列)敏感,此步驟不起作用。

我們可以更進一步:有幾十個不同的內核可以生成許多不同的特征映射,例如使圖像更清晰(更多細節),或模糊圖像(更少的細節),並且每個特征映射可以幫助我們的算法在它的任務上做得更好(細節,比如夾克上的3而不是2個按鈕可能很重要)。

使用這種過程 - 輸入,轉換輸入並將轉換後的輸入提供給算法 - 稱為特征工程。特征工程是非常困難的,只有很少的資源可以幫助你學習這個技巧。因此,很少有人能夠巧妙地將特征工程應用於廣泛的任務。特征工程是 - 手下來 - 在Kaggle比賽中獲得好成績的最重要的技能特征工程是如此的困難,因為對於每種類型的數據和每種類型的問題,不同的特征都做得很好:圖像任務的特征工程知識對於時間序列數據來說是無用的; 即使我們有兩個相似的圖像任務,但設計好的特征並不容易,因為圖像中的對象也決定了什麽會起作用,哪些不會起作用。這需要很多經驗才能完成這一切。

所以特征工程是非常困難的,你必須從頭開始為每個新任務做好。但是當我們看圖像時,是否有可能自動找到最適合於任務的內核?

輸入卷積網

卷積網正是這樣做的。我們沒有在內核中使用固定數字,而是將參數分配給這些內核,這些內核將在數據上進行訓練。當我們訓練我們的卷積網絡時,內核在為給定相關信息過濾給定圖像(或給定特征映射)方面會變得越來越好。這個過程是自動的,被稱為特征學習。特征學習自動地推廣到每個新任務:我們只需要簡單地訓練我們的網絡以找到與新任務相關的新濾波器。這使得卷積網絡如此強大 - 特征工程沒有困難!

通常我們不是在卷積網絡中學習單個內核,而是在同一時間學習多個內核的層次結構。例如,應用於256×256圖像的32x16x16內核將生成32個尺寸為241×241的特征映射(這是標準尺寸,尺寸可能因實現而異;技術分享圖片)。因此,我們自動學習了32個新功能,這些功能為我們的任務提供了相關信息。然後這些功能為下一個內核提供輸入,以便再次過濾輸入。一旦我們學習了分層特征,我們只需將它們傳遞給一個完全連接的簡單神經網絡,將它們結合起來,以便將輸入圖像分類為類。這幾乎是所有關於卷積網絡在概念層面上的知識(池化過程也很重要,但那將是另一篇博客文章)。

第二部分:高級概念

我們現在對卷積是什麽以及卷積網絡發生了什麽以及卷積網絡如此強大的原因有了很好的直覺。但是我們可以深入了解一個卷積操作中真正發生的事情。在這樣做的時候,我們會看到計算卷積的最初解釋是相當麻煩的,我們可以開發更復雜的解釋,這將有助於我們更廣泛地考慮卷積,以便我們可以將它們應用於許多不同的數據。為了更深入地理解,第一步是理解卷積定理。

卷積定理

為了進一步發展卷積的概念,我們利用了卷積定理,該卷積定理將時域/空域中的卷積(其中卷積的特征是難以積分的積分或和)與頻率/傅立葉域中的單純元素乘法相關聯。這個定理非常強大,被廣泛應用於許多科學領域。卷積定理也是原因之一快速傅立葉變換(FFT)算法是由一些人認為的20中最重要的算法之一世紀。

技術分享圖片

第一個方程是兩個一般連續函數的一維連續卷積定理; 第二個方程是離散圖像數據的二維離散卷積定理。這裏技術分享圖片表示卷積運算,技術分享圖片表示傅裏葉變換,技術分享圖片傅裏葉逆變換,並且技術分享圖片是歸一化常數。請註意,這裏的“離散”意味著我們的數據由可計數的變量(像素)組成; 和1D意味著我們的變量可以以一種有意義的方式在一個維度上進行布局,例如時間是一維的(一秒鐘一個接一個),圖像是二維的(像素有行和列),視頻是三維的(像素有行和列,圖像一個接一個地出現)。

為了更好地理解卷積定理中會發生什麽,我們現在來看看關於數字圖像處理的傅裏葉變換的解釋。

快速傅立葉變換

快速傅裏葉變換是一種將數據從空間/時間域轉換為頻率域或傅立葉域的算法。傅裏葉變換用類似波浪的余弦和正弦項來描述原始函數。重要的是要註意,傅立葉變換通常是復數值,這意味著一個真實的值被轉換成一個具有實部和虛部的復數值。通常虛部只對某些操作很重要,並將頻率轉換回空間/時間範圍,在本篇博文中大部分將被忽略。在下面,您可以看到一個可視化如何通過傅立葉變換來轉換信號(通常具有時間參數的信息的函數,通常是周期性的)。

技術分享圖片

時域(紅色)轉換到頻域(藍色)。資源

您可能不知道這一點,但很可能您每天都會看到傅裏葉變換值:如果紅色信號是歌曲,那麽藍色值可能是您的MP3播放器顯示的均衡器條。

圖像的傅裏葉域

技術分享圖片

Fisher&Koryllos的圖像(1998)鮑勃費舍爾還運行一個關於傅立葉變換和一般圖像處理的優秀網站

我們怎樣才能想象圖像的頻率?想象一張紙上面有兩種圖案之一。現在想象一下,波從紙的一個邊緣傳播到另一個波,這個波在每個特定顏色的條紋穿透紙張並且在另一個上方盤旋。這種波以特定的間隔穿透黑色和白色部分,例如每兩個像素 - 這代表了頻率。在傅立葉變換中,較低的頻率靠近中心,較高的頻率位於邊緣(圖像的最大頻率處於邊緣)。具有高強度(圖像中的白色)的傅立葉變換值的位置根據原始圖像中強度最大變化的方向排序。

技術分享圖片

Fisher&Koryllos的圖像(1998)資源

我們立即看到傅裏葉變換包含了很多關於圖像中物體方向的信息。如果一個物體被轉過37度,則很難從原始像素信息中判斷出來,但是傅裏葉變換後的值很清楚。

這是一個重要的見解:由於卷積定理,我們可以想象,卷積網絡對傅立葉域中的圖像起作用,並且從上面的圖像我們現在知道該域中的圖像包含大量關於方向的信息。因此,卷積網絡在旋轉圖像時應該優於傳統算法,事實確實如此(雖然當我們將它們與人類視覺進行比較時,卷積網絡仍然非常糟糕)。

頻率濾波和卷積

卷積運算經常被描述為一個濾波操作,以及為什麽卷積核通常被命名為濾波器的原因將從下一個例子中看出,這個例子非常接近卷積。

技術分享圖片

Fisher&Koryllos的圖像(1998)資源

如果我們用傅立葉變換對原始圖像進行變換,然後將它乘以由傅裏葉域中的零填充的圓圈(零=黑色),我們會過濾掉所有高頻值(它們將被設置為零,因為零填充值)。請註意,濾波後的圖像仍然具有相同的條紋圖案,但其質量現在更糟 - 這是jpeg壓縮的工作原理(盡管使用了不同但相似的變換),我們轉換圖像,僅保留某些頻率並轉換回空間圖像域; 在這個例子中,壓縮比將是黑色區域與圓圈大小的大小。

如果我們現在想象這個圓是一個卷積核,那麽我們就完全有了卷積 - 就像在卷積網中一樣。還有很多技巧可以加速並穩定用傅裏葉變換計算卷積,但這是如何完成的基本原理。

現在我們已經確立了卷積定理和傅裏葉變換的意義,現在我們可以將這種理解應用到科學的不同領域,並增強我們對深度學習中卷積的解釋。

來自流體力學的見解

流體力學關註於為流體如空氣和水的流動(飛機周圍的空氣流動;水在橋的懸掛部分周圍流動)創建微分方程模型。傅裏葉變換不僅簡化了卷積,而且還簡化了差分,這就是為什麽傅裏葉變換廣泛用於流體力學領域或任何具有微分方程的領域。有時,找到流體流動問題的分析解決方案的唯一方法是用傅立葉變換來簡化偏微分方程。在這個過程中,我們有時可以用兩個函數的卷積來重寫這種偏微分方程的解,這樣就可以很容易地解釋解。一維擴散方程就是這種情況,

擴散

通過用外力移動液體(用勺子攪拌),可以混合兩種液體(牛奶和咖啡) - 這就是所謂的對流,通常速度非常快。但是你也可以等待,兩種流體會自己混合(如果它是化學可能的話) - 這就是所謂的擴散,與對流相比通常非常緩慢。

想象一下,水族館由一個薄而可拆卸的屏障分成兩部分,其中水族箱的一側充滿鹹水,另一側充滿淡水。如果您現在仔細地移除薄壁屏障,兩種流體將混合在一起,直到整個水族箱到處都有相同濃度的鹽。這個過程更加“猛烈”,淡水和鹹水之間的鹹味差異越大。

現在想象你有一個方形的水族箱,有256×256的薄壁屏障,分隔256×256立方體,每個立方體含有不同的鹽濃度。如果現在去除屏障,兩個立方體之間幾乎沒有混合,鹽濃度差異很小,但兩個立方體之間的鹽混合濃度非常不同。現在想象一下,256×256網格是一個圖像,立方體是像素,鹽濃度是每個像素的強度。現在我們不用擴散鹽濃度,而是擴散了像素信息。

事實證明,這只是擴散方程解法卷積的一部分:一部分簡單地說就是某個區域某一流體的初始濃度 - 或者圖像方面 - 初始圖像的初始像素強度。為了完成將卷積解釋為擴散過程,我們需要解釋擴散方程的解的第二部分:傳播子。

解釋傳播者

傳播者是概率密度函數,它表示流體粒子在哪個方向隨時間擴散。這裏的問題是我們在深度學習中沒有概率函數,但是卷積核 - 我們如何統一這些概念?

我們可以應用一個歸一化,將卷積核變成概率密度函數。這就像計算分類任務中輸出值的softmax一樣。這裏是上面第一個例子中邊緣檢測器內核的softmax歸一化。

技術分享圖片

邊緣檢測器的Softmax:為計算softmax標準化,我們將內核的每個值[latex background =“ffffff”] {x} [/ latex]並應用[latex background =“ffffff”] {e ^ x} [ /膠乳]。之後,我們除以所有[latex background =“ffffff”] {e ^ x} [/ latex]的總和。請註意,這種計算softmax的技術對於大多數卷積核是很好的,但對於更復雜的數據,計算有點不同以確保數值穩定性(對於非常大和非常小的值,浮點計算固有地不穩定,您必須在這種情況下仔細導航周圍的麻煩)。

現在我們對擴散方面的圖像進行卷積的全面解釋。我們可以將卷積運算想象成一個兩部分擴散過程:首先,像素強度發生變化的強擴散(從黑色到白色,或從黃色到藍色等),其次,區域中的擴散過程受到調節通過卷積核的概率分布。這意味著內核區域中的每個像素根據內核概率密度擴散到內核中的另一個位置。

對於上面的邊緣檢測器,幾乎周圍區域的所有信息都集中在一個空間中(這對流體中的擴散是不自然的,但是這種解釋在數學上是正確的)。例如,所有低於0.0001值的像素將很可能流入中心像素並在那裏累積。在相鄰像素之間的最大差異處最終濃度將是最大的,因為這裏擴散過程是最明顯的。反過來,相鄰像素的最大差異就在那裏,在不同對象之間的邊緣處,所以這解釋了為什麽上面的內核是邊緣檢測器。

所以我們有它:卷積作為信息的擴散。我們可以直接在其他內核上應用這種解釋。有時我們必須應用softmax標準化來解釋,但通常這些數字本身會說明會發生什麽。以下面的內核為例。你現在可以解釋內核在做什麽了嗎?點擊這裏 找到解決方案(有一個鏈接回到這個位置)。

技術分享圖片

等等,這裏有點可疑

如果我們有一個具有概率的卷積核,我們怎麽會有確定性行為?根據傳播者的說法,我們必須根據內核的概率分布來解釋單粒子擴散,不是嗎?

是的,這確實是事實。然而,如果你攝取一小部分液體,比如說一小滴水,那麽在這小小的水滴中仍然有數以百萬計的水分子,而根據傳播者的概率分布,單個分子隨機表現出來,一束分子具有準確的確定性行為 - 這是統計力學的重要解釋,因此也是流體力學中的擴散。我們可以將傳播者的概率解釋為信息或像素強度的平均分布; 因此,從流體力學的觀點來看,我們的解釋是正確的。但是,卷積也有一個有效的隨機解釋。

量子力學的見解

傳播者是量子力學中的一個重要概念。在量子力學中,一個粒子可以處於一個疊加的位置,它有兩個或更多的屬性,這些屬性通常會在我們的經驗世界中排除自己:例如,在量子力學中,一個粒子可以同時在兩個地方 - 這是一個單一的對象兩個地方。

但是,當您測量粒子的狀態時(例如粒子現在在哪裏)時,它會在一個地方或另一個地方。換句話說,通過觀察粒子來破壞疊加態。傳播者然後描述你可以期望粒子的概率分布。因此,在測量之後,根據傳播者的概率分布,粒子可能在A處具有30%的概率並且在B處具有70%的概率。

如果我們有顆粒糾纏(在一定距離的鬼影行為),一些粒子可以同時容納數百乃至數百萬個不同的狀態 - 這是量子計算機承諾的力量。

所以如果我們將這種解釋用於深度學習,我們可以認為圖像中的像素處於疊加狀態,因此在每個圖像塊中,每個像素同時在9個位置(如果我們的內核是3×3 )。一旦我們應用了卷積,我們就進行了一次測量,每個像素的疊加就像卷積核的概率分布所描述的那樣折疊成一個單獨的位置,或者換句話說:對於每個像素,我們隨機選擇9個像素中的一個像素(具有內核的概率)並且所得到的像素是所有這些像素的平均值。為了這種解釋是真實的,這需要是一個真正的隨機過程,這意味著,相同的圖像和相同的內核通常會產生不同的結果。這種解釋並不是一對一地與卷積相關,但它可能會讓你思考如何以隨機方式應用卷積或如何開發卷積網絡的量子算法。量子算法將能夠計算所有可能的組合由內核用一次計算描述,並以線性時間/量子位的方式描述圖像和內核的大小。

來自概率論的見解

卷積與互相關密切相關。互相關是一種操作,它需要一小段信息(一首歌的幾秒鐘)來過濾大量信息(整首歌)的相似性(在YouTube上使用類似的技術來自動為視頻版權侵權標記) 。

技術分享圖片

互相關和卷積之間的關系:這裏[latex背景=“ffffff”] {\ star} [/ latex]表示互相關和[latex background =“ffffff”] {f ^ *} [/ latex]表示復共軛[latex background =“ffffff”] {f} [/ latex]。

雖然交叉相關看起來很笨拙,但我們可以輕松將其與深度學習中的卷積聯系起來:我們可以簡單地將搜索圖像顛倒過來以通過卷積執行互相關。當我們執行人臉圖像與臉部上方圖像的卷積時,結果將是臉部與人物匹配位置處的一個或多個明亮像素的圖像。

技術分享圖片

通過卷積進行互相關:輸入和內核用零填充,內核旋轉180度。白點標記圖像和內核之間最強的像素相關性的區域。請註意,輸出圖像位於空間域中,逆傅立葉變換已應用。圖片來自史蒂文史密斯關於數字信號處理的優秀免費在線書籍

這個例子還說明了用零填充來穩定傅裏葉變換,這在許多版本的傅立葉變換中都是必需的。有一些版本需要不同的填充方案:有些實現會在內核周圍扭轉內核,只需要填充內核,而其他實現則執行分而治之的步驟,並且根本不需要填充。我不會在此擴展; 關於傅立葉變換的文獻是巨大的,並且有許多技巧可以讓它運行得更好 - 特別是對於圖像。

在較低層次上,卷積網絡將不會執行互相關,因為我們知道它們在最初的卷積層中執行邊緣檢測。但是在後面的層次中,更多的抽象特征被生成,卷積網絡有可能通過卷積學習執行互相關。可以想象,來自互相關的明亮像素將被重定向到檢測面部的單位(Google大腦項目在其架構中有一些專用於面部,貓等的單元;也許互相關在這裏起作用?) 。

來自統計的見解

統計模型和機器學習模型有什麽區別?統計模型通常集中在很少的變量上,這些變量很容易解釋。統計模型的建立是為了回答問題:藥物A比藥物B好嗎?

機器學習模型與預測性能有關:藥物A對於年齡為X的人增加17.83%的成功結果,對於年齡為Y的人,藥物B增加22.34%。

機器學習模型通常比統計模型更有效,但它們不可靠。統計模型對於得出準確可靠的結論非常重要:即使藥物A比藥物B好17.83%,我們也不知道這是否是偶然的原因; 我們需要統計模型來確定這一點。

時間序列數據的兩個重要統計模型是加權移動平均數和自回歸模型,它們可以組合成ARIMA模型(自回歸積分移動平均模型)。與長期短期遞歸神經網絡等模型相比,ARIMA模型相當薄弱,但當您的維度數據較低時(1-5維),ARIMA模型非常穩健。雖然他們的解釋通常很費力,但ARIMA模型不像深度學習算法那樣是一個黑盒子,如果您需要非常可靠的模型,這是一個很大的優勢。

事實證明,我們可以將這些模型重寫為卷積,因此我們可以證明深度學習中的卷積可以解釋為產生局部ARIMA特征的函數,然後傳遞到下一層。然而,這個想法並沒有完全重疊,所以我們必須保持謹慎,並且看看我們何時能夠實施這個想法。

技術分享圖片

技術分享圖片是一個以內核為參數的常量函數; 白噪聲是具有平均零的數據,標準偏差為1,並且每個變量相對於其他變量不相關。

當我們對數據進行預處理時,我們通常將其與白噪聲非常相似:我們經常將它置於零點附近,並將方差/標準偏差設置為1。創建不相關變量的用處不大,因為它的計算密集程度很高,但從概念上講,它很簡單:我們沿著數據的特征向量重新定位坐標軸。

技術分享圖片

通過沿著特征向量重定向的解相關:這些數據的特征向量由箭頭表示。如果我們想解相關數據,我們調整軸的方向與特征向量具有相同的方向。這種技術也用於PCA中,其中具有最小方差(最短特征向量)的維度在重定向後被丟棄。

現在,如果我們認為 技術分享圖片是偏見,那麽我們有一個表達式,它與深度學習中的卷積非常相似。因此,如果我們將數據預處理為白噪聲,卷積層的輸出可以被解釋為來自自回歸模型的輸出。

加權移動平均數的解釋很簡單:它只是一些具有一定權重(內核)的數據(輸入)的標準卷積。當我們查看頁面末尾的高斯平滑內核時,這種解釋變得更加清晰。高斯平滑核可以被解釋為每個像素的鄰域中的像素的加權平均值,或者換句話說,像素在其鄰域中被平均(像素“融入”,邊緣被平滑)。

雖然單個內核不能同時創建自回歸和加權移動平均特征,但我們通常擁有多個內核,並且所有這些內核都可能包含一些特征,如加權移動平均模型和一些類似自回歸模型的特征。

結論

在這篇博文中,我們已經看到卷積是什麽以及為什麽它在深度學習中如此強大。圖像補丁的解釋很容易理解並且容易計算,但是它有許多概念上的限制。我們通過傅裏葉變換開發了卷積,並且看到傅立葉變換包含大量關於圖像方向的信息。 隨著強大的卷積定理,我們開發了卷積解釋作為跨像素信息的擴散。然後,我們從量子力學的角度擴展傳播者的概念,以接受通常確定性過程的隨機解釋。我們發現互相關與卷積非常相似,並且卷積網絡的性能可能取決於通過卷積誘導的特征映射之間的相關性。最後,我們完成了卷積與自回歸和移動平均模型的關聯。

就我個人而言,我發現在這篇博客文章中工作非常有趣。我感覺很久以前,我的數學和統計學本科學習以某種方式被浪費了,因為他們太不切實際了(即使我學習應用數學)。但後來 - 像一個新興的財產 - 所有這些思想聯系在一起,實際上有用的理解出現了。我認為這是一個很好的例子,為什麽一個人應該耐心,仔細研究所有的大學課程 - 即使他們起初似乎毫無用處。

技術分享圖片

上述測驗的解決方案:信息在所有像素中擴散幾乎相等; 對於相差較大的相鄰像素,這個過程將更加強大。這意味著銳利的邊緣將被平滑,並且在一個像素中的信息將擴散並與周圍的像素輕微混合。這個核被稱為高斯模糊或高斯平滑。繼續閱讀來源:1 2

圖片來源參考

RB Fisher,K. Koryllos,“互動教材; 在文本中嵌入圖像處理操作員演示“,Int。J.of Pattern Recognition and Artificial Intelligence,Vol 12,No 8,pp 1095-1123,1998。

參考資料:

conv_arithmetic

A guide to convolution arithmetic for deep

卷積在深度學習中的作用(轉自http://timdettmers.com/2015/03/26/convolution-deep-learning/)