1. 程式人生 > >14.On the Decision Boundary of Deep Neural Networks

14.On the Decision Boundary of Deep Neural Networks

關於深度神經網路的決策邊界

摘要

雖然深度學習模型和技術取得了很大的經驗成功,但我們對許多方面成功來源的理解仍然非常有限。為了縮小差距,我們對訓練資料和模型進行了微弱的假設,產生深度學習架構的決策邊界。我們在理論上和經驗上證明,對於二元情形和具有常用交叉熵的多類情況,神經網路的最後權重層收斂於在最後隱藏層的輸出上訓練的線性SVM。此外,我們從經驗上證明,訓練整個神經網路,而不是僅調整最後一個權重層,可以為最後一個權重層產生更好的偏置常數,這對於泛化非常重要。除了促進對深度學習的理解之外,我們的結果還有助於解決深度學習的廣泛實際問題,例如災難性遺忘和對抗性攻擊。

 

引言

近年來,深度學習在各個領域取得了令人矚目的成功[17]。它不僅提高了各種領域最先進方法的效能,如計算機視覺[16]和自然語言處理[8],它還使機器能夠在特定任務中實現人工智慧[25]。儘管經驗上取得了很大的成功,但深度學習有時被批評為被用作黑盒[5],它指的是其經驗方面與理論上對它的理解之間的明顯差距[24]。

正如[24]所建議的,對深度學習的理解應該包括三個方面:1)表徵能力,2)優化特徵,3)泛化效能。在[28]中已經廣泛而嚴格地討論了深度學習的標正能力。就第二個方面而言,即隨機梯度下降(SGD)的收斂性分析和所獲得的極小值的性質,許多最近的研究已經得出了有希望的答案[12,21,7,26,29,20,3,4]。例如,[12]證明了[2]的猜想,將結果擴充套件到深度非線性神經網路,並顯示不存在較差的區域性最小值。[22]也表明,在給定合理假設的情況下,所有區域性最小值都是全域性最優的。[3,4]證明了SGD在輸入分佈假設下的收斂性。

至於泛化問題,研究仍處於初期階段。通過系統實驗,[28]表明雖然明確的正則化,如權重衰減和dropout,可能有所幫助,但SGD的隱式正則化可能是泛化問題的關鍵。遵循該方向,[4]為線性可分資料提供了過引數化網路的泛化保證,這些資料由SGD訓練。[27]表明,對於線性可分資料,非正則化邏輯迴歸問題的梯度下降(GD)導致最大邊際(硬邊界SVM)解。 另一方面,[1,13]試圖通過推導泛化邊界來揭開泛化效能的神祕面紗。

在本文中,我們遵循[28,4,27]的方向,研究GD和SGD的隱式偏差。與之前的研究不同,我們不會過度簡化模型架構。實際上,如圖1所示,該架構是一個高效的架構,如果我們使用DenseNet [11]作為轉換函式,它可以達到CIFAR-10上最先進的效能。此外,我們對輸入資料分佈幾乎沒有要求,只假設損失收斂為零。在第3節和第4節中,我們表明神經網路的最後權重層的方向收斂於在理論上和經驗上對變換空間中的變換資料進行訓練的SVM解的方向。此外,我們還表明,如果我們訓練整個網路,最後一層的決策邊界更接近SVM決策邊界,而不是僅在第4.3節中對最後一層進行微調。我們將結果擴充套件到具有交叉熵損失的多類分類問題,這是實踐中最常見的情況,見第4.5節。我們的研究縮小了純理論方面的差距,該方面研究了過度簡化的模型,對輸入分佈有嚴格要求,以及複雜深度學習模型的實際應用。在實踐中,人們通常將深度學習的卓越表現歸功於模型的學習表徵和分類的能力。我們揭開了學習表徵與分類者之間關係的神祕面紗,特別是對所學習的分類進行了表徵。

 

問題的表述

與先前研究[27,4,3]的設定不同,後者假設訓練資料是線性可分的或遵循某種分佈,我們沒有這樣的要求。形式上,對於二元分類,我們考慮資料集{xn,yn}Nn = 1,其中xn∈Rd,二進位制標記yn∈{-1,1}。我們使用X∈Rd* N來表示資料矩陣。對於多類分類,我們有yn∈[K]:= {1,2,...,K},K是類的數量。

關於神經網路模型,我們也沒有過分簡化架構。考慮具有圖1所示架構的神經網路,其基本上是具有實際用途的生產網路。我們將神經網路分為四個部分。 原始空間和標籤空間是訓練介面。變換函式與變換空間(最後隱藏層的輸出)相結合是深度學習效能不斷提高的原因之一。為了便於分析,我們將變換後的空間作為一個獨立的元件,與標籤空間完全連線。形式上,我們將示例xn上的最後一個隱藏層的輸出表示為δn,其中δn∈Rt。

我們將網路的整個引數集表示為θ。對於二進位制情況,網路定義函式f(x;θ):Rd→{-1,1}。變換函式是δn= h(xn;φ),其中φ是變換函式的引數集。請注意,從δn到最終輸出,最後一個權重層定義了一個線性變換,其形式如下:

g(δn;W) = Wδn,

其中W∈Rt*k是最後一層的權重向量(注意二進位制情況,k=1)。我們使用Wi∈Rt*1來表示它的第i行。所以,我們有θ=(φ,W)。


一般而言,訓練資料集的經驗損失具有以下形式:

 

 
 


其中l是特定的損失函式(例如,指數損失,交叉熵,......)。例如,隨著指數損失,l(t,yn)= e-ynt,經驗風險由下式給出:(3)

 

其中第二個表示式強調最後一個權重層。


對於多類分類,常用的損失函式是交叉熵損失:(4)

其中W1是W的第l個分量,它是某個分類l的權重; Wyn是由yn表示的類的W的組成部分。


執行優化的目標是找到:


在下文中,我們關注使用GD演算法最小化方程(3),對於二元情況具有恆定學習率η,對於多類情況,我們關注方程(4)。在迭代t,更新規則具有以下形式:

 

主要研究

在本節中,我們從[27]中的結果開始,用於邏輯迴歸中的線性可分資料,然後獲得圖1中神經網路的結果。最後,我們將結果從二元情形擴充套件到多類情形。

在[27]中,作者研究了以下問題。


定義1.對於邏輯迴歸問題,其權重向量為w∈Rd,損失具有以下形式:


對於這種二進位制情況,假設所有標籤都是正數:yn=1(我們可以將ynxn重新定義為xn),我們在迭代時對該損失函式進行梯度下降來更新權重,具有以下形式:

作者表明,[27]最終的wt發散:

 

 
 


引理1.令wt為定義1中梯度下降的迭代,其中η<2β-1σ-2max(X),其中β是l的平滑度,σmax(X)是資料矩陣X∈Rd*N的最大奇異值和任何起點w0。對於線性可分資料和β平滑遞減損失函式,我們得到:(1)

 

但是上述解決方案的方向收斂於硬邊緣SVM解決方案[27]。

 

 
 


引理2.對於任何線性可分的資料集,任何具有指數衰減的β平滑遞減損失函式(損失函式衰減由兩個指數函式界定),任何步長η<2β-1σ-2max(X)和任何起點 w0,梯度下降迭代將表現為:

 


其中w~是L2最大邊距向量:


並且殘差最多增長為||ρt||= O(loglog(t)),等等

此外,除了測量零之外,殘差ρt是有界的。

至於我們的問題,我們有以下假設:

假設1.等式(2)中的損失收斂於零:limt→∞ L(θt)= 0.

這個假設是一個合理的假設。只要資料是線性或非線性可分的,沒有錯誤標記的資料點並且模型具有足夠的容量,這可以是令人滿意的,這通常是深度學習模型的情況。根據假設1,我們有以下引理:

引理3.在假設1下,對於具有如圖1中的結構的神經網路,即使資料集{xn,yn}Nn=1不是線性可分的,轉換的資料集{δn,yn}Nn=1也是線性可分的:

對任意W*,存在n,使得ynW*δn > 0。

實際上,由於最後一個權重層是線性變換,如果{δn,yn}Nn=1不能線性分離,則分類誤差永遠不會達到零,更不用說損失了。在定義1之後,讓我們重新將ynδn定義為δn,基於引理2和引理3,我們得到第一個主要結果:


定理1.對於任何用於二元分類的神經網路,任何具有指數衰減的β平滑遞減損失函式,足夠小的步長η<2β-1σ-2max(X)和任何起點W0,只要limt→∞L(θt))= 0,神經網路最後一個權重層的方向收斂:


其中W~是L2最大邊距向量

其中δn是最後一個權重層的重新定義的輸入。

確實,變換函式的收斂也會影響最後一層決策邊界。然而,由於損失收斂於零,因此在足夠長的訓練時間之後,變換函式的方差是有界的,這使得該定理成立。

至於多類分類問題,我們從[27]得到以下引理:


引理4.對於邏輯迴歸問題,我們線上性可分的多分類資料集中學習每個類k∈[K]的預測器wk,在大多數情況下,任何起始點wk,0和任何足夠小的步長(即,除了度量為零),梯度下降對交叉熵損失的迭代將表現為:


其中殘差ρk,t是有界的,而wk~是K分類SVM的解:

與定理1類似,我們可以推匯出具有交叉熵損失的多分類情況的以下結果.


定理2.對於任何神經網路,足夠小的步長η和任何起始點W0,只要資料集使得limt→∞L(θt)=0,梯度下降對最後權重層W的交叉熵損失的迭代將表現為:

其中殘差ρk,t有界,Wk,t是迭代t時k分類的權重,Wk是K類SVM的解:

 

 

 
 

 

 

實驗

實驗設定

我們的實驗中有七個資料集,包括五個模擬的二維資料集和兩個真實的資料集。五個模擬資料集可以參考圖2(A1-A5)。前三個(Plate,Blob和Sector)可線性分離。最後兩個(Sector not separable 和 Moon)是非線性可分的。每個模擬資料集中有5000個點。兩個真實的資料集是MNIST [15]和CIFAR-10 [18]。由於MNIST和CIFAR-10是多類資料集,因此我們從10個類中隨機選擇了兩個類,用於二元分類情況。我們使用圖1中的網路架構進行所有實驗。唯一的區別是轉換函式。我們使用具有2000個節點的完全連線層作為五個模擬資料集的轉換函式;MNIST的ResNet[10];和Cifar-10的DenseNet [11]。為了視覺化目的,我們將t設定為2.我們使用交叉熵損失作為損失函式,並使用ReLU作為啟用函式。對於多類分類問題,我們將輸出層中的節點數設定為與類的數量相同。我們使用GD作為模擬資料集,使用SGD作為MNIST和CIFAR-10。對於所有實驗,我們關閉了所有常用的顯式正則化器,例如重量衰減和丟失。

 

模擬資料集

結果總結在圖2中(其他結果可以在附錄中找到)。原始輸入空間中神經網路的決策邊界可以參考圖2(B1-B5)。綠點和黑點是訓練資料點。我們在整個空間中均勻地取樣測試資料點,以便我們可以視覺化訓練的神經網路的決策邊界。藍色點是由具有與黑色訓練資料相同標籤的模型預測的藍色點,而紅色點是與綠色訓練資料具有相同標籤的紅色點。曲線將藍點分開,紅點可以視為網路的決策邊界。雖然很難看透原始空間,正如第3節中的分析所暗示的那樣,變換後的空間更有趣。圖2(D1-D5)顯示了變換空間中的訓練資料和測試資料。作為比較,我們用變換的訓練資料訓練線性SVM,並用SVM分類器標記相同的測試資料點,其結果如圖2(C1-C5)所示。如圖所示,用GD訓練的神經網路最後層決策邊界的方向收斂於線性SVM解的方向,這證明了定理1.此外,兩種決策邊界彼此非常接近,不僅如此在方向上但也在恆定的偏置項中。我們在4.3節進一步討論了這種現象。

 

MNIST

在使用MNIST資料訓練殘差網路之後,我們將資料對映到轉換空間。在該空間內,我們統一對測試資料進行取樣,並使用圖1中網路的最後一層標記這些測試資料點,這導致圖3(A)中的決策邊界。利用轉換空間中的訓練資料,我們訓練了線性SVM分類器,並繪製出圖3(B)中該分類器的決策邊界。如圖所示,在將資料對映到轉換空間之後,第一個決策邊界的方向非常接近第二個決策邊界的方向,這進一步支援定理1.此外,隨著轉換函式的固定,我們重新初始化了最後一層並重新訓練最後一層,其結果如圖3(C)所示。它表明我們的結果仍然存在。另一方面,通過訓練整個網路獲得的原始邊界在偏置常數方面更接近SVM邊界,這表明整個網路訓練可以對最後一層進行更好的初始化,從而使模型具有更好的泛化效能。

 

CIFAR-10

我們在CIFAR-10資料集上訓練了具有DenseNet轉換函式的模型。該資料集的決策邊界結果可以參考圖4.如圖所示,類似於MNIST的結果,這兩個邊界的方向彼此非常接近,這進一步支援定理1.此外,與轉換空間中神經網路最後權重層的決策邊界有關的另一個值得注意的事情。除了在方向上接近之外,神經網路邊界非常接近兩個簇的中點,如果它不穿過中點,那麼SVM邊界應該在理論上通過。這種現象與第4.2節和第4.3節中的結果一致,表明使用GD或SGD訓練整個神經網路可能導致具有良好偏置常數的決策邊界。

 

多類別分類

在實踐中,深度學習通常用於具有交叉熵損失的多分類任務。我們在本節中研究了多分類案例。我們在模擬的三類Blob資料集上進行了實驗。原始空間和轉換空間中的神經網路決策邊界可以分別參考圖5(A,B)。作為比較,轉換空間中的轉換資料的SVM判定邊界如圖5(C)所示。這些結果顯示了神經網路最後權重層的決策邊界方向收斂於SVM的結果,驗證了定理2.我們還利用DenseNet轉換函式對MNIST進行了這樣的實驗。在訓練期間,我們還嘗試了除SGD之外的其他優化器,例如Momentum。結果如圖5(D,E)所示。從這兩個圖中,我們可以發現神經網路最後一層和SVM的相應決策邊界方向彼此非常接近。此外,與以前的結果相似,神經網路的決策邊界非常接近不同聚類之間的中點。這些實驗進一步支援定理2,也表明我們的假設可以推廣到其他優化器,如Momentum。

 

討論

本文的結果可用於解決與深度學習相關的幾個實際問題,如災難性遺忘[14]和資料飢渴挑戰[6]。我們以這兩個為例。另一方面,我們認為調查轉換函式將有助於解決對抗性攻擊[23],研究最後一層可以推出將不確定性引入監督深度學習的新方法[9]。

 

災難性遺忘


災難遺忘[14],這意味著神經網路不具備學習新知識而不忘記學習知識的能力,是深度學習的瓶頸之一。 最近,一個名為SupportNet [19]的排練框架被提議用於處理在進行類別增量學習時的災難性遺忘。簡而言之,它維護舊資料的子集,基於通過使用SVM獲得的支援向量資訊來近似最後一層,並在將新類合併到模型中時將子集與新資料一起提供給模型。儘管本文缺乏理論分析,但該框架在實踐中運作良好,甚至在某些資料集上實現了近乎最佳的效能。實際上,根據引理1和定理2,我們可以寫出W = c(t)W~ +ρt,使得c(t)→∞和ρt是有界的。然後將W的指數損失的梯度能夠表示為

當模型收斂並且c(t)→∞時,只有那些具有最大指數的資料,即Wδn應該是最小的,才會對梯度有貢獻。這些樣本正是支援轉換資料訓練的SVM的支援向量,由SupportNet選擇。使用這些資料進行調整,模型很可能為舊類學習相同的邊界。我們的結果部分解釋了為什麼訓練方法在實踐中運作良好。

 

減少訓練資料量並進行遷移學習

為了解決深度學習中的資料飢餓問題,總是希望減少訓練資料大小,而不會有太多的效能損失。在實踐中,特別是在計算機視覺領域,當資料大小不夠大時,人們通常利用轉遷移學習,利用訓練資料對預訓練模型的最後一層或兩層進行微調。實際上,根據我們在第3節中的結果和第5.1節中的分析,從轉換空間到標籤空間不需要資料,因為只有支援向量樣本很重要,這意味著深度學習的缺點屬性來自轉換功能元件。因此,利用現有轉換函式並避免該元件的資料大小要求的遷移學習技術可以學習具有有限資料的有用模型。

 

結論

縮小理論研究與深度學習實踐力量之間的差距是一個引人入勝的研究方向。在本文中,我們研究了一個富有成效的深度學習架構的決策邊界,對訓練資料和模型都有弱假設。通過全面的理論分析和實驗,我們證明了神經網路的最後權重層的方向收斂於在轉換資料上訓練的線性SVM的方向,如果損失收斂到零,對於二元情形和多類情況都是如此。常用的交叉熵損失。此外,我們從經驗上證明,對整個神經網路進行訓練可能會導致最後一個權重層的偏差常數更好,這對於深度學習模型的泛化屬性非常重要。除了促進對深度學習的理解並從而進一步提高其效能之外,我們的結果可用於解決深度學習領域中的廣泛實際問題,例如災難性遺忘,減少深度學習的資料大小要求,對抗性攻擊,並將不確定性引入深度學習。