1. 程式人生 > >理解深度學習需要重新思考泛化

理解深度學習需要重新思考泛化

這篇文章來自ICLR2017 best paper,是一片十分有爭議的文章,看完之後在小組會上跟大家分享了這篇文章,最終經過一系列討論,結合種種實驗得出結論,我們認為資料對於泛化效能來說是十分重要的,因為對於實驗中的資料來說,我們可以發現在真實資料上的實驗結果以及泛化結果相對於其他資料副本來說都是極具優勢的。以下為個人觀點:

我認為這篇文章只是提出了一個新的思考,給出了一個新的研究方向,至於是否有意思,目前無從得知,斯以為它能獲得最佳論文的理由如下:

首先,作者團隊足夠強大,MIT博士,谷歌大腦團隊,深度學習三大巨頭之一的成員;

其次,由於最近深度學習的研究在很多方向上已經很難開展出十分醒目的研究,比如設計新的模型種種變得並沒有那麼容易,而這篇paper的出現給大家引了一條新路,開拓了一個新的研究方向。但是它只是給了大家一種新的思考,至於它的實際意義,個人認為目前仍不能確定;

最後,證明了以前的方法不好,這在一定程度上對前人的工作進行了一個前所未有的評價,不敢說否定,但確實有一定的衝擊性。

因此,評委認為對這篇paper給予了很高的評價。

下面是我個人對這篇paper的一個翻譯,有些地方可能翻譯的而不夠準確,僅供參考。

UNDERSTANDING DEEP LEARNING REQUIRESRETHINKING GENERALIZATION

摘要

儘管體積巨大,成功的深度人工神經網路在訓練和測試效能之間可以展現出非常小的差異。過去一般將其歸功於泛化誤差小,無論是對模型譜系的特點還是對於訓練中使用的正則技術來說。

通過廣泛的系統的實驗,我們展示了傳統方法無法解釋為什麼大規模神經網路在實踐中泛化表現好。 具體來說,我們的實驗證明了用隨機梯度方法訓練的、用於影象分類的最先進的卷積網路很容易擬合訓練資料的隨機標記。這種現象本質上不受顯式正則化影響,即使我們通過完全非結構化隨機噪聲來替換真實影象,也會發生這種現象。我們用一個理論結構證實了這些實驗結果,表明只要引數的數量超過實踐中通常的資料點的數量,簡單兩層深的神經網路就已經具有完美的有限樣本表達性(finite sample expressivity

)。我們通過與傳統模型進行比較來解釋我們的實驗結果。

【一句話總結】通過深入系統的實驗,我們指出傳統方式無法解釋為什麼大規模神經網路在實踐中泛化表現良好,同時指出我們為何需要重新思考泛化問題。

  1介紹

深度人工神經網路通常具有遠遠多於訓練樣本數目的可訓練模型引數 。然而,這些模型中的一些顯示出非常小的泛化誤差(即“訓練誤差”與“測試誤差”之間的差異比較小)。同時,很容易想出一些泛化很差的自然模型架構。那麼,泛化好的神經網路與泛化不好的神經網路有什麼區別?對這一問題做出滿意的回答,不僅有助於更好地理解神經網路,還可能帶來更正確可靠的模型架構設計。

為了回答這個問題,統計學習理論提出了一些能夠控制泛化誤差的不同複雜度測度。這些包括VC

維,拉德馬赫複雜度,和均勻穩定性等。而且,當引數的數量很大時,理論認為需要某種形式的正規化來確保小的泛化誤差。正則化也可能是隱式的,如提前停止的情況。

2我們的貢獻

在這個工作中,我們通過展示傳統的泛化觀點不能夠解釋為什麼不同的神經網路具有截然不同的泛化效能。

隨機測試 我們方法論的核心是眾所周知的,即從非引數統計中隨機化一個變體。在第一組實驗中,我們在資料的副本上訓練了一些標準的結構,在這個副本資料中,真正的標籤被替換為隨機的標籤。我們的中心發現可以概括為:

深度神經網路很容易擬合隨機標籤

更確切地說,當我們在真正的資料集上完全隨機化標記然後進行訓練的時候,神經網路的訓練誤差為0。當然,測試錯誤並不是很好,因為沒有訓練標籤和測試標籤之間的相關性。

總結在這種情況下,例項和分類標籤之間不再有任何關係。因此,學習是不可能發生的。直覺告訴我們,這種不可能會在訓練過程中很清楚地表現出來,比如訓練不收斂,或者收斂速度大幅減慢。讓我們感到意外的是,有多個標準架構的訓練過程的好些屬性,在很大程度上都沒有受這種標籤轉換的影響。

換句話說,通過單獨的隨機化標籤,我們可以強制讓一個模型的泛化誤差在不改變其模型,以及模型大小,超引數還有優化器的情況下大幅度增加。我們在CIFAR10和ImageNet上分別對不同的標準結構進行訓練後得出了這一事實。但是這個簡單的陳述,從統計學的角度來看,這一觀察結果具有深遠的意義:

1 神經網路的有效容量足以記住整個資料集;

2對標籤隨機的資料進行優化很容易。事實上,與標籤正確的訓練過程相比,隨機標籤的訓練時間也只增加一個小的常數因子;

3將標籤打亂僅僅是做了一個數據轉換,其他所有關於學習問題的屬性都沒有改變。

綜上可得:

“……通過將標籤隨機化,我們可以強制模型不受改變、保持同樣大小、超引數或優化器的情況下,大幅提升網路的泛化誤差。我們在 CIFAR 10 和 ImageNet 分類基準上訓練了好幾種不同標準架構,證實了這一點。”

換句話說:模型本身、模型大小、超引數和優化器都不能解釋當前最好的神經網路的泛化效能。因為在其他條件都不變的情況下,唯獨泛化誤差產生大幅變動,只能得出這一個答案。

在第一組實驗上進行擴充套件,我們通過完全隨機化的影象畫素去替代真實影象,觀察發現卷積神經網路繼續適用於0訓練誤差的資料。這表明,儘管他們是這種結構,卷積神經網路可以擬合隨機噪聲。此外,我們進一步改變隨機化的數量,在無噪聲和完全噪聲的情況下平滑地插入資料集。這樣一來,標籤還是保有某種程度的訊號,從而會造成一系列間接的學習問題。隨著噪聲水平的提高,我們觀察到泛化誤差呈現出穩定的惡化。這表明神經網路能夠理解資料中的剩餘訊號,同時用暴力計算適應噪聲部分。我們將在下面更詳細地討論這些觀察結果排除了所有的VC維度,Rademacher複雜度和均勻的穩定性,作為對最先進神經網路的泛化效能的可能解釋。

顯式正則化的作用。 如果模型本身沒有充分的正則化,它仍然可以看到顯式正則化的幫助有多少。我們表明,顯式正則化方法,如權重衰減、dropout 和資料增強,都不能充分解釋神經網路的泛化誤差。換個方式說:

顯式正則化確實可以提高泛化效能,但其本身既沒必要也不足以控制泛化誤差

與古典凸經驗風險最小化相反,其中必須進行顯示正則化來排除不重要(微不足道)的解決方案,我們發現正規化在深度學習上起著不同的作用。顯式正則化更像是做調整引數,有助於改善泛化能力(即幫助提高最終的測試誤差),但不使用顯示正則化方法也不一定意味著會產生很差的泛化誤差。正如(Krizhevsky et al. (2012))這個篇文章中,L2正則化有時可以幫助優化,說明在深度學習中它很少被人理解的本性。

有限樣本表徵。 我們用理論結構補充了我們的經驗觀察結果,表明一般大型神經網路可以表徵訓練資料的任何標籤。更加正式的,存在一個啟用函式為 ReLU 的兩層神經網路,權重為 2n + d,可以對維度為 d 樣本大小為 n 的任何函式進行表徵。先前由於Livni等人在具有更多引數的情況下取得了類似的結果,即O(dn).當我們的網路深度為2時,那麼不可避免的網路將具有較大的寬度,因而我們也可以提出一個深度為K的網路,其中每層只有O(n/k)個引數。

雖然先前的表徵結果集中在神經網路可以在整個領域中表示,但我們重點關注神經網路對有限樣本的表達性。在函式空間中,與現有的深度分離相比,我們的結果表明,就連線性大小的 2 層深網路也可以表徵訓練資料的任何標籤!

隱式正則化的作用。當顯式正則化像dropout,權重衰減等可能不是泛化的必要條件,當然不是所有很好的擬合訓練資料的模型都能夠很好的泛化。

事實上,在神經網路中,我們幾乎總是選擇我們的模型作為執行隨機梯度下降的輸出。我們分析了作為隱式正則化函式的隨機梯度下降(SGD)的表現。對於線性模型,SGD 總是收斂到一個小的範數解。因此,演算法本身將解決方案隱性地正則化了……的確,我們展示了在一個小的資料集上,在不進行正則化的情況下,即使高斯核方法也可以很好的泛化,儘管這並不能解釋為什麼某些架構比其他架構泛化得更好,但它確實表明,要準確理解使用 SGD 訓練的模型繼承了哪些屬性,還需要更多的調查。

1.2相關工作

(Hardt et al. (2016))這篇文章從梯度下降的步數來考慮,給出了用。隨機梯度下降訓練的模型的泛化誤差的上限。他們的分析遵循均勻穩定性的概念。正如我們在這項工作中指出的,學習演算法的均勻穩定性與訓練資料的標籤無關。因此,這個概念不足以區分在真實標籤(小泛化誤差)上訓練的模型和在隨機標籤上訓練的模型(高泛化誤差)。這也突出了為什麼對Hardt et al. (2016)等人對於非凸優化的分析相當悲觀,在資料上只允許很少的傳遞。我們的研究結果表明,甚至經驗訓練神經網路對於資料的許多傳遞也不是均勻穩定的。因此,需要一個較弱的穩定性概念,以便在這方面取得進一步進展。

從多層感知機的普遍性近似理論出發,在神經網路的代表性力量上已經有了很多的工作。所有這些結果都在總體水平上,表徵了某些神經網路系列在整個領域可以表達的數學函式。研究了神經網路在大小為n的有限樣本中的表徵性。這引出了一個非常簡單的證明,即使O(n)大小的兩層感知器也具有通用的有限樣本表達性。

在每個結點的權重的L1範數方便證明了具有sigmoid啟用函式的額多層感知機的(fat shattering dimension)脂肪破碎維度邊界。這個重要的結果給出了神經網路的泛化約束即它是獨立於網路大小的,也就是與網路大小無關的。然而,對於RELU網路,“1範數”不再具有資訊性。 這導致了一個問題:對於大的神經網路,是否有不同形式的容量來控制它的泛化誤差。這個問題在這個Neyshabur et al. (2014)工作中被提出,通過實驗論證,網路大小不是神經網路的能力控制的主要形式。類比矩陣分解法說明了隱式正則化的重要性。

2. 神經網路的有效能力

我們的目標是理解前饋神經網路的有效模型能力。對於這個目標,我們選擇了非引數隨機化測試的方法。特別地,我們採用候選架構,並對真實資料和真實標籤替換為隨機標籤的資料的副本進行訓練。對於後者,例項和類標籤之間不再有任何關係。因此,學習是不可能的。直覺表明,這種不可能性在培訓過程中應該表現得很清楚,通過訓練不會大幅縮減或減緩。令人驚訝的是,多標準化結構的訓練過程的幾個屬性在很大程度上不受標籤變形的影響。這就提出了一個概念性的挑戰。無論我們為期待一個小的泛化錯誤開始的理由不得不適用於隨機標籤的情況。(翻譯的不好)。

為了進一步深入理解這一現象,我們嘗試不同程度的隨機化探索無標籤噪聲和完全損壞的標籤之間的連續體。我們還嘗試輸入(而不是標籤)的不同隨機化,得出同樣的一般性結論。

在兩個影象分類資料集CIFAR10和ImageNet (Russakovsky et al., 2015)ILSVRC 2012 上分別做了實驗。

影象分類資料集:CIFAR10資料集(Krizhevsky&Hinton,2009)和ImageNet(Russakovsky等,2015)ILSVRC 2012資料集。

architecture:Inception V3(Szegedy et al., 2016) architecture on ImageNet. Alexnet (Krizhevsky et al.,2012), and MLPs on CIFAR10

關於實驗設定的更多細節,請參閱附錄A部分

2.1使用隨機標籤和畫素

我們用以下的標籤和輸入圖片來做實驗:

§ 真實標籤(原始資料集,沒做修改)

§ 部分損壞的標籤(將其中一部分標籤打亂了)

§ 隨機標籤(把所有標籤都打亂)

§ shuffle 畫素(選擇一個畫素排列,然後將其統一[uniformly]用於所有影象)

§ 隨機畫素(對每幅影象單獨做一個不同的隨機排列)

§ 高斯方法(如上文所述,給每幅影象增加隨機生成的畫素)

令人驚訝的是,儘管隨機標籤完全破壞了影象和標籤之間的關係,隨機梯度下降具有不變的超引數設定可以優化權重以適合隨機標籤。 我們通過混洗影象畫素進一步破壞影象的結構,甚至從高斯分佈中完全重新取樣隨機畫素。但是我們測試的網路仍然能夠適應。

圖1:在CIFAR10上擬合隨機標籤和隨機畫素。a)顯示各種實驗設定下的訓練損失隨著訓練步驟的增加而減少(b)顯示了不同標籤損壞率的相對收斂時間,隨著標籤噪聲水平的增加,收斂時間的減慢。 (c)顯示不同標籤損壞下的測試錯誤(也是訓練誤差為0的泛化誤差)。

影象1a顯示了各種設定下CIFAR10資料集上的Inception模型的學習曲線。我們期望目標函式在隨機標籤上需要更長的時間來開始下降,因為最初每個訓練樣本的標籤分配是不相關的。因而,大的預測誤差被反向傳播,為引數更新制造更大的梯度。然而,因為隨機標籤是固定的和一致的,所以通過多次訓練之後網路就開始擬合了。我們發現以下對於擬合隨機標籤的觀察非常有趣:a)我們不需要改變學習率計劃;b)一旦擬合開始,它將會快速收斂;c)它將會完美的擬合訓練集。還要注意,“隨機畫素”和“高斯”開始收斂會比“隨機標籤”更快。這可能是因為對於隨機畫素,與原來屬於同一類別的自然影象相比,它的輸入彼此之間是更加分散的,因此更容易構建用於任意標籤分配的網路。

Table1 CIFAR10資料集上不同模型的訓練精度與測試精度(百分比)。 比較運用或者不運用資料增加或權重衰減下的效能。 還包括擬合隨機標籤的結果。

在CIFAR10資料集上,Alexnet和MLP在訓練集上都收斂到0損失,即訓練誤差為0。 表1中的陰影行顯示精確的數字和實驗設定。我們在ImageNet資料集上也進行了隨機標籤測試。如附錄中表2的最後三行所示,雖然沒有達到完美的100%top-1精度,對於來自1000個類別的100萬個隨機標籤有95.20%的精度仍然是非常驚人的。注意,當從真實標籤轉換到隨機標籤時,我們沒有進行任何超引數調整。有可能通過對超引數進行調整後在隨機標籤上可以達到完美的精確度。即使進行顯式正則化,網路所能達到的最高精確度大約為90%。(翻譯不太好)

Partially corrupted labels 我們在CIFAR10資料集上,從0(無腐敗)到1(完全隨機標籤)的不同級別的標籤損壞上進一步檢查神經網路的訓練行為。在所有情況下,網路都可以完美的擬合有損訓練集圖1b展示收斂時間隨著標籤噪聲水平的增加而放緩。圖1C描述的是收斂之後的測試誤差。由於訓練誤差始終為零,因此測試誤差與泛化誤差相同。隨著噪聲水平接近1,泛化誤差收斂於90% ——在CIFAR10上隨機猜測的效能。

根據我們的隨機化實驗,我們將討論我們關於泛化原因的發現是如何對傳統方法提出挑戰的。

Rademacher(拉德馬赫)complexity and VC-dimension.拉德馬赫複雜度是常用的、靈活的一個假設類的複雜度測量。在資料集{x1,….xn}上一個假設類的經驗拉德馬赫複雜度被定義為:

這裡是獨立同分布的均勻隨機變數。這裡的定義類似於我們的隨機測試。特別地,中H的測量能力適合二分類任務。當我們考慮多分類問題時,對於同樣的觀測結果它會直接考慮相關的二分類問題。因為我們的隨機化測試表明許多神經網路可以完美地擬合隨機標籤訓練集,我們期望對應的模型類,。這當然是Rademacher(拉德馬赫)複雜性的一個微不足道的上限,在實際設定中不會導致有用的泛化界限。除了我們進一步限制網路之外,類似的推理也適用於VC維度及其連續的fat-shattering維度。雖然Bartlett (1998)巴特利特(1998)證明了對網路權重的“1範數界限”的限制,這個限制不適用於我們這兒考慮的ReLU網路。這個結果被Neyshaburet等人推廣到其他範數上(2015),但即使這樣似乎也無法解釋我們觀察到的泛化行為。

Uniform stability 拋開假設類的複雜性度量,我們可以考慮用於訓練的演算法的效能。這通常用一些穩定性的概念來完成,例如均勻穩定性(Bousquet&Elisseeff,2002)。 演算法A的均勻穩定性測量演算法對替換單個示例的敏感度。然而,它只是演算法的屬性,不考慮資料的細節或標籤的分佈。有可能定義較弱的穩定性概念。最弱的穩定性度量直接等於邊界泛化誤差,並且將資料考慮進去。然而,很難有效地利用這種較弱的穩定性概念。

3 正則化的作用

我們的大多數隨機化測試都是在避開顯式正規化的情況下執行的。當資料引數多於資料點時,正則化是理論和實踐中緩解過度擬合的標準工具(Vapnik,1998)。基本思想是,雖然原始假設太大而不能很好地泛化,但是正則化有助於將學習限於具有可控複雜度的假設空間的一個子集內。通過新增顯式正則化器,通過懲罰最優解的規範來說,可能的解決方案的有效的Rademacher複雜度被顯著降低。

正如我們所看到的,在深度學習中,顯式正則化扮演者一個相當不同的角色。正如在附錄中表2的底行,與用dropout和權值衰減一樣,即使不能很完美,InceptionV3也能夠很好的擬合隨機訓練集。儘管沒有顯式正則化,在CIFAR10, Inception和 MLPs上通過權值衰減仍然可以完美的擬合隨機訓練集。然而,AlexNet利用權值衰減在隨機標籤上無法收斂。為了調查正則化在深度學習中的作用,我們明確比較了深層網路學習與非正則化學習的行為。

我們簡單地採取幾種常用的網路架構,而不是對深度學習的各種正則化技術進行全面的調查,並比較了不使用正則化器的行為。 以下三種正則化:

·        資料增強:涉及特定域的轉化。對於影象資料,常用的變換包括隨機裁剪,亮度隨機擾動,飽和度,色調和對比度。

·        權重衰減:非常流行的正則化方法,等價於在權重上進行L2正則化。

·        Dropout:(因 LeCun 而發揚光大)以給定的dropout概率隨機遮蔽各層的每個元素的輸出。在我們的實驗中,我們對於ImageNet資料集僅在InceptionV3上使用了dropout.

1展示了再CIFAR10Inception, Alexnet and MLPs的結果,切換了資料增強和權值衰減的應用。正則化技術幫助我們提高了泛化效能,但是即使我們不用正則化,我們的所有模型依然可以泛化的很好。

在附錄表2中展示了在ImageNet資料集上相似的實驗結果。當我們關閉所有正規器時,觀察到top-1 test 精度下降了18%。更精確地說,無正則化時,top-1test精度為59.8%,然而在ImageNet,隨機猜測時top-1 test只能達到0.1%的精度。更顯著的是,隨著資料增強,同時不用其他正則化時,Inception的精度能夠達到72.95%。事實上,似乎使用已知的對稱性來增加資料的能力比僅僅調整權值衰減或防止低訓練誤差顯得更強大。

不使用正則化時,Inception能達到80.38%top-5精度,而報告的ILSVRC 2012Krizhevsky等,2012)獲勝者達到83.6%。所以正規化是重要的,通過簡單地改變模型架構可以獲得更大的收益。很難說,正則化是深層網路泛化能力的根本階段性變化。

3.1 隱式正則化

在一些凸學習問題上提前停止被展示為隱式正則化,在附錄表2中,括號中顯示的是在訓練過程中的最好的測試精度。它證實,提前停止可能潛在地提高泛化效能。圖2a展示了在ImageNet上的訓練精度和測試精度。陰影區域表示累積的最佳測試精度,作為提前停止的潛在效能增益的參考。然而,在CIFAR10資料集上,我們不能觀察到提前停止的任何潛在好處。

批量歸一化(IoffeSzegedy2015)是在每個mini-batch內歸一化層響應的運算子。在許多現代的神經網路中,它已經被廣泛的採用,如InceptionSzegedy et al。,2016)和Residual NetworksHe et al。,2016)。雖然沒有明確設計用於正則化,但通常會發現batchnormalization可以提高泛化效能。Inception架構使用許多batchnormalization層。為了測試batch normalization的影響,我們建立了一個“Inceptionw / o BatchNorm”架構,除了所有batchnormalization被移除外,與圖3中的Inception完全相同。圖2b比較了CIFAR10Inception的兩個變體的學習曲線,這裡避開了所有的顯式正則化(即沒有使用任何顯式正則化)。規範化操作符有助於穩定學習動態,但對泛化效能的影響僅為3~4%。在這一節的表1中列出了“Inceptionw/o BatchNorm”的精度。

總而言之,我們對顯式和隱式正則化的觀察一致地表明,正確的(regularizers)調整器有助於提高泛化效能。然而,正則化不太可能是泛化的根本原因,因為網路在所有正則化器被移除後依然表現的很好。

4 有限的樣本表達

神經網路的表達能力已經做了大量的努力。幾乎所有的結果都是在“總體水平”上顯示了整個域的功能可以或者不可以用具有同樣數量引數的確定類來表示。例如,總所周知,在總體水平上,第K層比第k-1層具有更強大的功能。

我們認為在實際中更重要的神經網路在大小為n的有限樣本上的表達。利用均勻一致性理論有可能將總體水平的結果轉換到有限樣本上。然而,這樣的均勻收斂邊界將要求樣本大小在網路深度的輸入和指數維度上是多項式級別的,在實踐中構成明顯不切實際的要求,也就是說在實際中是不可實現的。

我們直接分析神經網路的有限樣本表達性,並指出這顯著簡化了影象。具體來說,一旦網路的引數p的數量大於n即使簡單的兩層神經網路也可以表示輸入樣本的任何功能。如果對於每個樣本,每個函式,我們說神經網路C可以表示在維度為d,大小為n的樣本的任何功能,這兒,對於網路C,其權重設定

理論1  存在具有ReLU啟用和2n + d權重的雙層神經網路,其可以表示d維中大小為n的樣本上的任何函式。

證明在附錄C節中給出,我們還討論如何用深度k實現寬度O(n = k),我們認為在我們的結構中對係數向量的權值進行限制是一個簡單的練習。引理1給出矩陣A的最小特徵值的約束。可以用它來給出解w的權值的合理範圍

5 隱式正則化:AN APPEAL TO LINEAR MODELS

雖然深度神經網路由於許多原因仍然是神祕的,但我們在本節中注意到,理解線性模型的泛化來源並不容易。事實上,如果看看是否有平行的見解可以幫助我們更好地理解神經網路。appeal to線性模型的簡單情況是有用的。

假設我們選擇了n個不同的資料點,{(xi,yi)}這裡,xi是d維的特徵向量,yi是標籤。用一個損失用,(y, y)=0表示一個非負的損失函式,考慮經驗損失最小化問題

如果,那麼我們可以擬合任意的標籤。但是,是否可以用這樣一個豐富的模型類進行泛化,並且沒有顯式正規化?

讓X表示資料矩陣第i行是。如果X的秩是n,那麼方程的方程組Xw=y就有無窮多的解,不管右邊是多少。我們可以通過簡單地解決這個線性系統在ERM問題(2)中找到一個全域性最小值。

但是,所有的全域性最小值都同樣適用嗎? 是否有一種方法可以確定什麼時候一個全域性最小值可以泛化,而另一個則不會?理解最低質量的一個最流行的方法是解損失函式的曲率。但是線上性情況下,所有最優解的曲率都是一樣的。看這兒,注意當y是一個標量的情況下

當y時一個向量值時也可以找到類似的公式。特別是,Hessian並不是w的選擇函式,而且,Hessian在所有全域性最優解中都是退化的。

如果曲率不能區分全域性最小值,那該怎麼辦? 一個有希望的方向是考慮workhorse演算法,隨機梯度下降(SGD),並檢查SGD的哪個解決方案是收斂的。因為隨機梯度下降的更新形式是,這兒是步長,是預測誤差損失。如果,對於係數我們必須知道解的形式。因此,如果我們執行SGD,那麼我們就會在資料點的跨度中有。如果我們對標籤進行完美的插值我們得到了。執行這兩個等式,我們就得到如下方程

有唯一解。注意,這個等式只依賴於資料點xi之間的點乘。因此,我們由此派生出了“核心技巧”(2001年),儘管這是一種迂迴的方式。

因此,我們可以通過在資料上建立Gram矩陣(也就是核矩陣)來完美地擬合任何一組標籤,並解決對於α的線性的問題。這是一個線性系統,只要n小於10萬,就可以在標準的(工作站) workstations上求解,就像CIFAR10和MNIST這樣的小benchmarks(基準測試)一樣。

令人驚訝的是,正確的擬合訓練標籤恰好能使凸模型的效能得到良好的表現。在沒有預處理的MNIST上,我們可以通過簡單地解(3)式來達到1.2%的測試誤差。在沒有預處理的MNIST上,我們可以通過簡單的解(3)式來達到1.2%的測試誤差。注意,這並不簡單,因為核心矩陣需要30GB儲存在記憶體中,儘管如此,在一個普通的24核和256gb的RAM的膝上型電腦上,這個系統可以在3分鐘內解決。首先將Gabor小波變換應用於資料,然後求解(3),MNIST上的誤差下降到0.6%。 令人驚訝的是,新增正則化不會提高模型的效能。

在CIFAR10上有更加類似的結果。簡單地在畫素上應用一個高斯核,不使用正則化就能達到46%的測試誤差。通過使用具有32,000個隨機濾波器的隨機卷積神經網路進行預處理,該測試誤差降低到17%。 新增L2正則化進一步將這個數字減少到15%。 請注意,這沒有任何資料增強。

請注意,這個核心解決方案在隱式正則化方面具有吸引人的解釋。 簡單代數表明它相當於Xw = y的最小二值解。也就是說,在所有模型都可以正確擬合數據之外,SGD將會以做小范數解的形式收斂到解。在不進行泛化的情況下,很容易收斂到的解:例如,一種可以擬合將高斯核擬合到資料並且將中心店放置在隨機點的中心。另一種簡單樣本將會在測試資料上強迫資料擬合隨機標籤。在這兩種情況下,解的範數比最小化範數解具有更大的意義。

不幸的是,這種最小規範的概念並不能預測泛化效能。例如,回到MNIST樣例上,沒有經過預處理的最小范數解的L2範數是近似於220.在小波預處理的情況下,這個範數跳躍到390。然而測試誤差降低了2倍。因此,因此,雖然這種最小范數的直覺可能為新的演算法設計提供了一些指導,但它只是泛化故事的一小部分。

6 結論

在這項工作中,我們提出了一個簡單的實驗框架,用於定義和理解機器學習模型有效能力的概念。我們進行的實驗強調,一些成功的神經網路架構的有效能力大到足以碾壓性地擬合訓練資料。因此,這些模型原則上足以記憶訓練資料。“這種情況對統計學習理論構成了一個概念上的挑戰,因為衡量模型複雜度量的傳統方法不能很好地解釋大規模人工神經網路的泛化能力。我們認為,我們目前還沒有發現一個精確的正式衡量方法,在這個衡量方法下,這些龐大的模型都很簡單。從我們的實驗得出的另一個見解是,即使最終的模型不能泛化,在實際操作中優化還是很容易的。這也表明了為什麼實踐中容易做優化的原因與神經網路泛化能力的原因是不同的。”