1. 程式人生 > >《VISUALIZING THE LOSS LANDSCAPE OF NEURAL NETS》論文解析

《VISUALIZING THE LOSS LANDSCAPE OF NEURAL NETS》論文解析

引言

神經網路的損失函式是一個高度非凸的函式,神經網路的訓練在於我們能否在這個高度非凸的函式裡找到最小值。總所周知,某些網路(如帶skip connections)會比較容易訓練,超引數(批量大小,學習率,優化器)選擇的合適,會使得模型泛化能力更高。但是,造成這些區別的原因究竟是什麼?他們對損失函式的曲面造成什麼影響,都是不太清楚的。

這篇論文裡,我們使用視覺化的方法,探索了損失函式的結構和損失函式曲面對泛化效能的影響。首先我們介紹了一個簡單的“filter normalization"方法來幫助我們視覺化損失函式彎曲面,和然後利用這個對各種不同損失函式做有意義的比較;然後,我們用各種視覺化方法,來探索網路結構如何影響損失曲面,及訓練超引數如何影響最小點的形狀。

介紹

訓練神經網路需要最小化一個高維非凸的損失函式-理論上一直都是很難的任務,但有時實際中又很容易做到。儘管訓練通用神經網路存在NP問題,簡單的梯度方法常常可以找到全域性最小(零或者近似零),甚至在資料和標籤都是隨機的。但是這個良好特效並不是普遍存在的。神經網路的可訓練性高度依賴網路架構設計,優化器選擇,初始化方法和各種各樣的其他考慮。不幸的是,這些選擇對底層的損失函式曲面結構的影響是不太清楚的。因為對損失函式評估的巨大代價(需要迴圈訓練資料上面的所有點),這方面的研究一直停留在理論層面。

我們使用高度視覺化方法來提供神經網路損失函式的一些經驗性特徵,探索網路架構的選擇如何影響損失函式曲面。更進一步,我們探索了神經網路損失函式的非凸結構如何影響可訓練性,神經網路的極小點的幾何形狀(尖銳/平滑,周圍地形)如何影響他們的泛化效能。

為了做到這一點,我們提出了一個簡單的”filter normalization"的方法來比較神經網路不同優化方法找到的最小點,視覺化來比較他們的銳度/平滑,也比較了網路結構選擇對損失函式曲面的影響(使用skip connections,不同的filter數量,不同的網路深度)。我們的目的是為了瞭解損失函式幾何形狀如何影響神經網路的泛化效能。

理論背景和相關工作

損失函式視覺化基礎

神經網路訓練就是最小化下面公式:

其中θ是網路引數權重,xi,yi是訓練資料,m是訓練資料集數量,表示著網路如何

相關推薦

VISUALIZING THE LOSS LANDSCAPE OF NEURAL NETS論文解析

引言 神經網路的損失函式是一個高度非凸的函式,神經網路的訓練在於我們能否在這個高度非凸的函式裡找到最小值。總所周知,某些網路(如帶skip connections)會比較容易訓練,超引數(批量大小,學習率,優化器)選擇的合適,會使得模型泛化能力更高。但是,造成這些區別的原因

DeepTracker: Visualizing the Training Process of Convolutional Neural Networks(對卷積神經網絡訓練過程的可視化)

training ces ini net mini 個人 src works con \ 裏面主要的兩個算法比較難以贅述,miniset主要就是求最小公共子集。(個人認為)DeepTracker: Visualizing the Train

蒸餾神經網路(Distill the Knowledge in a Neural Network) 論文筆記 蒸餾神經網路(Distill the Knowledge in a Neural Network) 論文筆記

轉 蒸餾神經網路(Distill the Knowledge in a Neural Network) 論文筆記 2017年08月06日 16:19:48 haoji00

Large Collection of Neural Nets, Numpy, Pandas, Matplotlib, Scikit and ML Cheat Sheets

This collection covers much more than the topics listed in the title. It also features Azure, Python, Tensorflow, data visualization, and many other cheat

深度學習論文翻譯解析(四):Faster R-CNN: Down the rabbit hole of modern object detection

論文標題:Faster R-CNN: Down the rabbit hole of modern object detection 論文作者:Zhi Tian , Weilin Huang, Tong He , Pan He , and Yu Qiao 論文地址:https://tryolab

14.On the Decision Boundary of Deep Neural Networks

關於深度神經網路的決策邊界 摘要 雖然深度學習模型和技術取得了很大的經驗成功,但我們對許多方面成功來源的理解仍然非常有限。為了縮小差距,我們對訓練資料和模型進行了微弱的假設,產生深度學習架構的決策邊界。我們在理論上和經驗上證明,對於二元情形和具有常用交叉熵的多類情況,神經網路的最後權重層收斂

推薦系統論文筆記(2):Towards the Next Generation of Recommender Systems:A Survey of the State-of-the-Art ....

一、基本資訊 論文題目:《Towards the Next Generation of Recommender Systems:A Survey of the State-of-the-Art and Possible Extensions》 發表時間:July 2005,IEEE Tran

The Landscape of Tactile Typography

About six years ago, my world turned upside down as my sight receded into blurs and whorls of color and light. One thing that changed the most was how I re

RNN的神奇之處(The Unreasonable Effectiveness of Recurrent Neural Networks)

RNN有很多神奇的地方。我仍然記得為Image Captioning訓練的第一個RNN。我隨便設定了超引數,在訓練了幾十分鐘後這個小模型開始產生看起來非常不錯、幾乎有意義的描述。有些時候,模型的簡單程度與結果超出預期的程度對比十分懸殊——我的第一個RNN

知識蒸餾(Distillation)相關論文閱讀(1)——Distilling the Knowledge in a Neural Network(以及程式碼復現)

———————————————————————————————《Distilling the Knowledge in a Neural Network》Geoffrey Hintion以往為了提高模型表現所採取的方法是對同一個資料集訓練出多個模型,再對預測結果進行平均;但通

【小白筆記】目標跟蹤(Unveiling the Power of Deep Tracking)論文筆記

1.主要貢獻 這篇文章18年四月份掛在Arxiv上,現在中了ECCV18,是Martin作為3作的一篇文章,效能比ECO提升了一大截。下面就來說一下這篇文章吧,有不對的地方歡迎一起討論~ 貢獻1:該論文探究了深度特徵和手工特徵分別對目標跟蹤的影響,主要分析了

論文解析《Deep Convolutional Neural Network Features and the Original Image》

這一篇論文詳細分析了人臉識別中CNN網路提取到的features有一些什麼樣的性質,一般人臉識別中CNN出來後面接一個線性層用交叉熵來分類,這裡的features值得就是cnn出來的512或者128維的浮點陣列。文章首先用這個features作為輸入,使用LDA來分類,預測頭

論文閱讀】Accelerating the Super-Resolution Convolutional Neural Network

開發十年,就只剩下這套架構體系了! >>>   

Most efficient way to get the last element of a stream

val lang ted reduce class ret return imp pretty Do a reduction that simply returns the current value:Stream<T> stream; T last = str

maven 下載jar失敗: resolution will not be reattempted until the update interval of central has elapsed or updates are forced

emp 。。 epo except resp esp failure XML could Multiple annotations found at this line: - ArtifactTransferException: Failure to transfer

consider increasing the maximum size of the cache

inf unable text trap red ima 安裝 web-inf ffi 下午打了一個小盹,等醒來的時候,啟動Tomcat,Tomcat報了滿屏的警告。。。 [2017-06-20 07:53:20,948] Artifact cms:war explode

【MongoDB】The basic operation of Index in MongoDB

drop desc ould lar text and tracking num ack In the past four blogs, we attached importance to the index, including description and c

1069. The Black Hole of Numbers (20)【模擬】——PAT (Advanced Level) Practise

int exce 個人 esp ack ble sam namespace constant 題目信息 1069. The Black Hole of Numbers (20) 時間限制100 ms 內存限制65536 kB 代碼長度限制1600

The KEY Point of Coffee Lake Power on

coffee lake power-on me1, If the system can’t power up. a, please set PlatformImonDisable to 0x1 in xml file as following table b, check OEM Public Key Ha

More than the maximum number of request parameters

必須 導致 png deb .cn 好的 attr sina ram 前些時間,我們的的一個管理系統出現了點問題,原本運行的好好的功能,業務方突然講不行了,那個應用已經運行了好多年了,並且對應的代碼最近誰也沒改動過,好奇怪的問題,為了解決此問題,我們查看了日誌,發現請求的參