1. 程式人生 > >深度學習基礎--從傅立葉分析角度解讀深度學習的泛化能力

深度學習基礎--從傅立葉分析角度解讀深度學習的泛化能力

從傅立葉分析角度解讀深度學習的泛化能力

  從論文《Training behavior of deep neural network in frequency domain》中可以得到以下結論:
  頻率原則可以粗糙地表述成:DNN 在擬合目標函式的過程中,有從低頻到高頻的先後順序。
  DNN 從目標函式的低頻成分開始學習。當它學到訓練資料的最高頻率的時候,此時頻率空間誤差趨近於零。因為頻率空間的誤差等於實域空間的誤差,所以它的學習也基本停止了。這樣深度學習學到的函式的最高頻率能夠被訓練資料給限制住。對於小的初始化,啟用函式的光滑性很高,高頻成分衰減很快,從而使學習到的函式有更好的泛化能力。

  對於低頻佔優的目標函式,小幅度的高頻成分很容易受到噪音的影響。基於頻率原則,提前停止訓練(early-stopping)就能在實踐中提高 DNN 的泛化能力。

  從低頻到高頻的學習原則並不總是對的。因為這個優先順序不只是由頻率決定,它也依賴於擬合函式與目標函式的差的幅度。

其他理解

  在做實驗時也發現類似現象得出相似觀點結論。
  在做mlp(2層)分類cifar10實驗時,在訓練過程中同時將mlp學習到的權重視覺化顯示,其第一層權重視覺化後是通過資料機集學習的模板,這些模板在訓練開始時只是粗略的低頻的形狀,而且平滑噪聲較小,隨著訓練過程的繼續,這些模板開始具體,有的像汽車、狗、馬等,很模糊,高頻噪聲也比較小,當後面過擬合時則模板上出現很嚴重的噪聲。
  當對權重加強規則化後,與原來相比模板變模糊,但是高頻噪聲也減弱不少。
  我還得出一個結論,卷積網路比全連線效能好的原因是卷積核學習到了資料的區域性高頻資訊,而全連線訓練到最後高頻資訊是全域性的不具有泛化性造成模板出現全域性噪聲,而卷積神經網路則將這些高頻資訊學習到了尺度較小的卷積核上。