Batch Size設定過大時，對神經網路效能的影響情況

阿新 • • 發佈：2018-11-03

之前的一片博文寫了Batch Size的作用和應該如何設定比較合適，同時還有Batch Size大小，與學習率 $lr$ 、訓練次數 $e p o c h$

o c h $epoch$ 之間的關係。裡面提及Batch Size越大，梯度的方向越準確。

上述的說法是沒錯的，梯度方向準確，最後網路收斂情況好，但是收斂情況好並不意味網路的效能就好，網路收斂好意味著對訓練資料作出了較好的擬合，但是並不意味著就會對測試資料作出很好的擬合。這存在的一個“泛化”的問題。

ON LARGE-BATCH TRAINING FOR DEEP LEARNING：GENERALIZATION GAP AND SHARP MINIMA 論文發現了使用large-batch訓練得到的網路具有較差的泛化能力。使用large-batch的情況下容易收斂成“sharp minimizers”，使其的泛化能力差。而相對使用“small-batch”訓練的最終會收斂到“flat minimizers”，這是因為在“small-batch”中在梯度計算中固有噪聲的存在，使得網路的最終收斂成“flat minimizers”
論文中提及了使用“large-batch”造成泛化能力差的原因可能是網路直接收斂到初始值附近。同時，論文嘗試提出幾種方法，如資料增強，“conservative training”和“robust optimization”，但好像也沒什麼效果。另一種補救方法包括使用動態抽樣，在這種情況下，隨著迭代的進行，批大小逐漸增大。

Batch Size設定過大時，對神經網路效能的影響情況

Batch Size設定過大時，對神經網路效能的影響情況

GDALWarp設定GDALWarpOptions::dfWarpMemoryLimit過大時處理失敗

datatable 在渲染表格時，對單元格進行單獨設定樣式

oracle連線數設定過大，導致oracle啟動不了

table中td標籤中內容過長時，設定td長度固定的方法

TextBlock 重寫，當文本過長時，自動截斷文本並出現Tooltip

求較大整數n的階乘，因為n較大時，n的階乘超出了正常類型的表示範圍，可以采用數組進行操作（c實現）

斯坦福大學公開課機器學習：machine learning system design | data for machine learning（數據量很大時，學習算法表現比較好的原理）

快速冪取模(當數很大時，相乘long long也會超出的解決辦法)

圖片過大時前端如何優化載入

使用attr()設定checked屬性時，第二次不起作用

IE8中的input設定為disabled時，字型顏色設定問題

使用SSM 或者 springboot +mybatis時，對資料庫的認證資訊（使用者名稱，密碼）進行加密。

Excel表格太大時，怎麼列印到同一頁？這樣做三秒鐘搞定！

處理資料時，對資料取對數的意義

知識點：mysql查詢資料時，對欄位做加、減、乘、除，null的四則運算為null

margin與padding值設定為百分數時，其值的計算參照最近父級元素width

batch size設定技巧

input輸入框設定type=number時，去掉後面的上下按鈕

Css中控制當滑鼠滑過元素時，顯示它裡面的元素

Batch Size設定過大時，對神經網路效能的影響情況

相關推薦