深度學習訓練的常用名詞
阿新 • • 發佈:2018-12-16
本文節選自CVer《深度學習速查詞典》中的一部分內容,並補充一些常見名詞。
batch size
一次前向或反向傳播時樣本的數目,該引數受限於記憶體的大小。
iteration
樣本傳播的次數,每次傳播的樣本數為batch大小,注:一次樣本的傳播包括前向和反向傳播。
epoch
所有訓練樣本的傳播次數。例如,有1000個樣本,若batch size=500,則iteration=2時完成一次epoch。
用於調節權重衰減的超引數,公式:new_weight = existing_weight — learning_rate * gradient,即梯度下降法中使用的引數。
1. momentum(動量)
用於平滑隨機梯度下降法的振盪。
SGD without momentum | SGD with momentum |
2. Adam(Adaptive Moment Estimation)
用於計算引數自適應學習率的方法,效果一般優於其他自適應學習演算法。
網路層引數
[convolutional] #卷積層 batch_normalize=1 #批歸一化引數 filters=32 #卷積核的數量 size=3 #卷積核的大小 stride=1 #卷積步長 pad=1 #卷積時填充畫素數 activation=leaky #網路的啟用函式(非線性的主要根源) [maxpool] #池化層:最大化池化 size=2 #池化核大小 stride=2 #池化步長
Dropout
是一種在深度神經網路中隨機消除節點及其連線的正則化技術。它可以防止模型過擬合,同時加快深度神經網路的訓練速度。
參考文獻: