神經網路訓練loss不下降原因集合

阿新 • • 發佈：2019-01-19

train loss與test loss結果分析

train loss 不斷下降，test loss不斷下降，說明網路仍在學習;
train loss 不斷下降，test loss趨於不變，說明網路過擬合;
train loss 趨於不變，test loss不斷下降，說明資料集100%有問題;
train loss 趨於不變，test loss趨於不變，說明學習遇到瓶頸，需要減小學習率或批量數目;
train loss 不斷上升，test loss不斷上升，說明網路結構設計不當，訓練超引數設定不當，資料集經過清洗等問題。

例項

這段在使用caffe的時候遇到了兩個問題都是在訓練的過程中loss基本保持常數值，特此記錄一下。

1.loss等於87.33不變

loss等於87.33這個問題是在對Inception-V3網路不管是fine-tuning還是train的時候遇到的，無論網路迭代多少次，網路的loss一直保持恆定。
查閱相關資料以後發現是由於loss的最大值由FLT_MIN計算得到，FLT_MIN是1.17549435e−38F1.17549435e−38F其對應的自然對數正好是-87.3356，這也就對應上了loss保持87.3356了。
這說明softmax在計算的過程中得到了概率值出現了零，由於softmax是用指數函式計算的，指數函式的值都是大於0的，所以應該是計算過程中出現了float溢位的異常，也就是出現了inf，nan等異常值導致softmax輸出為0.
當softmax之前的feature值過大時，由於softmax先求指數，會超出float的資料範圍，成為inf。inf與其他任何數值的和都是inf，softmax在做除法時任何正常範圍的數值除以inf都會變成0.然後求loss就出現了87.3356的情況。
解決辦法

由於softmax輸入的feature由兩部分計算得到：一部分是輸入資料，另一部分是各層的權值等組成
減小初始化權重，以使得softmax的輸入feature處於一個比較小的範圍
降低學習率，這樣可以減小權重的波動範圍
如果有BN(batch normalization)層，finetune時最好不要凍結BN的引數，否則資料分佈不一致時很容易使輸出值變得很大(注意將batch_norm_param中的use_global_stats設定為false )。
觀察資料中是否有異常樣本或異常label導致資料讀取異常
本文遇到的情況採用降低學習率的方法，learning rate設定為0.01或者原來loss的1/5或者1/10。

2.loss保持0.69左右

採用VGG-16在做一個二分類問題,所以計算loss時等價與下面的公式：

loss=−log(Pk==label)” role=”presentation”>loss=−log(Pk==label)loss=−log(Pk==label)
loss=−log(Pk==label)loss=−log(Pk==label)
當p=0.5時，loss正好為0.693147，也就是訓練過程中，無論如何調節網路都不收斂。最初的網路配置檔案卷積層的引數如下所示：
這裡寫圖片描述

從VGG-16訓練好的模型進行fine-tuning也不發生改變，當在網路中加入初始化引數和decay_mult以後再次訓練網路開始收斂。
這裡寫圖片描述

但是具體是什麼原因造成的，暫時還沒有找到，難道是初始化引數的問題還是？

總結

loss一直不下降的原因有很多，可以從頭到尾濾一遍： 1）資料的輸入是否正常，data和label是否一致。 2）網路架構的選擇，一般是越深越好，也分資料集。並且用不用在大資料集上pre-train的引數也很重要的 3）loss 公式對不對。

神經網路訓練loss不下降原因集合

train loss與test loss結果分析

例項

1.loss等於87.33不變

2.loss保持0.69左右

總結

相關部落格推薦

神經網路訓練loss不下降原因集合

訓練loss不下降原因集合

為什麼使用神經網路訓練得到的語言模型不需要做資料平滑

神經網路訓練中,傻傻分不清Epoch、Batch Size和迭代

caffe訓練CNN時，loss不收斂原因分析

斯坦福cs231n學習筆記（11）------神經網路訓練細節（梯度下降演算法大總結/SGD/Momentum/AdaGrad/RMSProp/Adam/牛頓法）

神經網路訓練中的訓練集、驗證集以及測試集合

神經網路訓練時，出現NaN loss

Loss和神經網路訓練

TensorFlow官方文件樣例——三層卷積神經網路訓練MNIST資料

#####好好好好####Keras深度神經網路訓練分類模型的四種方法

【opencv3--ANN神經網路訓練識別OCR資料集】

Tensorpack，一個基於TensorFlow的神經網路訓練介面，原始碼包含很多示例

深度學習神經網路訓練調參技巧

TensorFlow遊樂園介紹及其神經網路訓練過程

神經網路學習——入門(不定時更新)

神經網路訓練中Epoch、batch_size、iterator的關係

將神經網路訓練成一個“放大鏡”

為什麼在神經網路裡面使用梯度下降法對模型的權值矩陣進行調整

BP神經網路——訓練一個加法運算

神經網路訓練loss不下降原因集合

train loss與test loss結果分析

例項

1.loss等於87.33不變

2.loss保持0.69左右

總結

相關部落格推薦

相關推薦