1. 程式人生 > >深度學習網路訓練不收斂問題

深度學習網路訓練不收斂問題

不收斂描述及可能原因分析

不收斂情景1

  • 描述
    從訓練開始就一直震盪或者發散
  • 可能原因
    • 圖片質量極差,人眼幾乎無法識別其中想要識別的特徵,對於網路來說相當於輸入的一直都是噪音資料,比如通過resize的時候,圖片的長寬比改變特別大,使圖片喪失對應特徵;或者tfrecord中圖片大小是(m,n),但是讀取的時候,按照(n,m)讀取。所以loss一直震盪無法收斂
    • 大部分標籤都是對應錯誤的標籤
    • leaning rate 設定過大

不收斂情景2

  • 描述
    訓練開始會有所下降,然後出現發散
  • 可能原因
    • 資料標籤中有錯誤,甚至所有標籤都有一定的錯誤,比如生成的標籤檔案格式和讀取標籤時設定的檔案格式不一樣,導致讀取的標籤是亂碼;或者為標籤中存在的空格未分配對應的編碼,導致讀取的空格為亂碼(在OCR問題中)
    • learning rate 設定過大

不收斂情景3

  • 描述
    訓練開始會有所下降,然後出現震盪
  • 可能原因
    • loss函式中正則化係數設定有問題,或者loss函式本身有問題。比如,在序列化問題中的label_smoothing設定過大,比如設定為0.9,一般設定為0.1即可(OCR問題中)
    • 資料標籤中有錯誤,甚至所有標籤都有一定的錯誤