深度學習（十）訓練時的調參技巧

阿新 • • 發佈：2018-08-20

檢查 learning 結果需要 html gradient 過擬合 iba left

訓練過程中需要適時的調整參數，以獲得比較好的模型，下面介紹幾種調參方式：

參數初始化
- 初始化參數對結果的影響至關重要，要引起重視
- Xavier

　　　　　　權重初始化太大容易發散，初始化太小容易彌散而不收斂，Xavier是讓權重均值為0，方差為2/in+out，可以初始化的不大不小

- 在深度網絡中，隨機初始化權重，使用SGD的話一般處理的都不好，這是因為初始化的權重太小了。
優化器的選擇
- 用Adam或者AdamGrad代替SGD，可以設置較小的初始值實現自動調參數

learningRate調整
- 從一個正常大小的學習率（LR）開始，朝著終點不斷縮小
- 如果大的LR容易使Loss爆掉，可以嘗試先使用一個小LR保證不爆, 等loss降下來了, 再慢慢升LR, 之後當然還會慢慢再降LR
mini batch
- 一般選擇128，過大的minibatch容易出現過擬合，後面會介紹一下對於大batch size的訓練問題

梯度檢查
- 自己手動寫的backward容易出現bug，可以做gradient check檢查是否有錯誤
fine tune
- 所謂fine tune就是用別人訓練好的模型，加上我們自己的數據來訓練新的模型。fine tune相當於使用別人的模型的前幾層，來提取淺層特征，然後在最後再落入我們自己的分類中。

具體例子可以參考：http://www.cnblogs.com/xuanyuyt/p/6062204.html

深度學習（十）訓練時的調參技巧

檢查 learning 結果需要 html gradient 過擬合 iba left 訓練過程中需要適時的調整參數，以獲得比較好的模型，下面介紹幾種調參方式：參數初始化初始化參數對結果的影響至關重要，要引起重視 Xavier 　　　　　　權重初始化太大容易

機器學習與深度學習系列連載：第二部分深度學習（十）卷積神經網路 1 Convolutional Neural Networks

卷積神經網路 Convolutional Neural Networks 卷積神經網路其實早在80年代，就被神經網路泰斗Lecun 提出[LeNet-5, LeCun 1980]，但是由於當時的資料量、計算力等問題，沒有得到廣泛使用。卷積神經網路的靈感來自50年代的諾貝爾生物學獎

深度學習（十）keras學習筆記

作者：hjimce keras與torch7的使用非常相似，是最近才火起來的深度學習開源庫，底層是用了theano。keras可以說是python版的torch7，對於快速構建CNN模型非常方便。同時也包含了一些最新文獻的演算法，比如Batch Noramlize，文件

深度學習（十）——花式卷積(2)

花式卷積 depthwise separable convolution（續）它包含一個深度方面的卷積（一個為每個通道單獨執行的空間卷積，depthwise convolution），後面跟著一個逐點的卷積（一個跨通道的1×1卷積，pointwis

深度學習（十二）wide&deep model

結合稀疏正則化深度學習 img div 網絡傳遞討論推薦系統在電商等平臺使用廣泛，這裏討論wide&deep推薦模型，初始是由google推出的，主要用於app的推薦。概念理解 Wide & Deep模型，旨在使得訓練得到的模型能夠同時獲得

深度學習（十一）RNN入門學習

RNN入門學習原文地址：http://blog.csdn.net/hjimce/article/details/49095371 作者：hjimce 一、相關理論 RNN(Recurrent Neural Networks)中文名又稱之為：迴圈神經網路（原來還有一個遞迴神經網路

深度學習（十九）基於空間金字塔池化的卷積神經網路物體檢測

原文地址：http://blog.csdn.net/hjimce/article/details/50187655 作者：hjimce 一、相關理論本篇博文主要講解大神何凱明2014年的paper：《Spatial Pyramid Pooling in Dee

機器學習與深度學習系列連載：第二部分深度學習（十六）迴圈神經網路 4（BiDirectional RNN， Highway network， Grid-LSTM）

深度學習（十六）迴圈神經網路 4（BiDirectional RNN， Highway network， Grid-LSTM） RNN處理時間序列資料的時候，不僅可以正序，也可以正序+逆序（雙向）。下面顯示的RNN模型，不僅僅是simple RNN，可以是LSTM，或者GRU 1 B

機器學習與深度學習系列連載：第二部分深度學習（十五）迴圈神經網路 3（Gated RNN - GRU）

迴圈神經網路 3（Gated RNN - GRU） LSTM 是1997年就提出來的模型，為了簡化LSTM的複雜度，在2014年 Cho et al. 提出了 Gated Recurrent Units (GRU)。接下來，我們在LSTM的基礎上，介紹一下GRU。主要思路是： •

機器學習與深度學習系列連載：第二部分深度學習（十四）迴圈神經網路 2（Gated RNN - LSTM ）

迴圈神經網路 2（Gated RNN - LSTM ） simple RNN 具有梯度消失或者梯度爆炸的特點，所以，在實際應用中，帶有門限的RNN模型變種（Gated RNN）起著至關重要的作用，下面我們來進行介紹： LSTM (Long Short-term Memory )

機器學習與深度學習系列連載：第二部分深度學習（十二）卷積神經網路 3 經典的模型（LeNet-5，AlexNet ，VGGNet，GoogLeNet，ResNet）

卷積神經網路 3 經典的模型經典的卷積神經網路模型是我們學習CNN的利器，不光是學習原理、架構、而且經典模型的超引數、引數，都是我們做遷移學習最好的源材料之一。 1. LeNet-5 [LeCun et al., 1998] 我們還是從CNN之父，LeCun大神在98年提出的模

機器學習與深度學習系列連載：第二部分深度學習（十一）卷積神經網路 2 Why CNN for Image？

卷積神經網路 2 Why CNN 為什麼處理圖片要用CNN？原因是：一個神經元無法看到整張圖片能夠聯絡到小的區域，並且引數更少圖片壓縮畫素不改變圖片內容 1. CNN 的特點卷積：一些卷積核遠遠小於圖片大小；同樣的pat

深度學習（十七）

1、在殘差網路中利用1*1進行降維，即設計一個瓶頸層來使得網路更深可能不是一個好主意，網路的通道更多即網路更寬一些在實驗中可能更能利用GPU的運算資源。 2、一個訓練的技巧，當使用較小的學習率時使用較大的動量，使用較大的學習率時使用較小的動量，兩者的關係如圖所示： 3、如果損失函式的表

深度學習（十六）

1、學習率改變的新方法：剛開始陡升，後來慢慢下降；其中32是最大的學習率與最小的學習率之比，10代表第一個epoch升高，後面九個epoch緩緩下降 2、Concat pooling：即將啟用值，啟用值的平均池化，啟用值的最大池化連線在一起 3、注意力機制其實就是對不同的狀態進行加權

深度學習（十一）

寫在前面的話：此部分是關於fastai的學習部分 1、學習率的調整是訓練模型的一個重要的方面，可以設定隨迭代次數增長的學習率，畫出影象，再畫出學習率與損失函式的關係，通過損失函式確定合適的學習率，如下圖：需要注意的是，一般不將學習率設定到損失函式的最低點，而是要比那個學習率稍小

非監督特徵學習與深度學習（十五）--------長短記憶（Long Short Term Memory，LSTM）

LSTM LSTM概述長短記憶(Long Short Term Memory,LSTM)是一種 RNN 特殊的型別，可以學習長期依賴資訊,它引入了自迴圈的巧妙構思，以產生梯度長時間持續流動的路徑，解決RNN梯度消失或爆炸的問題。在手寫識別、

深度學習（十五）基於DCNN的人臉特徵點定位-CVPR 2013

基於DCNN的人臉特徵點定位作者：hjimce 一、相關理論本篇博文主要講解2013年CVPR的一篇利用深度學習做人臉特徵點定位的經典paper：《Deep Convolutional Network Cascade for Facial Point Detec

機器學習與深度學習系列連載：第二部分深度學習（十四）迴圈神經網路 2（Gated RNN

迴圈神經網路 2（Gated RNN - LSTM ） simple RNN 具有梯度消失或者梯度爆炸的特點，所以，在實際應用中，帶有門限的RNN模型變種（Gated RNN）起著至關重要的作用，下面我們來進行介紹： LSTM (Long Short-term

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第十課神經機器翻譯（neural machine translation）與attention模型

本課概要 1、機器翻譯（MT） 2、帶attention的序列模型 3、序列模型解碼器（decoder）一、機器翻譯（MT）機器翻譯是一個十分經典的語言理解的測試，涉及語言分析（language analysis）與語言生成（language generat

深度學習（十五）基於級聯卷積神經網路的人臉特徵點定位

基於級聯卷積神經網路的人臉特徵點定位作者：hjimce一、相關理論本篇博文主要講解2013年CVPR的一篇利用深度學習做人臉特徵點定位的經典paper：《Deep Convolutional Netwo

深度學習（十）訓練時的調參技巧

相關推薦