DL學習筆記【5】caffe引數調節-solver檔案

阿新 • • 發佈：2019-02-10

solver檔案：

# 定義網路結構的檔案
net: "deblurring_train_test.prototxt"
# test_iter 測試集向前傳遞多少次
# batch size * test_iter = 測試集圖片數
test_iter: 100
# 每100次迭代執行一次測試
test_interval: 100
# 基礎學習速率，動量，網路權重衰減
base_lr: 0.0000002
#momentum: 0.9
weight_decay: 0.0005
# 學習速率策略（如果loss降不下去，就改學習速率---------------或者也可能是資料出錯）
lr_policy: "inv"
gamma: 0.0001
power: 0.75
# 每100次迭代顯示一次
display: 100
# 最大迭代數量
max_iter: 10000
# 每1000次迭代儲存一次
snapshot: 1000

#儲存的.caffemodel和.solverstate檔名字的前半部分
snapshot_prefix: "deblurring"
# 模式CPU or GPU
solver_mode: GPU

以下內容轉自：http://www.cnblogs.com/denny402/p/5074049.html

--------------------------------------------------------------------------------------------------------------------------------------------------------

第一部分：

--------------------------------------------------------------------------------------------------------------------------------------------------------

solver算是caffe的核心的核心，它協調著整個模型的運作。caffe程式執行必帶的一個引數就是solver配置檔案。執行程式碼一般為

# caffe train --solver=*_slover.prototxt

在Deep Learning中，往往loss function是非凸的，沒有解析解，我們需要通過優化方法來求解。solver的主要作用就是交替呼叫前向（forward)演算法和後向（backward)演算法來更新引數，從而最小化loss，實際上就是一種迭代的優化演算法。

到目前的版本，caffe提供了六種優化演算法來求解最優引數，在solver配置檔案中，通過設定type型別來選擇。

Stochastic Gradient Descent (type: "SGD"),
AdaDelta (type: "AdaDelta"),
Adaptive Gradient (type: "AdaGrad"),
Adam (type: "Adam"),
Nesterov’s Accelerated Gradient (type: "Nesterov") and
RMSprop (type: "RMSProp")

具體的每種方法的介紹，請看文章後半部分，前半部分著重介紹solver配置檔案的編寫。

Solver的流程：

1. 設計好需要優化的物件，以及用於學習的訓練網路和用於評估的測試網路。（通過呼叫另外一個配置檔案prototxt來進行）

2. 通過forward和backward迭代的進行優化來跟新引數。

3. 定期的評價測試網路。（可設定多少次訓練後，進行一次測試）

4. 在優化過程中顯示模型和solver的狀態

在每一次的迭代過程中，solver做了這幾步工作：

1、呼叫forward演算法來計算最終的輸出值，以及對應的loss

2、呼叫backward演算法來計算每層的梯度

3、根據選用的slover方法，利用梯度進行引數更新

4、記錄並儲存每次迭代的學習率、快照，以及對應的狀態。

接下來，我們先來看一個例項：

net: "examples/mnist/lenet_train_test.prototxt"
test_iter: 100
test_interval: 500
base_lr: 0.01
momentum: 0.9
type: SGD
weight_decay: 0.0005
lr_policy: "inv"
gamma: 0.0001
power: 0.75
display: 100
max_iter: 20000
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet"
solver_mode: CPU

接下來，我們對每一行進行詳細解譯：

net: "examples/mnist/lenet_train_test.prototxt"

設定深度網路模型。每一個模型就是一個net，需要在一個專門的配置檔案中對net進行配置，每個net由許多的layer所組成。每一個layer的具體配置方式可參考本系列文文章中的（2）-（5）。注意的是：檔案的路徑要從caffe的根目錄開始，其它的所有配置都是這樣。

也可用train_net和test_net來對訓練模型和測試模型分別設定。例如：

train_net: "examples/hdf5_classification/logreg_auto_train.prototxt"
test_net: "examples/hdf5_classification/logreg_auto_test.prototxt"

接下來第二行：

test_iter: 100

這個要與test layer中的batch_size結合起來理解。mnist資料中測試樣本總數為10000，一次性執行全部資料效率很低，因此我們將測試資料分成幾個批次來執行，每個批次的數量就是batch_size。假設我們設定batch_size為100，則需要迭代100次才能將10000個數據全部執行完。因此test_iter設定為100。執行完一次全部資料，稱之為一個epoch

test_interval: 500

測試間隔。也就是每訓練500次，才進行一次測試。

base_lr: 0.01

lr_policy: "inv"

gamma: 0.0001

power: 0.75

這四行可以放在一起理解，用於學習率的設定。只要是梯度下降法來求解優化，都會有一個學習率，也叫步長。base_lr用於設定基礎學習率，在迭代的過程中，可以對基礎學習率進行調整。怎麼樣進行調整，就是調整的策略，由lr_policy來設定。

lr_policy可以設定為下面這些值，相應的學習率的計算為：

- - fixed:　　保持base_lr不變.
- - step: 　　如果設定為step,則還需要設定一個stepsize, 返回 base_lr * gamma ^ (floor(iter / stepsize)),其中iter表示當前的迭代次數
- - exp: 　　返回base_lr * gamma ^ iter， iter為當前迭代次數
- - inv:　　如果設定為inv,還需要設定一個power, 返回base_lr * (1 + gamma * iter) ^ (- power)
- - multistep: 如果設定為multistep,則還需要設定一個stepvalue。這個引數和step很相似，step是均勻等間隔變化，而multistep則是根據 stepvalue值變化
- - poly: 　　學習率進行多項式誤差, 返回 base_lr (1 - iter/max_iter) ^ (power)
- - sigmoid:　學習率進行sigmod衰減，返回 base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))

multistep示例：

base_lr: 0.01
momentum: 0.9
weight_decay: 0.0005
# The learning rate policy
lr_policy: "multistep"
gamma: 0.9
stepvalue: 5000
stepvalue: 7000
stepvalue: 8000
stepvalue: 9000
stepvalue: 9500

接下來的引數：

momentum ：0.9

上一次梯度更新的權重，具體可參看下一篇文章。

type: SGD

優化演算法選擇。這一行可以省掉，因為預設值就是SGD。總共有六種方法可選擇，在本文的開頭已介紹。

weight_decay: 0.0005

權重衰減項，防止過擬合的一個引數。

display: 100

每訓練100次，在螢幕上顯示一次。如果設定為0，則不顯示。

max_iter: 20000

最大迭代次數。這個數設定太小，會導致沒有收斂，精確度很低。設定太大，會導致震盪，浪費時間。

snapshot: 5000
snapshot_prefix: "examples/mnist/lenet"

快照。將訓練出來的model和solver狀態進行儲存，snapshot用於設定訓練多少次後進行儲存，預設為0，不儲存。snapshot_prefix設定儲存路徑。

還可以設定snapshot_diff，是否儲存梯度值，預設為false,不儲存。

也可以設定snapshot_format，儲存的型別。有兩種選擇：HDF5 和BINARYPROTO ，預設為BINARYPROTO

solver_mode: CPU

設定執行模式。預設為GPU,如果你沒有GPU,則需要改成CPU,否則會出錯。

注意：以上的所有引數都是可選引數，都有預設值。根據solver方法（type)的不同，還有一些其它的引數，在此不一一列舉。

--------------------------------------------------------------------------------------------------------------------------------------------------------

第二部分：

--------------------------------------------------------------------------------------------------------------------------------------------------------

上文提到，到目前為止，caffe總共提供了六種優化方法：

Stochastic Gradient Descent (type: "SGD"),
AdaDelta (type: "AdaDelta"),
Adaptive Gradient (type: "AdaGrad"),
Adam (type: "Adam"),
Nesterov’s Accelerated Gradient (type: "Nesterov") and
RMSprop (type: "RMSProp")

Solver就是用來使loss最小化的優化方法。對於一個數據集D，需要優化的目標函式是整個資料集中所有資料loss的平均值。

其中，f_W(x⁽ⁱ⁾)計算的是資料x⁽ⁱ⁾上的loss, 先將每個單獨的樣本x的loss求出來，然後求和，最後求均值。 r(W)是正則項（weight_decay)，為了減弱過擬合現象。

如果採用這種Loss 函式，迭代一次需要計算整個資料集，在資料集非常大的這情況下，這種方法的效率很低，這個也是我們熟知的梯度下降採用的方法。

在實際中，通過將整個資料集分成幾批（batches), 每一批就是一個mini-batch，其數量（batch_size)為N<<|D|，此時的loss 函式為：

有了loss函式後，就可以迭代的求解loss和梯度來優化這個問題。在神經網路中，用forward pass來求解loss，用backward pass來求解梯度。

在caffe中，預設採用的Stochastic Gradient Descent（SGD）進行優化求解。後面幾種方法也是基於梯度的優化方法（like SGD），因此本文只介紹一下SGD。其它的方法，有興趣的同學，可以去看文獻原文。

1、Stochastic gradient descent（SGD)

隨機梯度下降（Stochastic gradient descent）是在梯度下降法（gradient descent）的基礎上發展起來的，梯度下降法也叫最速下降法，具體原理在網易公開課《機器學習》中，吳恩達教授已經講解得非常詳細。SGD在通過負梯度和上一次的權重更新值V_t的線性組合來更新W，迭代公式如下：

其中，是負梯度的學習率(base_lr)，是上一次梯度值的權重（momentum），用來加權之前梯度方向對現在梯度下降方向的影響。這兩個引數需要通過tuning來得到最好的結果，一般是根據經驗設定的。如果你不知道如何設定這些引數，可以參考相關的論文。

在深度學習中使用SGD，比較好的初始化引數的策略是把學習率設為0.01左右（base_lr: 0.01)，在訓練的過程中，如果loss開始出現穩定水平時，對學習率乘以一個常數因子（gamma），這樣的過程重複多次。

對於momentum，一般取值在0.5--0.99之間。通常設為0.9，momentum可以讓使用SGD的深度學習方法更加穩定以及快速。

關於更多的momentum，請參看Hinton的《A Practical Guide to Training Restricted Boltzmann Machines》。

例項：

base_lr: 0.01 
lr_policy: "step"
gamma: 0.1   
stepsize: 1000  
max_iter: 3500 
momentum: 0.9

lr_policy設定為step,則學習率的變化規則為 base_lr * gamma ^ (floor(iter / stepsize))

即前1000次迭代，學習率為0.01; 第1001-2000次迭代，學習率為0.001; 第2001-3000次迭代，學習率為0.00001，第3001-3500次迭代，學習率為10^-5

上面的設定只能作為一種指導，它們不能保證在任何情況下都能得到最佳的結果，有時候這種方法甚至不work。如果學習的時候出現diverge（比如，你一開始就發現非常大或者NaN或者inf的loss值或者輸出），此時你需要降低base_lr的值（比如，0.001），然後重新訓練，這樣的過程重複幾次直到你找到可以work的base_lr。

2、AdaDelta

AdaDelta是一種”魯棒的學習率方法“，是基於梯度的優化方法（like SGD）。

具體的介紹文獻：

示例：

net: "examples/mnist/lenet_train_test.prototxt"
test_iter: 100
test_interval: 500
base_lr: 1.0
lr_policy: "fixed"
momentum: 0.95
weight_decay: 0.0005
display: 100
max_iter: 10000
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet_adadelta"
solver_mode: GPU
type: "AdaDelta"
delta: 1e-6

從最後兩行可看出，設定solver type為Adadelta時，需要設定delta的值。

3、AdaGrad

自適應梯度（adaptive gradient）是基於梯度的優化方法（like SGD）

具體的介紹文獻：

示例：

net: "examples/mnist/mnist_autoencoder.prototxt"
test_state: { stage: 'test-on-train' }
test_iter: 500
test_state: { stage: 'test-on-test' }
test_iter: 100
test_interval: 500
test_compute_loss: true
base_lr: 0.01
lr_policy: "fixed"
display: 100
max_iter: 65000
weight_decay: 0.0005
snapshot: 10000
snapshot_prefix: "examples/mnist/mnist_autoencoder_adagrad_train"
# solver mode: CPU or GPU
solver_mode: GPU
type: "AdaGrad"

4、Adam

是一種基於梯度的優化方法（like SGD）。

具體的介紹文獻：

D. Kingma, J. Ba. Adam: A Method for Stochastic Optimization. International Conference for Learning Representations, 2015.

5、NAG

Nesterov 的加速梯度法（Nesterov’s accelerated gradient）作為凸優化中最理想的方法，其收斂速度非常快。

具體的介紹文獻：

I. Sutskever, J. Martens, G. Dahl, and G. Hinton. On the Importance of Initialization and Momentum in Deep Learning. Proceedings of the 30th International Conference on Machine Learning, 2013.

示例：

net: "examples/mnist/mnist_autoencoder.prototxt"
test_state: { stage: 'test-on-train' }
test_iter: 500
test_state: { stage: 'test-on-test' }
test_iter: 100
test_interval: 500
test_compute_loss: true
base_lr: 0.01
lr_policy: "step"
gamma: 0.1
stepsize: 10000
display: 100
max_iter: 65000
weight_decay: 0.0005
snapshot: 10000
snapshot_prefix: "examples/mnist/mnist_autoencoder_nesterov_train"
momentum: 0.95
# solver mode: CPU or GPU
solver_mode: GPU
type: "Nesterov"

6、RMSprop

RMSprop是Tieleman在一次 Coursera課程演講中提出來的，也是一種基於梯度的優化方法（like SGD）

具體的介紹文獻：

示例：

net: "examples/mnist/lenet_train_test.prototxt"
test_iter: 100
test_interval: 500
base_lr: 1.0
lr_policy: "fixed"
momentum: 0.95
weight_decay: 0.0005
display: 100
max_iter: 10000
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet_adadelta"
solver_mode: GPU
type: "RMSProp"
rms_decay: 0.98

最後兩行，需要設定rms_decay值。

DL學習筆記【5】caffe引數調節-solver檔案

DL學習筆記【5】caffe引數調節-solver檔案

DL學習筆記【11】caffe引數調節-loss層

DL學習筆記【21】ubuntu16 使用經驗彙總 + torch7 + iTorch

DL學習筆記【22】增強學習（Reinforcement Learning）

DL學習筆記【18】nn包中的各位Criterions

【5】Caffe學習系列：其它常用層及引數

【caffe學習筆記之5】Win10系統下Caffe的Python介面設定方法並繪製網路結構圖

【5】caffe的python介面學習：訓練模型（training)

【caffe學習筆記之7】caffe-matlab/python訓練LeNet模型並應用於mnist資料集（2）

TDD學習筆記【六】一Unit Test - Stub, Mock, Fake 簡介

Docker學習筆記【三】安裝Redis

system generator學習筆記【01】

響應式布局學習筆記【1】----基礎知識

Grunt學習筆記【3】---- filter詳解

Tomcat學習筆記【1】--- WEB服務器、JavaEE、Tomcat背景

Python學習筆記【Supervisor】：使用Supervisor監控Tornado程序

Python學習筆記【Nginx】：Nginx使用與完全解除安裝

資料分析---《Python for Data Analysis》學習筆記【01】

資料分析---《Python for Data Analysis》學習筆記【02】

OpenCV學習筆記【七】方框濾波、均值濾波、高斯濾波

DL學習筆記【5】caffe引數調節-solver檔案

相關推薦