神經網路優化（二） - 滑動平均

阿新 • • 發佈：2018-11-03

1 滑動平均概述

滑動平均（也稱為影子值）：記錄了每一個引數一段時間內過往值的平均，增加了模型的泛化性。

滑動平均通常針對所有引數進行優化：W 和 b，

簡單地理解，滑動平均像是給引數加了一個影子，引數變化，影子緩慢追隨。

滑動平均的表示公式為

影子 = 衰減率 * 影子 + ( 1 - 衰減率 ) * 引數

或

滑動平均值 = 衰減率 * 滑動平均值 + ( 1 - 衰減率）* 引數

備註

影子初值 = 引數初值

衰減率 = min{ MOVING_AVERAGE_DECAY, (1+輪數) / (10 + 輪數 ) }

示例：

MOVING_AVERAGE_DECAY

為 0.99, 引數 w1 為 0，輪數 global_step 為 0，w1的滑動平均值為 0 。

引數w1更新為 1 時，則

 w1的滑動平均值 = min( 0.99, 1/10 ) * 0 + ( 1 - min( 0.99, 1/10 ) * 1 = 0.9

假設輪數 global_step 為 100 時，引數 w1 更新為 10 時，則

w1滑動平均值 = min(0.99, 101/110) * 0.9 + ( 1 - min( 0.99, 101/110) * 10 = 1.644

再次執行

w1滑動平均值 = min(0.99, 101/110) * 1.644 + ( 1 - min( 0.99, 101/110) * 10 = 2.328

再次執行

w1滑動平均值 = 2.956

2 滑動平均在Tensorflow中的表示方式

第一步例項化滑動平均類ema

ema = tf.train.ExponentialMovingAverage(
    MOVING_AVERAGE_DECAY(滑動平均衰減率),
    global_step(輪數計數器，表示當前輪數)
)

備註：

MOVING_AVERAGE_DECAY 滑動平均衰減率是超引數，一般設定的值比較大；

global_step - 輪數計數器，表示當前輪數，這個引數與其他計數器公用。

第二步求算滑動平均節點ema_op

ema_op = ema.apply([])

ema.apply([ ]) 函式表示對 [ ] 中的所有數值求滑動平均。

示例：

ema_op = ema.apply(tf.trainable_variables())

每當執行此程式碼時，會對所以待優化引數進行求滑動平均運算。

第三步具體實現方式

在工程應用中，我們通常會將計算滑動平均 ema_op 和訓練過程 train_step 繫結在一起執行，使其合成一個訓練節點，實現的程式碼如下

with tf.control_dependencies([ train_step, ema_op ]):
　　train_op = tf.no_op(name = 'train')

另外：

檢視某引數的滑動平均值

函式ema.average(引數名) ---> 返回 ’ 引數名 ’ 的滑動平均值，

3 示例程式碼

# 待優化引數w1，不斷更新w1引數，求w1的滑動平均(影子)

import tensorflow as tf

# 1. 定義變數及滑動平均類

# 定義一個32位浮點變數並賦初值為0.0，
w1 = tf.Variable(0, dtype=tf.float32)

# 輪數計數器，表示NN的迭代輪數，賦初始值為0，同時不可被優化（不引數訓練）
global_step = tf.Variable(0, trainable=False)

# 設定衰減率為0.99
MOVING_AVERAGE_DECAY = 0.99

# 例項化滑動平均類
ema = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)

# ema.apply()函式中的引數為待優化更新列表
# 每執行sess.run(ema_op)時，會對函式中的引數求算滑動平均值
# tf.trainable_variables()函式會自動將所有待訓練的引數彙總為待列表
# 因該段程式碼中僅有w1一個引數，ema_op = ema.apply([w1])與下段程式碼等價
ema_op = ema.apply(tf.trainable_variables())


# 2. 檢視不同迭代中變數取值的變化。
with tf.Session() as sess:
    # 初始化
    init_op = tf.global_variables_initializer()
    sess.run(init_op)

    # 用ema.average(w1)獲取w1滑動平均值 （要執行多個節點，作為列表中的元素列出，寫在sess.run中）
    # 打印出當前引數w1和w1滑動平均值
    print("current global_step:", sess.run(global_step))
    print("current w1", sess.run([w1, ema.average(w1)]))

    # 引數w1的值賦為1
    sess.run(tf.assign(w1, 1))
    sess.run(ema_op)
    print("current global_step:", sess.run(global_step))
    print("current w1", sess.run([w1, ema.average(w1)]))

    # 更新global_step和w1的值,模擬出輪數為100時，引數w1變為10, 以下程式碼global_step保持為100，每次執行滑動平均操作，影子值會更新 
    sess.run(tf.assign(global_step, 100))
    sess.run(tf.assign(w1, 10))
    sess.run(ema_op)
    print("current global_step:", sess.run(global_step))
    print("current w1:", sess.run([w1, ema.average(w1)]))

    # 每次sess.run會更新一次w1的滑動平均值
    sess.run(ema_op)
    print("current global_step:", sess.run(global_step))
    print("current w1:", sess.run([w1, ema.average(w1)]))

    sess.run(ema_op)
    print("current global_step:", sess.run(global_step))
    print("current w1:", sess.run([w1, ema.average(w1)]))

    sess.run(ema_op)
    print("current global_step:" , sess.run(global_step))
    print("current w1:", sess.run([w1, ema.average(w1)]))

    sess.run(ema_op)
    print("current global_step:" , sess.run(global_step))
    print("current w1:", sess.run([w1, ema.average(w1)]))

執行

current global_step: 0
current w1 [0.0, 0.0]
current global_step: 0
current w1 [1.0, 0.9]
current global_step: 100
current w1: [10.0, 1.6445453]
current global_step: 100
current w1: [10.0, 2.3281732]
current global_step: 100
current w1: [10.0, 2.955868]
current global_step: 100
current w1: [10.0, 3.532206]
current global_step: 100
current w1: [10.0, 4.061389]

神經網路優化（二） - 滑動平均

1 滑動平均概述滑動平均（也稱為影子值）：記錄了每一個引數一段時間內過往值的平均，增加了模型的泛化性。滑動平均通常針對所有引數進行優化：W 和 b，簡單地理解，滑動平均像是給引數加了一個影子，引數變化，影子緩慢追隨。滑動平均的表示公式為影子 = 衰減率 * 影子 + ( 1 - 衰減率

神經網路優化（二） - 搭建神經網路八股

為提高程式的可複用性，搭建模組化的神經網路八股 1 前向傳播前向傳播就是設計、搭建從輸入（引數 x ）到輸出（返回值為預測或分類結果 y ）的完整網路結構，實現前向傳播過程，一般將其放在 forward.py 檔案中前向傳播需要定義三個函式（實際上第一個函式是框架，第二、三個函式是賦初值過程）

誰擋了我的神經網路？（二）—— 優化演算法

誰擋了我的神經網路？（二）—— 優化演算法這一系列文章介紹了在神經網路的設計和訓練過程中，可能提升網路效果的一些小技巧。前文介紹了在訓練過程中的一系列經驗，這篇文章將重點關注其中的優化演算法部分。更新於2018.11.1。文章目錄誰擋了我的神經網路？（

iOS優化（二）滑動優化的一些經驗

原文優化緣由此次優化的契機是App內瀑布流頁面大資料量時進入/滑動異常卡頓,FPS 在7P上30-40,6P上10,5C上僅僅只有5。前期準備整合GDPerformanceView 以方便檢視FPS 優化過程 1.排除

迴圈神經網路系列（二）Tensorflow中dynamic_rnn

1.回顧上一篇博文(迴圈神經網路系列（一)Tensorflow中BasicRNNCell)中我們介紹了在Tensoflow中，每個RNN單元的實現，以及對應各個引數的含義。自那之後，我們就能通過Tensorflow實現一個單元的計算了。 import tensorflow as

經典神經網路學習（二）——Google net系列

Googe Inception Net首次出現在ILSVRC2014的比賽中(和VGGNet同年)，以較大的優勢獲得冠軍。那一屆的GoogleNet通常被稱為Inception V1，Inception V1的特點是控制了計算量的引數量的同時，獲得了非常好的效能-top5錯誤率6.67%, 這主要歸

神經網路優化演算法二（正則化、滑動平均模型）

1、神經網路進一步優化——過擬合與正則化過擬合，指的是當一個模型過為複雜後，它可以很好的“記憶”每一個訓練資料中隨機噪音的部分而忘了要去“學習”訓練資料中通用的趨勢。舉一個極端的例子，如果一個模型中的引數比訓練資料的總數還多，那麼只要訓練資料不衝突，這個模型完全可以記住所有訓練資料

神經網路優化（初始化權重）

使隱藏層飽和了, 跟之前我們說的輸出層飽和問題相似, 對於輸出層,我們用改進的cost函式,比如cross-entropy, 但是對

神經網路優化（overfitting 解決辦法）

1：增大訓練集 2：early-stoping（http://deeplearning.net/tutorial/gettingstarted.html#early-stopping） 3：Regul

mongodb3.4.4安裝副本集，wt引擎配置優化（二）

記錄空間今天大概研究下wiredtiger引擎，mongo從3.0開始引入，主要為了解決吃內存多，占用大量磁盤空間的問題，其實即使用了wt引擎，在性能上還是比tokuft要差，但是tokuft 在功能上代碼叠代的太慢，退而求其次大家還是用了mongo，首先3.0的時候默認還是mmapv1 引擎，所

二次方程優化（二）之 Quadratic Form

width png 討論 1-1 如果 blog mage .cn ont 我們這一次對二次型進行更深的討論討論多變量的正定型、負定型和半正定、半負定先給出結論：判斷有兩種方法： 1.強推特征值法：如果所有的特征值是正，則是正定型；全是負的就是負定型；全是非負，就是半

【VMCloud雲平臺進階篇】應用數據層面優化（二）

vmcloud在上一篇中我們講到準備SQL基礎環境改造，這一篇將繼續講述如何為應用提供高可用的底層數據層，以下是本次要進行實驗的拓撲（紅色為已完成搭建，藍色是本次文章涉及的區域）：1、上一篇我們搭建好了SQL底層，這一篇來講述如何創建一個AlwayOn可用組對外提供服務，設置兩個SQL節點的AlwayOn高

前端性能優化（二）：移動端瀏覽器前端優化策略

因此本地網絡流量桌面 cse kit 極致加載文件相對於桌面端瀏覽器，移動端Web瀏覽器上有一些較為明顯的特點：設備屏幕較小、新特性兼容性較好、支持一些較新的HTML5和CSS3特性、需要與Native應用交互等。但移動端瀏覽器可用的CPU計算資源和網絡資源極為

mysql監控優化（二）主從復制

如何程序延遲負載均衡 state 帶來客戶備份技術復制解決的基本問題是讓一臺服務器的數據和其他服務器保持同步。一臺主服務器的數據可以同步到多臺從服務器上。並且從服務器也可以被配置為另外一臺服務器的主庫。主庫和從庫之間可以有多種不同的組合方式。

django緩存優化（二）

圖片類型 world 重復 span tmp spa from cached 一、緩存目的：　　1、減小過載　　2、避免重復計算　　3、提高系統性能二、如何進行緩存　　三、緩存類型　　四、緩存粒度分類　　五、緩存的設置與使用　　示例一： CACHE

sql優化（二）---- 索引(一)

組合 name 索引 pre 語法時間 RoCE 搜索功能 jpg --- title: 不懂SQL優化？那你就OUT了(二) -- 索引(一) date: 2018-10-27 categories: 數據庫優化 --- 要想讓一個較慢的select ...

神經網絡優化（二） - 學習率

4.5 數據表 http 傳播 border ntop 2.3 1.9 圖片 1 學習率的基本定義學習率learning_rate：每次參數更新的幅度。簡單示例：假設損失函數 loss = ( w + 1 )2，則梯度為參數 w 初始化為 5 ，學習

網路管理（二）FTP檔案管理

1、ftp命令的作用是從FTP伺服器下載檔案或向FTP伺服器上傳檔案，以及在命令列互動模式中以批處理方式工作引數說明如下： -v：禁止顯示FTP伺服器響應。 /d：啟用除錯、顯示在FTP客戶端和FTP

python------Socket網路程式設計（二）粘包問題

一.socket網路程式設計粘包：服務端兩次傳送指令在一起，它會把兩次傳送內容合在一起傳送，稱為粘包，從而出現錯誤。解決方法：（比較low的方法）有些需要實時更新的，用sleep有延遲，不能這樣解決問題。解決方法之高階方法：客戶端：二.傳送檔案 ftp s

神經網絡優化（二） - 正則化

技術分享 alt 機器圖片一個 ont class span style ---恢復內容開始--- 在機器學習中，有時候我們基於一個數據集訓練的模型對該模型的正確率非常高，而該模型對沒有見過的數據集很難做出正確的響應；那麽這個模型就存在過擬合現象。為了緩解或避免過

神經網路優化（二） - 滑動平均

1 滑動平均概述

2 滑動平均在Tensorflow中的表示方式

3 示例程式碼

相關推薦