tensorflow(3):神經網絡優化(ema,regularization)

阿新 • • 發佈：2018-05-01

show mgr 數據集 width mst bat ace tac nor

1.指數滑動平均 (ema)

技術分享圖片

描述滑動平均:

技術分享圖片

with tf.control_dependencies([train_step,ema_op]) 將計算滑動平均與訓練過程綁在一起運行

train_op=tf.no_op(name=‘train‘) 使它們合成一個訓練節點

#定義變量一級滑動平均類
#定義一個32位浮點變量,初始值為0.0, 這個代碼就是在不斷更新w1參數,優化 w1,滑動平均做了一個w1的影子
w1=tf.Variable(0,dtype=tf.float32)
#定義num_updates(NN 的叠代次數)初始值為0, global_step不可被優化(訓練) 這個額參數不訓練 

global_step=tf.Variable(0,trainable=False)
#設置衰減率0.99 當前輪數global_step
MOVING_AVERAGE_DECAY=0.99
ema=tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY,global_step)
#ema.apply後面的括號是更新列表,每次運行sess.run(ema_op)時,對更新列表中的元素求滑動平均值,
#在實際應用中會使用tf.trainable_variable()自動將所有待訓練的參數匯總為列表
#ema_op=ema.apply([w1])
ema_op=ema.apply(tf.trainable_variables())

 
#查看不同叠代中變量的取值變化
with tf.Session() as sess:
    init_op=tf.global_variables_initializer()
    sess.run(init_op)
    #ema_op=ema.apply([w1])獲取w1 的滑動平均值,
    print(sess.run([w1,ema.average(w1)])) #打印當前參數w1和w1 的滑動平均值 (0,0)
    sess.run(tf.assign(w1,1))
    sess.run(ema_op)
    print(sess.run([w1,ema.average(w1)])) #(1,0.9)
     
#跟新step w1的值,模擬出100輪叠代後,參數w1 變為10
    sess.run(tf.assign(global_step,100))
    sess.run(tf.assign(w1,10))
    sess.run(ema_op)
    print(sess.run([w1,ema.average(w1)])) #(10,1.644)
    
    #每次sess.run會更新一次w1的滑動平均值
    sess.run(ema_op)
    print(sess.run([w1,ema.average(w1)]))
    sess.run(ema_op)
    print(sess.run([w1,ema.average(w1)]))
    sess.run(ema_op)
    print(sess.run([w1,ema.average(w1)]))
    sess.run(ema_op)
    print(sess.run([w1,ema.average(w1)]))
    sess.run(ema_op)
    print(sess.run([w1,ema.average(w1)]))

結果:

[0.0, 0.0]
[1.0, 0.9]
[10.0, 1.6445453]
[10.0, 2.3281732]
[10.0, 2.955868]
[10.0, 3.532206]
[10.0, 4.061389]
[10.0, 4.547275]

w1的移動平均會越來越趨近於w1 ...

2.正則化regularization

有時候模型對訓練集的正確率很高, 卻對新數據很難做出正確的相應, 這個叫過擬合現象.

技術分享圖片

加入噪聲後,loss變成了兩個部分,前者是以前講過的普通loss,

後者的loss(w)有兩種求法,分別稱為L1正則化與 L2正則化

以下舉例說明:

技術分享圖片

代碼:

atch_size=30
#建立數據集
seed=2
rdm=np.random.RandomState(seed)
X=rdm.randn(300,2)
Y_=[int(x0*x0+x1*x1<2) for (x0,x1) in X]
Y_c=[[‘red‘ if y else ‘blue‘] for y in Y_] #1則紅色,0則藍色
X=np.vstack(X).reshape(-1,2) #整理為n行2列,按行的順序來
Y_=np.vstack(Y_).reshape(-1,1)# 整理為n行1列
#print(X)
#print(Y_)
#print(Y_c)
plt.scatter(X[:,0],X[:,1],c=np.squeeze(Y_c))#np.squeeze(Y_c)變成一個list
plt.show()
#print(np.squeeze(Y_c))

#定義神經網絡的輸入 輸出 參數, 定義前向傳播過程
def get_weight(shape,regularizer): #w的shape 和w的權重
    w=tf.Variable(tf.random_normal(shape),dtype=tf.float32)
    tf.add_to_collection(‘losses‘,tf.contrib.layers.l2_regularizer(regularizer)(w))
    return w

def get_bias(shape): #b的長度
    b=tf.Variable(tf.constant(0.01,shape=shape))
    return b
#
x=tf.placeholder(tf.float32,shape=(None,2))
y_=tf.placeholder(tf.float32,shape=(None,1))
w1=get_weight([2,11],0.01)
b1=get_bias([11])
y1=tf.nn.relu(tf.matmul(x,w1)+b1) #relu 激活函數

w2=get_weight([11,1],0.01)
b2=get_bias([1])
y=tf.matmul(y1,w2)+b2  #輸出層不過激活函數

#定義損失函數loss
loss_mse=tf.reduce_mean(tf.square(y-y_))
loss_total=loss_mse+tf.add_n(tf.get_collection(‘losses‘))

#定義反向傳播方法, 不含正則化, 要是使用正則化,則 為loss_total
train_step=tf.train.AdamOptimizer(0.0001).minimize(loss_mse)
with tf.Session() as sess:
    init_op=tf.global_variables_initializer()
    sess.run(init_op)
    steps=40000
    for i in range(steps):
        start=(i*batch_size)%300
        end=start+batch_size
        sess.run(train_step,feed_dict={x:X[start:end],y_:Y_[start:end]})
        if i%10000==0:
            loss_mse_v=sess.run(loss_mse,feed_dict={x:X,y_:Y_})
            print(‘after %d steps,loss is:%f‘%(i,loss_mse_v))
    xx,yy=np.mgrid[-3:3:0.01,-3:3:0.01]
    grid=np.c_[xx.ravel(),yy.ravel()]
    probs=sess.run(y,feed_dict={x:grid})
    probs=probs.reshape(xx.shape) #調整成xx的樣子
    print(‘w1:\n‘,sess.run(w1))
    print(‘b1:\n‘,sess.run(b1))
    print(‘w2:\n‘,sess.run(w2))
    print(‘b2:\n‘,sess.run(b2))
plt.scatter(X[:,0],X[:,1],c=np.squeeze(Y_c))
plt.contour(xx,yy,probs,levels=[.5]) #給probs=0.5的值上色 (顯示分界線)
plt.show()

#使用個正則化
train_step=tf.train.AdamOptimizer(0.0001).minimize(loss_total)
with tf.Session() as sess:
    init_op=tf.global_variables_initializer()
    sess.run(init_op)
    steps=40000
    for i in range(steps):
        start=(i*batch_size)%300
        end=start+batch_size
        sess.run(train_step,feed_dict={x:X[start:end],y_:Y_[start:end]})
        if i%10000==0:
            loss_v=sess.run(loss_total,feed_dict={x:X,y_:Y_})
            print(‘after %d steps,loss is:%f‘%(i,loss_v))
    xx,yy=np.mgrid[-3:3:0.01,-3:3:0.01]
    grid=np.c_[xx.ravel(),yy.ravel()]
    probs=sess.run(y,feed_dict={x:grid})
    probs=probs.reshape(xx.shape) #調整成xx的樣子
    print(‘w1:\n‘,sess.run(w1))
    print(‘b1:\n‘,sess.run(b1))
    print(‘w2:\n‘,sess.run(w2))
    print(‘b2:\n‘,sess.run(b2))
plt.scatter(X[:,0],X[:,1],c=np.squeeze(Y_c))
plt.contour(xx,yy,probs,levels=[.5]) #給probs=0.5的值上色
plt.show()

結果顯示:

技術分享圖片

顯然經過正則化,分割線更加平滑,數據集中的噪聲對模型的影響更小,

tensorflow(3):神經網絡優化(ema,regularization)

show mgr 數據集 width mst bat ace tac nor 1.指數滑動平均 (ema) 描述滑動平均: with tf.control_dependencies([train_step,ema_op]) 將計算滑動平均與訓練過程綁在一起運行

tensorflow(2):神經網絡優化(loss,learning_rate)

min pre 影響動態 star val 交叉 SQ rt+ 案例: 預測酸奶的日銷量, 由此可以準備產量, 使得損失小(利潤大),假設銷量是y , 影響銷量的有兩個因素x1, x2, 需要預先采集數據,每日的x1,x2和銷量y_, 擬造數據集X,Y_, 假設y_=x1

TensorFlow筆記-06-神經網絡優化-損失函數,自定義損失函數,交叉熵

dev rand() 所有體積 sum 說明 where max ntop TensorFlow筆記-06-神經網絡優化-損失函數,自定義損失函數,交叉熵神經元模型：用數學公式比表示為：f(Σi xi*wi + b), f為激活函數神經網絡是以神經元為基本單位構成

利用Tensorflow實現神經網絡模型

flow one 什麽 hold test ase tensor dom def 首先看一下神經網絡模型，一個比較簡單的兩層神經。代碼如下： # 定義參數 n_hidden_1 = 256 #第一層神經元 n_hidden_2 = 128 #第

tensorflow 實現神經網絡

參考 plus efi 節點 on() imp this range ros import tensorflow as tf import numpy as np # 添加層 def add_layer(inputs, in_size, out_size, activa

tensorflow搭建神經網絡基本流程

== training improve 方式 axis .sh pri tput size 定義添加神經層的函數 1.訓練的數據2.定義節點準備接收數據3.定義神經層：隱藏層和預測層4.定義 loss 表達式5.選擇 optimizer 使 loss 達到最小然後對所

Tensorflow中神經網絡的激活函數

and ftp panda frame item plt index line 圖片激勵函數的目的是為了調節權重和誤差。 relu 　　max(0，x) relu6 　　min(max(0，x)，6) sigmoid 　　1/(1+exp(-x))

TensorFlow訓練神經網絡cost一直為0

parse sca UC nom can tac key fin dict 問題描述這幾天在用TensorFlow搭建一個神經網絡來做一個binary classifier，搭建一個典型的神經網絡的基本思路是：定義神經網絡的layers(層)以及初始化每一層

神經網絡優化算法如何選擇Adam，SGD

func lis 很多 base obs 分享圖片 .cn 得到 ttr 之前在tensorflow上和caffe上都折騰過CNN用來做視頻處理，在學習tensorflow例子的時候代碼裏面給的優化方案默認很多情況下都是直接用的AdamOptimizer優化算法，如下：

Tensorflow筆記——神經網絡圖像識別（五）手寫數字識別

bsp 14. image 分享 img 筆記 nbsp 數字識別 com Tensorflow筆記——神經網絡圖像識別（五）手寫數字識別

神經網絡優化（二） - 學習率

4.5 數據表 http 傳播 border ntop 2.3 1.9 圖片 1 學習率的基本定義學習率learning_rate：每次參數更新的幅度。簡單示例：假設損失函數 loss = ( w + 1 )2，則梯度為參數 w 初始化為 5 ，學習

神經網絡優化（二） - 正則化

技術分享 alt 機器圖片一個 ont class span style ---恢復內容開始--- 在機器學習中，有時候我們基於一個數據集訓練的模型對該模型的正確率非常高，而該模型對沒有見過的數據集很難做出正確的響應；那麽這個模型就存在過擬合現象。為了緩解或避免過

TensorFlow-單層神經網絡

guide size range href 參數 log 利用 utf acc #!/usr/bin/env python2 -- coding: utf-8 -- """Created on Mon Jul 10 09:35:04 2017

通過TensorFlow訓練神經網絡模型

oat .com hold variables red reduce 大量正確答案 shape 神經網絡模型的訓練過程其實質上就是神經網絡參數的設置過程在神經網絡優化算法中最常用的方法是反向傳播算法，下圖是反向傳播算法流程圖：從上圖可知，反向傳播算法實現了一個

吳裕雄 python 神經網絡——TensorFlow訓練神經網絡：全模型

生成 atm dep con image 學習 ria pri control import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data INPUT_NO

吳裕雄 python 神經網絡——TensorFlow訓練神經網絡：不使用滑動平均

ace depend tutorials stair mini learn variables 生成 with import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_

莫煩大大TensorFlow學習筆記（3）----建立神經網絡

nbsp 定義數據學習筆記 variables ati 選擇 mea 有變 plus 1、def add_layer() 添加神經網絡層： import tensorflow as tf def add_layer( inputs, in_size, out_si

AI相關 TensorFlow -卷積神經網絡踩坑日記之一

一個模糊結果隊列二維圖片路徑降維支持日記上次寫完粗淺的BP算法介紹本來應該繼續把卷積神經網絡算法寫一下的但是最近一直在踩 TensorFlow的坑。所以就先跳過算法介紹直接來應用場景，原諒我吧。 TensorFlow 介紹 TF是google

『TensorFlow』以GAN為例的神經網絡類範式

default 方法 paper ear 類屬性 lin 簡單貪婪 base 1、導入包： import os import time import math from glob import glob from PIL import Image import tens

TensorFlow框架(4)之CNN卷積神經網絡詳解

this map ets 多層神經網絡本地 height its 網絡操作 1. 卷積神經網絡 1.1 多層前饋神經網絡　　多層前饋神經網絡是指在多層的神經網絡中，每層神經元與下一層神經元完全互連，神經元之間不存在同層連接，也不存在跨層連接的情況，如圖 11所示。

tensorflow(3):神經網絡優化(ema,regularization)

相關推薦