tensorflow-2. 神經網路的優化

阿新 • • 發佈：2018-11-03

神經網路的優化

1. 模型優化

在入門篇裡面，神經網路模型僅僅是 $y = t f . m a t$

m u l ( x , w 1 ) y = tf.matmul(x, w1)

y = t f . m a t m u l (x, w 1)

，也就是

y = \sum_ix_iw_i

，現在可以在其之後加上常數項

b

，同時再加上啟用函式

f

，構成 :

$y = f(∑_ix_iw_i+b)$

常見的啟用函式 $f$ 有，

$f(x)=max(x,0)$ ，tensorflow表示為tf.nn.relu()
$f(x)=\frac{1}{1+e^{-x}}$ ，tensorflow表示為tf.nn.sigmoid()
$f(x)=\frac{1-e^{-2x}}{1+e^{-2x}}$ ，tensorflow表示為tf.nn.tanh()

2. loss優化

loss函式，也就是損失函式，用來表示真實值 y_ 與預測值 y 的差距，也就是訓練目標，使得loss越小越好

在入門篇中，損失函式採用的是均方誤差法，實際開發中，常用的損失函式有：

均方誤差： $\frac{\sum^n_{i=1} (y_{\_}-y)^2}{n}$ ，
tensorflow表示為tf.reduce_mean(tf.square(y_-y))
自定義：根據自身需求，自己定義損失函式，
例如：tf.reduce_sum( tf.where( tf.greater(y,y_), 2*(y-y_), 5*(y_-y) ) )
交叉熵：交叉熵表示了二分類問題中兩概率分佈之間的距離，值越小，距離越近。 $-\sum y_{\_}*log y$ ，
tensorflow表示為：tf.reduce_mean( y_*tf.log( tf.clip_by_value(y, 1e-12, 1.0) ) )，其中tf.clip_by_value(y, 1e-12, 1.0) )保證了y的值在合法範圍之內
- softmax 函式：在n分類中，為了使n中情況的概率和為1，才能使用交叉熵法。 $softmax(y_i)=\frac{e^{y_i}}{\sum_{j=1}^ne^{y_i}}$
- 一般程式碼中直接將softmax和交叉熵合為一句：tf.reduce_mean( tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_,1)) )

3. 學習率

學習率表示每次參加更新的幅度大小，學習率過大會導致待優化的引數出現震盪不收斂的情況，學習率過小學習速度慢。通俗點講就是引數值不會一直慢慢往0減小，一下子減太過了。

在入門篇中，我們的學習率設定的為定值0.001。在實際應用中，這種設定為定值肯定是不夠好的，往往我們採用指數衰減學習率，也就是隨著訓練的次數增加，慢慢將學習率自動降低。

數學表達：

$學習率=初始值*衰減率^{\frac{當前訓練輪數}{更新頻率(多少輪更新一次)}}$

更新頻率一般設定為總樣本數 / 每次喂入的樣本數
也就是一般為跑一遍樣本需要的輪數。

程式碼表示：

當前訓練輪數global_step = tf.Variable(0,trainavle=False)
learing_rate = tf.train.exponential_decay(
學習率初始值,
當前訓練輪數global_step,
更新頻率(多少輪更新一次),
衰減率,
staircase=True/False        # 設定是否平滑曲線下降，不然僅當指數部分取整才更新一次
)

4. 滑動平均

滑動平均值稱為影子，記錄了一段時間內模型中所有引數w和b各自的平均值，這樣下次取出模型進行測試的時候可以用平均值代替w和b了，是的模型有更好的泛化能力。

$影子=衰減率 * 影子 + (1-衰減率)*引數$
$其中，衰減率 = min\{滑動平均衰減率,\frac{1+輪數}{10+輪數} \}$
用tensorflow表示為：

ema = tf.train.ExponentialMovingAverage(滑動平均衰減率,當前訓練輪數global_step)
ema_op = ema.apply(tf.trainable_variables())

# 下面方法可實現滑動平均與訓練過程同步執行
with tf.control_dependencies([train_step, ema_op]):
    train_op = tf.no_op(name='train')

5. 正則化解決過擬合問題

過擬合：指訓練過度，模型在訓練集上的準確率很高，一旦出現新的測試資料，準確率就低了。
正則化：為每個引數w加上權重，引入模型複雜度指標，從而抑制模型噪聲，達到減少過擬合的現象。

新增正則化之後，損失函式loss就需要再加一項REGULARIZER*loss(w)

正則化計算方法有兩種：

L1正則化： $loss_{L1}=\sum_i|w_i|$
L2正則化： $loss_{L1}=\sum_i|w_i|^2$

tensorflow表示分別為：

loss(w) = tf.contrib.layers.l1_regularizer(REGULARIZER)(w)
loss(w) = tf.contrib.layers.l2_regularizer(REGULARIZER)(w)

在tensorflow中的使用：

tf.add_to_collection('losses',loss(w))
loss = 之前的損失函式 + tf.add_n(tf.get_collection('losses'))

tensorflow-2. 神經網路的優化

神經網路的優化入門篇的傳送門 1. 模型優化在入門篇裡面，神經網路模型僅僅是 y = t

TensorFlow 核心流程剖析 -- 2 神經網路模型的構建、分割和優化

與本章節相關的一些關鍵術語 graph 我們知道，在tensorflow裡，模型是以compuatation graph的形式存在，作為訓練和inference的載體。下面簡稱graph。 graph的組成： node：即定義一個具體的計

TensorFlow筆記-06-神經網路優化-損失函式,自定義損失函式,交叉熵

TensorFlow筆記-06-神經網路優化-損失函式，自定義損失函式 **神經元模型：用數學公式比表示為：f(Σi xi*wi + b), f為啟用函式** 神經網路是以神經元為基本單位構成的啟用函式：引入非線性啟用因素，提高模型的表達能力常用的啟用函式有relu、sigmoid、tanh等 (1)

TensorFlow北大公開課學習筆記4.4-神經網路優化----正則化（正則化損失函式）

今天學習了正則化，主要內容是：通過程式碼比較正則化與不正則化的區別。什麼叫過擬合？神經網路模型在訓練資料集上的準確率較高，在新的資料進行預測或分類時準確率較低，說明模型的泛化能力差什麼叫正則化：？在損失函式中給每個引數

人工智慧實踐：TensorFlow筆記學習（四）—— 神經網路優化

神經網路優化大綱4.1 損失函式4.2 學習率4.3 滑動平均4.4 正則化4.5 神經網路搭建八股目標掌握神經網路優化方法4.1 損失函式神經元模型：用數學公式表示為：，f為啟用函式。神經網路是以神經元為基本單元構成的。啟用函式：引入非線性啟用因素，提高模型的表達力。常用

TensorFlow神經網路優化策略

在神經網路模型優化的過程中，會遇到許多問題，比如如何設定學習率的問題，我們可通過指數衰減的方式讓模型在訓練初期快速接近較優解，在訓練後期穩定進入最優解區域；針對過擬合問題，通過正則化的方法加以應對；滑動平均模型可以讓最終得到的模型在未知資料上表現的更加健壯。一、學習率的設

tensorflow(2):神經網絡優化(loss,learning_rate)

min pre 影響動態 star val 交叉 SQ rt+ 案例: 預測酸奶的日銷量, 由此可以準備產量, 使得損失小(利潤大),假設銷量是y , 影響銷量的有兩個因素x1, x2, 需要預先采集數據,每日的x1,x2和銷量y_, 擬造數據集X,Y_, 假設y_=x1

神經網路優化（二） - 滑動平均

1 滑動平均概述滑動平均（也稱為影子值）：記錄了每一個引數一段時間內過往值的平均，增加了模型的泛化性。滑動平均通常針對所有引數進行優化：W 和 b，簡單地理解，滑動平均像是給引數加了一個影子，引數變化，影子緩慢追隨。滑動平均的表示公式為影子 = 衰減率 * 影子 + ( 1 - 衰減率

神經網路優化（二） - 搭建神經網路八股

為提高程式的可複用性，搭建模組化的神經網路八股 1 前向傳播前向傳播就是設計、搭建從輸入（引數 x ）到輸出（返回值為預測或分類結果 y ）的完整網路結構，實現前向傳播過程，一般將其放在 forward.py 檔案中前向傳播需要定義三個函式（實際上第一個函式是框架，第二、三個函式是賦初值過程）

Sentiment Analysis with Recurrent Neural Networks in TensorFlow 利用TensorFlow迴歸神經網路進行情感分析 Pluralsigh

Sentiment Analysis with Recurrent Neural Networks in TensorFlow 中文字幕利用TensorFlow迴歸神經網路進行情感分析中文字幕Sentiment Analysis with Recurrent Neural Netwo

學會使用tensorflow搭建神經網路

搭建神經網路基本流程定義新增神經層的函式 1.訓練的資料 2.定義節點準備接收資料 3.定義神經層：隱藏層和預測層 4.定義 loss 表示式 5.選擇 optimizer 使 loss 達到最小然後對所有變數進行初始化，通過 sess.run optimizer，迭代 1000

神經網路優化：病態矩陣與條件數

一、病態矩陣求解方程組時如果對資料進行較小的擾動，則得出的結果具有很大波動，這樣的矩陣稱為病態矩陣。病態矩陣是一種特殊矩陣。指條件數很大的非奇異矩陣。病態矩陣的逆和以其為係數矩陣的方程組的界對微小擾動十分敏感，對數值求解會帶來很大困難。例如：現在有線性方程組： Ax =

神經網路優化：指數衰減計算平均值(滑動平均)

Polyak平均會平均優化演算法在引數空間訪問中的幾個點。如果t次迭代梯度下降訪問了點,那麼Polyak平均演算法的輸出是。當應用Polyak平均於非凸問題時，通常會使用指數衰減計算平均值：

Tensorpack，一個基於TensorFlow的神經網路訓練介面，原始碼包含很多示例

Tensorpack是一個基於TensorFlow的神經網路訓練介面。 https://github.com/tensorpack/tensorpack 特徵：它是另一個TF高階API，具有速度，可讀性和靈活性。

神經網路優化（初始化權重）

使隱藏層飽和了, 跟之前我們說的輸出層飽和問題相似, 對於輸出層,我們用改進的cost函式,比如cross-entropy, 但是對

深度神經網路優化論文總結

1、HanS, Mao H, Dally W J. Deep Compression: Compressing Deep NeuralNetworks with Pruning, Trained Quantization and Huffman Coding[J].Fiber, 2015,

Tensorflow 搭建神經網路基本流程

cs224d-Day 6: 快速入門 Tensorflow 本文是學習這個視訊課程系列的筆記，課程連結是 youtube 上的，講的很好，淺顯易懂，入門首選，而且在github有程式碼，想看視訊的也可以去他的優酷裡的頻道找。 Tensorflow 官網神經網路是一種數學模型，

tensorflow實現神經網路

tensorflow實現神經網路 1、全部步驟實現前向傳播宣告學習率引數進行正則化計算計算損失函式反向傳播引數進行滑動平均 2、各個步驟解釋前向傳播：主要是定義這個網路的結構，網路是幾層的，以及每層使用的啟用函式是

使用tensorflow模擬神經網路

使用tensorflow模擬神經網路一、安裝tensor並且匯入如何安裝tensor前面介紹過了，匯入直接使用 import tensorflow as tf 二、準備資料集這裡就自己生成一批資料，並且把資料用一個圓分開，圓內代表一類，圓外代表一類。

用TensorFlow基於神經網路實現井字棋（含程式碼）

為了展示如何應用神經網路演算法模型，我們將使用神經網路來學習優化井字棋（Tic Tac Toe）。明確井字棋是一種決策性遊戲，並且走棋步驟優化是確定的。開始為了訓練神經網路模型，我們有一系列優化的不同的走棋棋譜，棋譜基於棋盤位置列表和對應的最佳落子點。考慮到棋盤的對稱性，通

tensorflow-2. 神經網路的優化

神經網路的優化

1. 模型優化

2. loss優化

3. 學習率

4. 滑動平均

5. 正則化解決過擬合問題

相關推薦