神經網絡優化（二） - 學習率

阿新 • • 發佈：2018-10-30

4.5 數據表 http 傳播 border ntop 2.3 1.9 圖片

1 學習率的基本定義

學習率learning_rate：每次參數更新的幅度。

技術分享圖片

簡單示例：

假設損失函數 loss = ( w + 1 )²，則梯度為

參數 w 初始化為 5 ，學習率為 0.2 ，則

運行次數	參數w值	計算
1次	5	5-0.2(25+2) = 2.6
2次	2.6	2.6-0.2(22.6+2) = 1.16
3次	1.16	1.16-0.2(21.16+2) = 0.296
4次	0.296

2 學習率的初步應用

2.1 學習率 0.2 時

# 已知損失函數loss = (w+1)^2,待優化參數W的初值為5 

# 求loss最小時對應的W值

# 第一步 引入庫,生成數據表
import tensorflow as tf
# 第二步 定義前向傳播
# 定義待優化參數w初值賦5
w = tf.Variable(tf.constant(5, dtype=tf.float32))

# 第三步 定義損失函數和反向傳播
# 定義損失函數loss
loss = tf.square(w+1)
# 定義反向傳播方法，學習率為0.2
train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)

# 第四步 生成會話，訓練40輪 

with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    for i in range(40):
        sess.run(train_step)
        w_val = sess.run(w)
        loss_val = sess.run(loss)
        print("After %s steps: w is %f,   loss is %f." % (i, w_val, loss_val))

運行

After 0 steps: w is 2.600000,   loss is 12.959999.
After 1 steps: w is 1.160000,   loss is 4.665599.
After 2 steps: w is 0.296000,   loss is 1.679616.
After 3 steps: w is -0.222400,   loss is 0.604662.
After 4 steps: w is -0.533440,   loss is 0.217678.
After 5 steps: w is -0.720064,   loss is 0.078364.
After 6 steps: w is -0.832038,   loss is 0.028211.
After 7 steps: w is -0.899223,   loss is 0.010156.
After 8 steps: w is -0.939534,   loss is 0.003656.
After 9 steps: w is -0.963720,   loss is 0.001316.
After 10 steps: w is -0.978232,   loss is 0.000474.
After 11 steps: w is -0.986939,   loss is 0.000171.
After 12 steps: w is -0.992164,   loss is 0.000061.
After 13 steps: w is -0.995298,   loss is 0.000022.
After 14 steps: w is -0.997179,   loss is 0.000008.
After 15 steps: w is -0.998307,   loss is 0.000003.
After 16 steps: w is -0.998984,   loss is 0.000001.
After 17 steps: w is -0.999391,   loss is 0.000000.
After 18 steps: w is -0.999634,   loss is 0.000000.
After 19 steps: w is -0.999781,   loss is 0.000000.
After 20 steps: w is -0.999868,   loss is 0.000000.
After 21 steps: w is -0.999921,   loss is 0.000000.
After 22 steps: w is -0.999953,   loss is 0.000000.
After 23 steps: w is -0.999972,   loss is 0.000000.
After 24 steps: w is -0.999983,   loss is 0.000000.
After 25 steps: w is -0.999990,   loss is 0.000000.
After 26 steps: w is -0.999994,   loss is 0.000000.
After 27 steps: w is -0.999996,   loss is 0.000000.
After 28 steps: w is -0.999998,   loss is 0.000000.
After 29 steps: w is -0.999999,   loss is 0.000000.
After 30 steps: w is -0.999999,   loss is 0.000000.
After 31 steps: w is -1.000000,   loss is 0.000000.
After 32 steps: w is -1.000000,   loss is 0.000000.
After 33 steps: w is -1.000000,   loss is 0.000000.
After 34 steps: w is -1.000000,   loss is 0.000000.
After 35 steps: w is -1.000000,   loss is 0.000000.
After 36 steps: w is -1.000000,   loss is 0.000000.
After 37 steps: w is -1.000000,   loss is 0.000000.
After 38 steps: w is -1.000000,   loss is 0.000000.
After 39 steps: w is -1.000000,   loss is 0.000000.

從運算過程可以得出，待優化參數 w 由原來的初賦值參數 5 最終在 after 31 step 優化成 -1，直到 after 39 step 一直保持 -1。

2.2 學習率為 1 時

# 定義反向傳播方法，學習率為 1 
train_step = tf.train.GradientDescentOptimizer(1).minimize(loss)

運行

After 0 steps: w is -7.000000,   loss is 36.000000.
After 1 steps: w is 5.000000,   loss is 36.000000.
After 2 steps: w is -7.000000,   loss is 36.000000.
After 3 steps: w is 5.000000,   loss is 36.000000.
After 4 steps: w is -7.000000,   loss is 36.000000.
After 5 steps: w is 5.000000,   loss is 36.000000.
After 6 steps: w is -7.000000,   loss is 36.000000.
After 7 steps: w is 5.000000,   loss is 36.000000.
After 8 steps: w is -7.000000,   loss is 36.000000.
After 9 steps: w is 5.000000,   loss is 36.000000.
After 10 steps: w is -7.000000,   loss is 36.000000.
After 11 steps: w is 5.000000,   loss is 36.000000.
After 12 steps: w is -7.000000,   loss is 36.000000.
After 13 steps: w is 5.000000,   loss is 36.000000.
After 14 steps: w is -7.000000,   loss is 36.000000.
After 15 steps: w is 5.000000,   loss is 36.000000.
After 16 steps: w is -7.000000,   loss is 36.000000.
After 17 steps: w is 5.000000,   loss is 36.000000.
After 18 steps: w is -7.000000,   loss is 36.000000.
After 19 steps: w is 5.000000,   loss is 36.000000.
After 20 steps: w is -7.000000,   loss is 36.000000.
After 21 steps: w is 5.000000,   loss is 36.000000.
After 22 steps: w is -7.000000,   loss is 36.000000.
After 23 steps: w is 5.000000,   loss is 36.000000.
After 24 steps: w is -7.000000,   loss is 36.000000.
After 25 steps: w is 5.000000,   loss is 36.000000.
After 26 steps: w is -7.000000,   loss is 36.000000.
After 27 steps: w is 5.000000,   loss is 36.000000.
After 28 steps: w is -7.000000,   loss is 36.000000.
After 29 steps: w is 5.000000,   loss is 36.000000.
After 30 steps: w is -7.000000,   loss is 36.000000.
After 31 steps: w is 5.000000,   loss is 36.000000.
After 32 steps: w is -7.000000,   loss is 36.000000.
After 33 steps: w is 5.000000,   loss is 36.000000.
After 34 steps: w is -7.000000,   loss is 36.000000.
After 35 steps: w is 5.000000,   loss is 36.000000.
After 36 steps: w is -7.000000,   loss is 36.000000.
After 37 steps: w is 5.000000,   loss is 36.000000.
After 38 steps: w is -7.000000,   loss is 36.000000.
After 39 steps: w is 5.000000,   loss is 36.000000.

當學習率過大時，結果並不能收斂，只是在來回震蕩，而實際上，有的值還越跳越大。

學習率過大，震蕩不收斂。

2.3 學習率為 0.001 時

# 定義反向傳播方法，學習率為 1 
train_step = tf.train.GradientDescentOptimizer(0.001).minimize(loss)

運行

After 0 steps: w is 4.988000,   loss is 35.856144.
After 1 steps: w is 4.976024,   loss is 35.712864.
After 2 steps: w is 4.964072,   loss is 35.570156.
After 3 steps: w is 4.952144,   loss is 35.428020.
After 4 steps: w is 4.940240,   loss is 35.286449.
After 5 steps: w is 4.928360,   loss is 35.145447.
After 6 steps: w is 4.916503,   loss is 35.005009.
After 7 steps: w is 4.904670,   loss is 34.865124.
After 8 steps: w is 4.892860,   loss is 34.725803.
After 9 steps: w is 4.881075,   loss is 34.587044.
After 10 steps: w is 4.869313,   loss is 34.448833.
After 11 steps: w is 4.857574,   loss is 34.311172.
After 12 steps: w is 4.845859,   loss is 34.174068.
After 13 steps: w is 4.834167,   loss is 34.037510.
After 14 steps: w is 4.822499,   loss is 33.901497.
After 15 steps: w is 4.810854,   loss is 33.766029.
After 16 steps: w is 4.799233,   loss is 33.631104.
After 17 steps: w is 4.787634,   loss is 33.496712.
After 18 steps: w is 4.776059,   loss is 33.362858.
After 19 steps: w is 4.764507,   loss is 33.229538.
After 20 steps: w is 4.752978,   loss is 33.096756.
After 21 steps: w is 4.741472,   loss is 32.964497.
After 22 steps: w is 4.729989,   loss is 32.832775.
After 23 steps: w is 4.718529,   loss is 32.701576.
After 24 steps: w is 4.707092,   loss is 32.570904.
After 25 steps: w is 4.695678,   loss is 32.440750.
After 26 steps: w is 4.684287,   loss is 32.311119.
After 27 steps: w is 4.672918,   loss is 32.182003.
After 28 steps: w is 4.661572,   loss is 32.053402.
After 29 steps: w is 4.650249,   loss is 31.925320.
After 30 steps: w is 4.638949,   loss is 31.797745.
After 31 steps: w is 4.627671,   loss is 31.670683.
After 32 steps: w is 4.616416,   loss is 31.544128.
After 33 steps: w is 4.605183,   loss is 31.418077.
After 34 steps: w is 4.593973,   loss is 31.292530.
After 35 steps: w is 4.582785,   loss is 31.167484.
After 36 steps: w is 4.571619,   loss is 31.042938.
After 37 steps: w is 4.560476,   loss is 30.918892.
After 38 steps: w is 4.549355,   loss is 30.795341.
After 39 steps: w is 4.538256,   loss is 30.672281.

在學習率調整至 0.001 後，w值也收斂，只是變化太慢，在 after 39 step 後才從 5 --> 4.5 ，從第一例可知，最終的優化結果為 -1 ，很顯然，當學習率過低時，運行效率非常低。

學習率過小時，收斂速度太慢。

3 指數衰減學習率

3.1 指數衰減學習率數學釋義

指數衰減學習率是根據運行的輪數動態調整學習率。

具體多少輪更新一次學習率RATE_STEP = 總樣本數 / BATCH_SIZE

將總樣本數量分割成 N 個 BATCH_SIZE 參數餵入神經網絡訓練。每餵入 BATCH_SIZE 數據量循環一輪，當數據集的子集均已餵入神經網絡後，調整一次學習率。

一個神經網絡訓練多少次是設定好的，記為global_step

學習率更新次數 = global_step / RATE_STEP

技術分享圖片

備註：

learning_rate - 學習率更新後的值

RATE_BAST - 學習率基數，學習率初始值

RATE_DECAY - 學習率衰減率，一般值範圍( 0, 1 )

global_step - 運行總輪次數

rate_step - 多少輪更新一次學習率

3.2 指數衰減學習率 Tensorflow 代碼

global_step= tf.Variable(0, trainable = False)

由於這個變量只為計數，trainable = False 意味該數據不可訓練

神經網絡優化（二） - 學習率

4.5 數據表 http 傳播 border ntop 2.3 1.9 圖片 1 學習率的基本定義學習率learning_rate：每次參數更新的幅度。簡單示例：假設損失函數 loss = ( w + 1 )2，則梯度為參數 w 初始化為 5 ，學習

神經網絡優化（二） - 正則化

技術分享 alt 機器圖片一個 ont class span style ---恢復內容開始--- 在機器學習中，有時候我們基於一個數據集訓練的模型對該模型的正確率非常高，而該模型對沒有見過的數據集很難做出正確的響應；那麽這個模型就存在過擬合現象。為了緩解或避免過

卷積神經網絡學習（二）

pooling ssis font mat play mathjax con 變換 AD 一、基礎知識（一）　　filter: 　　　　　　　　padding:在圖像卷積操作之前，沿著圖像邊緣用0進行圖像填充。padding會影響輸出圖像大小。　　stride(卷積

mongodb3.4.4安裝副本集，wt引擎配置優化（二）

記錄空間今天大概研究下wiredtiger引擎，mongo從3.0開始引入，主要為了解決吃內存多，占用大量磁盤空間的問題，其實即使用了wt引擎，在性能上還是比tokuft要差，但是tokuft 在功能上代碼叠代的太慢，退而求其次大家還是用了mongo，首先3.0的時候默認還是mmapv1 引擎，所

二次方程優化（二）之 Quadratic Form

width png 討論 1-1 如果 blog mage .cn ont 我們這一次對二次型進行更深的討論討論多變量的正定型、負定型和半正定、半負定先給出結論：判斷有兩種方法： 1.強推特征值法：如果所有的特征值是正，則是正定型；全是負的就是負定型；全是非負，就是半

計算機網絡基礎（二）-—IP地址詳述

ip地址一、IP地址1. ip地址的作用：在一定的範圍內唯一的標識一個上網的設備（凡是需要上網的設備必須得有ip 地址） ip地址的表示： 1、讓機器看的 10101010100010101010 （純2進制） 2、讓人看的點分十進制，X.X.X.X (X表示的是一

【VMCloud雲平臺進階篇】應用數據層面優化（二）

vmcloud在上一篇中我們講到準備SQL基礎環境改造，這一篇將繼續講述如何為應用提供高可用的底層數據層，以下是本次要進行實驗的拓撲（紅色為已完成搭建，藍色是本次文章涉及的區域）：1、上一篇我們搭建好了SQL底層，這一篇來講述如何創建一個AlwayOn可用組對外提供服務，設置兩個SQL節點的AlwayOn高

【計算機網絡】詳解網絡層（二）ARP和RARP

博文拆分 detail 動態再次 tcp 將在 ont 關於 ARP ARP（Address Resolution Protocol，地址解析協議）是將IP地址解析為以太網MAC地址（物理地址）的協議。在局域網中，當主機或其他網絡設備有數據要發送給另一個主機或設備時，它

運維網絡基礎（二）

protoc p地址發出第2章自定義你是 let nor tcp協議 1.1 DHCP協議DHCP（Dynamic Host Configuration Protocol,動態主機配置協議）是由IETF(Internet工作任務小組)設計開發的，專門用於為TCP/I

卷積神經網絡入門（1）識別貓狗

關系圖像識別能力數字匿跡 ssi 圖像處理目標多個一下來自知乎按照我的理解，CNN的核心其實就是卷積核的作用，只要明白了這個問題，其余的就都是數學坑了（當然，相比較而言之後的數學坑更難）。如果學過數字圖像處理，對於卷積核的作用應該不陌生，比如你做一個最簡

前端性能優化（二）：移動端瀏覽器前端優化策略

因此本地網絡流量桌面 cse kit 極致加載文件相對於桌面端瀏覽器，移動端Web瀏覽器上有一些較為明顯的特點：設備屏幕較小、新特性兼容性較好、支持一些較新的HTML5和CSS3特性、需要與Native應用交互等。但移動端瀏覽器可用的CPU計算資源和網絡資源極為

【小說連載】網絡紅顏（二）：美女網絡工程師第一天上班就被燙傷了腳……

網絡職場美女入職簡介：這是一段描寫網絡工程師生活的故事。故事中沒有英雄，沒有勵誌，也沒有所謂的雞湯文化和狼性文化。有的，或許是一種對技術的執著，對愛情的渴望或者是對名利的一種追求，但又能追求到什麽呢？聲明：本故事所出現的人名，公司名均為虛構，如有雷同恰屬巧合小說將在本站博客和本人微信公

windows server 2016 網絡服務（二）

windows server 2016 mcsa mcse dhcp: 基本概念：租約：保證一個廣播網絡中，只有一個DHCP服務在正常運行租約更新：當企業的DHCP出現故障時，不會立即引起企業內部網絡的故障DHCP服務器部署和配置基本部署：如果當前服務器環境中由AD域環境，該服務器必須經過A

分層網絡模型（二）

就是發送數據求根 assigned BE ber main 另一個 google 　　傳輸層，將數據以包的方式進行發送並且保存，直到收到確認後才將保存的數據丟棄，否則再次將保存的數據進行發送，即提供數據傳輸的服務。TCP協議就是提供可靠的數據傳輸。　　網際互聯層關心的是

mysql監控優化（二）主從復制

如何程序延遲負載均衡 state 帶來客戶備份技術復制解決的基本問題是讓一臺服務器的數據和其他服務器保持同步。一臺主服務器的數據可以同步到多臺從服務器上。並且從服務器也可以被配置為另外一臺服務器的主庫。主庫和從庫之間可以有多種不同的組合方式。

大型企業網絡構建（二）——高級OSPF&虛鏈路應用

OSPFOSPF的高級鏈路狀態常見通告（LSA）類型 AS區域允許泛洪的LSA OSPF路由匯總（LSA匯總）（1）3類LSA的匯總：在產生這個 LSA 的 ABR 上僅僅對一個區域的出向 LSA 起作用僅僅對一個區域的內部的路由起作用配置命

卷積神經網絡學習（一）

適應什麽小學邊緣檢測 sim 概念 alt 解釋一、卷積的物理意義卷積的重要的物理意義是：一個函數（如：單位響應）在另一個函數（如：輸入信號）上的加權疊加。在輸入信號的每個位置，疊加一個單位響應，就得到了輸出信號。這正是單位響應是如此重要的原因。二、卷積的另

人工神經網絡入門（4） —— AFORGE.NET簡介

inpu 源代碼 double 庫文件 ive href 計算 super input 範例程序下載：http://files.cnblogs.com/gpcuster/ANN3.rar如果您有疑問，可以先參考 FAQ 如果您未找到滿意的答案，可以在下面留言：）0 目錄人工

django緩存優化（二）

圖片類型 world 重復 span tmp spa from cached 一、緩存目的：　　1、減小過載　　2、避免重復計算　　3、提高系統性能二、如何進行緩存　　三、緩存類型　　四、緩存粒度分類　　五、緩存的設置與使用　　示例一： CACHE

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

nbsp net article 智能 tail 攜程網 .net 網絡爬蟲準備工作轉:https://www.toutiao.com/i6304492725462893058/ https://blog.csdn.net/hjkl950217/article/det

神經網絡優化（二） - 學習率

1 學習率的基本定義

2 學習率的初步應用

2.1 學習率 0.2 時

2.2 學習率為 1 時

2.3 學習率為 0.001 時

3 指數衰減學習率

3.1 指數衰減學習率數學釋義

3.2 指數衰減學習率 Tensorflow 代碼

相關推薦