【資料極客】Week3_訓練深度神經網路的技巧

阿新 • • 發佈：2019-01-22

Tips for Training DNN 訓練深度神經網路技巧

【李巨集毅2017秋天課程】

這裡寫圖片描述

1 Vanishing Gradient Problem 梯度消失問題

這裡寫圖片描述

在輸入層部分，即便有很大的變化，通過 Sigmoid 啟用函式之後，輸出結果都會被對映在0到1之間，對於輸出層對損失函式的微分是比較小的，造成梯度消失問題。

2 ReLU (Rectified Linear Unit)

ReLU
- 計算速度快
- 生物學理由
- 無窮多的帶有不同偏置的 sigmoid 函式
- 解決了梯度消失問題

如果某個 neuron 輸出是0，說明該節點是無用的，可以直接從網路中去掉，剩下的非零節點就是線性的。

結果函式是ReLU的話，那麼區域性網路是線性的，整體網路是非線性的。

ReLU - variant

3 Maxout

這裡寫圖片描述

選取每一組的最大的輸出值作為最終的輸出結果。放多少個元素為一組，自己可以調參。

這裡寫圖片描述

ReLU是一個特殊的Maxout，但是Maxout相較於ReLU的優勢在於，Maxout可以根據不同的引數學習出不同的啟用函式(Activition Function)

右邊綠色折線部分就是學習出來的啟用函式。

4 Adaptive Learning Rate

Adagrad

具體可參照 1.2 節內容

在Adagrad的更新規則中，學習率 η

會隨著每次迭代根據歷史梯度的變化而變化。

ηt=ηt+1√

σt=1t+1∑ti=0‾‾‾‾‾‾‾‾‾√(gi)2

wt+1=wt−ηtσtgt

分子分佈約分之後得到 wt+1=wt−η∑ti=0(gi)2√gt

∑ti=0(gi)2 代表前 t 步梯度平方的累加和。

這裡分母可能為0，所以在分母位置加上一個極小值 ϵ , 變為wt+1=wt−η∑ti=0(gi)2+ϵ√gt

可以看到演算法不斷的迭，分母會越來越大，整體的學習率會越來越小。

#### RMSProp

RMSProp 是進階版的 Adagrad

這裡寫圖片描述
與Adagrad不同的是在分母位置，累加之前幾部的梯度平方和的時候，進行了加權求和。

其中 a 引數是可以自己調節大小的。

5 Momentum 動量

這裡寫圖片描述

其中 vi 是前 i 步的梯度加權求和：

∇(θ0), ∇(θ1),∇(θ2),……, ∇(θi−1)

v0=0

v1=−η∇(θ0)

v2=−λη∇(θ0)−η∇(θ1)

…..

6 Adam

Adam = RMSProp + Momentum

7 Early Stopping 提早終止

這裡寫圖片描述
需要驗證集 Validation Set 確定 Testing Set 中的最小的損失函式值是多少。

8 Regularization 正則化

這裡寫圖片描述
- New loss function to be minimized 新的最小化損失函式

找到一組權重，不僅要最小化 Original Loss 的損失函式同時還要讓接近0

L(θ) 為 Original Loss,可以是最小二乘法最小化損失函式、也可以是交叉熵損失函式。。。

L′=L(θ)+λ12∥θ∥2

右下角，是當損失函式為 L2 2範數的時候，正則化項的形式，通常在計算的時候不考慮正則化項。

這裡寫圖片描述
η 是學習率，其數值很小，λ 通常也會設定為一個比較小的值。
所以 ηλ 這兩個很小的數值相乘結果也非常小。

1−ηλ 的結果接近於 1 ，比如： 0.99

每一個引數在update之前都會乘上一個接近於 1 的數， 這也就是所有的權值引數為什麼越來越小的緣故，權值衰減。

規則化項用 L1 範數的時候

L′=L(θ)+λ12∥θ∥1

這裡寫圖片描述

sgn(w) 指的是：當 w>0 的時候， sgn(w)=1 ，當 w<0 的時候 sgn(w)=−1 , 當

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    【資料極客】Week3_訓練深度神經網路的技巧
      
							
							
							




Tips for Training DNN 訓練深度神經網路技巧


  【李巨集毅2017秋天 課程】






1 Vanishing Gradient Problem 梯度消失問題



在輸入層部分，即便有很大的變化，通過 Sigmoid 啟 

  
 

    

    
    【資料極客】Week2_邏輯迴歸_Tensorflow基礎介紹
      
							
							
							本文目錄




1. 推薦內容學習


  【資料極客】任務總結_Week2


## **1.0 線性迴歸Linear Regression**
fw,b(x)=∑iwixi+b
各個feature的 `Xi` 對應的權重 `Wi` 相乘並求和， 再最後加上 

  
 

    

    
    【火爐煉AI】深度學習003-構建並訓練深度神經網路模型
      【火爐煉AI】深度學習003-構建並訓練深度神經網路模型 
(本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 
前面我們講解過單層神經網路模型，發現它結構簡單，難以解決一些實際的比較複雜的問題，故而現 

  
 

    

    
    【姿態估計】DeepPose: 基於深度神經網路的人體姿態估計 Human Pose Estimation via Deep Neural Networks
       
  
  
 
   Alexander Toshev Christian Szegedy 
  
    Google 
   
     1600 Amphitheatre Pkwy 
    
      Mountain View, CA 94043 
     
       toshev,[e 

  
 

    

    
    如何用C++在TensorFlow中訓練深度神經網路
      
      目前流行的深度學習框架 TensorFlow 是以 C++為底層構建的，但絕大多數人都在 Python 上使用 TensorFlow 來開發自己的模型。隨著 C++ API 的完善，直接使用 C++來搭建神經網路已經成為可能，本文將向你介紹一種簡單的實現方法。
      
      很多人都 

  
 

    

    
    一起做實驗 | 多GPU平行計算訓練深度神經網路
      
                    

                    

                    
                    
                    科技你好關注我們·成為科技潮人2018年2月25日，平昌東奧會閉幕式上，備受矚目的“北京八分鐘” 

  
 

    

    
    用spark訓練深度神經網路
      
                
SparkNet: Training Deep Network in Spark

這篇論文是 Berkeley 大學 Michael I. Jordan 組的 ICLR2016(under review) 的最新論文，有興趣可以看看原文和原始碼：paper，github
 

  
 

    

    
    【火爐煉AI】深度學習002-構建並訓練單層神經網路模型
      【火爐煉AI】深度學習002-構建並訓練單層神經網路模型 
(本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 
前面我們介紹了神經網路的基本結構單元-感知器，現在我們再升一級，看看神經網路的基本結構和 

  
 

    

    
    【資料應用案例】人群優選演算法模型，挖掘品牌潛客
      
                案例來源：@阿里巴巴機器智慧





導讀：

為A電商做年貨節品牌營銷，目標是識別目標受眾，廣告投放後由“機會人群”轉向“興趣人群”的比例更高。

解決方案是：

第一步：多方向人群擴散。通過興趣偏好、品類偏好、競品受眾、搜尋人群、流失人群、lookalike人群 六個方 

  
 

    

    
    【深度學習】3：BP神經網路與MNIST資料集實現手寫數字識別
      
							
							
							前言：這是一篇基於tensorflow框架，建立的只有一層隱藏層的BP神經網路，做的圖片識別，內容也比較簡單，全當是自己的學習筆記了。

–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-—-—-—-—-—-—-—-—- 

  
 

    

    
    【資料搜集】Python學習
      OS   pan   span   blog   cor   pos   ati   http   pytho   python學習手冊 | 演道網 http://dev.go2live.cn/python/python%e5%ad%a6%e4%b9%a0%e6%89%8b%e5%86%8c.html
 【資 

  
 

    

    
    【資料搜集】DirectX學習
      .sh   資料   指南   c++   tor   動漫   light   Go   pos   【網站推薦：】GameRes遊資網-遊戲開發者門戶 http://www.gameres.com/
【基礎知識：】
《遊戲編程》第一部 基礎篇 - GameRes.com http://dev.gamere 

  
 

    

    
    【資料視覺化】25個即時改進資料視覺化設計的技巧
       
 
  
 資料視覺化不是關於顯示資料; 它是以更容易理解的方式顯示資料 - 這就是真正的價值所在。如果你想真正“看到”我們的意思，請看一下這個快速視訊： 
  
 視訊地址：https://vimeo.com/29684853 
 不幸的是，很多人認為將幾張圖表放在一起意味著您正在進行資料視覺 

  
 

    

    
    【計蒜客】字串長度
       
 
 
 題目描述 
 在右側我們給出了一個已經基本完成的程式，讀入了一個字串， 呼叫了一個叫str_len的函式來計算這個字串的長度，並輸出。 
 聰明的你應該已經發現了，這個叫str_len的函式並沒有完成， 在不修改函式原型的情況下，請完成str_len函式，實現我們上述的功能吧。  樣例 

  
 

    

    
    【計蒜客】奇怪的國家
       
 
 
 題目描述 
 有一個奇怪的國家，裡面的國民對於事情的態度永遠只有兩面。 當兩個人遇到一起討論一個事情的時候——兩個持贊同觀點的人遇到一起後會對這個事情都繼續贊同； 一個持贊同觀點的人遇到一個持不贊同觀點的人的時候，兩人都會不再繼續贊同； 兩個持不贊同觀點的人遇到一起討論後反而會對這個事情開始贊同 

  
 

    

    
    【計蒜客】泥塑課
       
 
 
 題目描述 
 小米是一個幼兒園老師，每學期的泥塑課上，她都會給每個學生髮不超過 250立方厘米的等量橡皮泥，教大家做泥塑。 在上課過程中，她發現每個班都恰好有一個小朋友會去搶另一個小朋友的橡皮泥，於是她決定，在正式開始做泥塑前， 讓大家把手裡的橡皮泥都捏成一個立方體，並且測量手裡捏好的橡皮泥的長 

  
 

    

    
    【計蒜客】矩陣翻轉
       
 
 
 題目描述 
 曉萌最近在做一個翻轉圖片的應用，你可能也知道，圖片其實是由一個個的點組成的。 於是，曉萌想先做一個可以翻轉矩陣的程式，來解決他問題的核心部分。 
 輸入格式 輸入第一行包括由空格分開的整數 M,N,T(0 < N,M < 200)，T的值為 0或 1。 其中 M和 N分 

  
 

    

    
    【計蒜客】簡單斐波那契
       
 
 
 題目描述 
 斐波那契數列是一種非常有意思的數列，由 0和 1開始，之後的斐波那契係數就由之前的兩數相加。 用數學公式定義斐波那契數列則可以看成如下形式： F0 = 0 F1 = 1 Fn = F(n-1)+F(n-2) 我們約定Fn表示斐波那契數列的第 n項，你能知道斐波那契數列中的任何一項嗎 

  
 

    

    
    【計蒜客】判斷質數
       
 
 
 題目描述 
 對於大於 1的數，如果除了 1和它本身，它不能再被其它正整數整除，那麼我們說它是一個質數。 曉萌想判斷一個數是不是質數，希望找你寫個程式，幫助她進行判斷。 
 輸入格式 輸入包括一行，為一個整數N(1<N≤1000)，正是曉萌給出你讓你判斷的數字。 輸出格式 輸出包括一行，如 

  
 

    

    
    【計蒜客】整除問題
       
 
 
 題目描述 
 判斷一個數是否能被另一個整數整除是一個挺簡單的問題，一般一個模運算就可以搞定了， 懶惰的曉萌還是不想自己做，於是找到你幫他寫程式碼，你就幫幫他吧。 
 輸入格式 輸入包括兩個由空格分開的整數 M和N(1≤M,N≤500)。 
 輸出格式 輸出包括一行，如果 M可以被 N整除就輸出Y