Deep learning系列（七）啟用函式

阿新 • • 發佈：2019-01-06

1. sigmoid啟用函式

sigmoid將一個實數輸入對映到[0,1]範圍內，如下圖（左）所示。使用sigmoid作為啟用函式存在以下幾個問題：

梯度飽和。當函式啟用值接近於0或者1時，函式的梯度接近於0。在反向傳播計算梯度過程中：δ(l)=(W(l))Tδ(l+1)∗f′(z(L))，每層殘差接近於0，計算出的梯度也不可避免地接近於0。這樣在引數微調過程中，會引起引數彌散問題，傳到前幾層的梯度已經非常靠近0了，引數幾乎不會再更新。
函式輸出不是以0為中心的。我們更偏向於當啟用函式的輸入是0時，輸出也是0的函式。

因為上面兩個問題的存在，導致引數收斂速度很慢，嚴重影響了訓練的效率。因此在設計神經網路時，很少採用sigmoid啟用函式。

這裡寫圖片描述

2. tanh啟用函式

tanh函式將一個實數輸入對映到[-1,1]範圍內，如上圖（右）所示。當輸入為0時，tanh函式輸出為0，符合我們對啟用函式的要求。然而，tanh函式也存在梯度飽和問題，導致訓練效率低下。

3.Relu啟用函式

Relu啟用函式（The Rectified Linear Unit）表示式為：f(x)=max(0,x)。如下圖（左）所示：

這裡寫圖片描述

相比sigmoid和tanh函式，Relu啟用函式的優點在於：

梯度不飽和。梯度計算公式為：1{x>0}。因此在反向傳播過程中，減輕了梯度彌散的問題，神經網路前幾層的引數也可以很快的更新。
計算速度快。正向傳播過程中，sigmoid和tanh函式計算啟用值時需要計算指數，而Relu函式僅需要設定閾值。如果x

<0,f(x)=0，如果x>0,f(x)=x。加快了正向傳播的計算速度。

因此，Relu啟用函式可以極大地加快收斂速度，相比tanh函式，收斂速度可以加快6倍（如上圖（右）所示）。

參考資料：
1. http://cs231n.stanford.edu/syllabus.html
2. Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks. NIPS. 2012: 1097-1105.

Deep learning系列（七）啟用函式

1. sigmoid啟用函式 sigmoid將一個實數輸入對映到[0,1]範圍內，如下圖（左）所示。使用sigmoid作為啟用函式存在以下幾個問題：梯度飽和。當函式啟用值接近於0或者1時，函式的梯度接近於0。在反向傳播計算梯度過程中：δ(l)=(W(l))Tδ(l+1

Deep learning系列（十）隨機梯度下降

1. 梯度下降梯度下降是常用的神經網路模型引數求解方法，根據每次引數更新使用樣本數量的多少，可以分為以下三類：批量梯度下降（batch gradient descent）；小批量梯度下降（mini-batch gradient descent）；

Deep learning系列（八）引數初始化

0. 引言在主成分分析與白化一節中介紹瞭如何對輸入資料進行預處理，在這節中介紹與之類似的另一個問題，引數初始化（Weight Initialization）。在模型訓練之初，我們不知道引數的具體分佈，然而如果資料經過了合理的歸一化（normalizati

Deep Learning 系列（1）：RBM（受限波爾茲曼機）和 DBN（深信度神經網路）

前言：Deep Learning （DL深度學習）是近幾年來最火的一種機器學習方法，由Hinton（多倫多大學）提出。主要有兩分支：Geoffery Hinton和Joshua Bengio這一支用RBM組成deep architecture的研究。另一支是以Yann

Deep learning系列（十五）有監督和無監督訓練

1. 前言在學習深度學習的過程中，主要參考了四份資料：對比過這幾份資料，突然間產生一個困惑：臺大和Andrew的教程中用了很大的篇幅介紹了無監督的自編碼神經網路，但在Li feifei的教程和caffe的實現中幾乎沒有涉及。當時一直搞不清這種現象的原

MySQL資料彙總與聚集函式——MySQL系列（七）

1、聚集函式聚集函式是執行在行組上，計算和返回單個值的函式。 SQL聚集函式函式說明 AVG() 返回某列的平均值 COUNT() 返回某列的行數 MAX() 返回某列的最大值 MIN() 返回某列的最小值 SUM() 返回某個列之和（1）、AVG()函式可以返回

Centos7系列（七）邏輯卷詳解

centos7 邏輯卷博主QQ：819594300博客地址：http://zpf666.blog.51cto.com/有什麽疑問的朋友可以聯系博主，博主會幫你們解答，謝謝支持！Centos7可以用xfs_growfs來擴大XFS文件系統，用resize2fs 來擴大ext4文件系統，註意的是 XFS

elasticsearch系列（七）java定義score

集群 scrip image search 支持 name dsr 計算方法 dynamic 概述 ES支持groovy 和 java兩種語言自定義score的計算方法，groovy甚至可以嵌套在請求的參數中，有點厲害，不過不在本篇討論範圍。如何用自定義的java代碼來定

PHP系列（七）PHP錯誤異常處理

php錯誤處理1、Php錯誤報告級別1 E_ERROR 致命的運行錯誤。錯誤無法恢復，暫停執行腳本。2 E_WARNING 運行時警告(非致命性錯誤)。非致命的運行錯誤，腳本執行不會停止。4 E_PARSE 編譯時解析錯誤。解析錯誤只由分析器產生。8 E_NOTICE 運行時提醒(這些經常是你代碼中的bug引

IT輪子系列（七）——winform 版本更新組件

一個 closed version eight class 使用 splay end blank 前言最近做了一個winform客戶端的項目，裏面有一個功能是版本更新。以前也有寫過，可忘了具體的邏輯。網上也有介紹用發布模式進行更新的，自己嘗試後沒有成功，提示“vba證書無

Docker入門與應用系列（七）Docker圖形界面管理之DockerUI

post 簡單的技術分享 name mage src 入門 .com 系統 1.dockeruiDockerrUI是一個基於Docker API提供圖形化頁面簡單的容器管理系統，支持容器管理、鏡像管理。1.1 下載鏡像 docker pull abh1nav/doc

neural network and deep learning筆記（1）

.cn arc AD puts ont release 深入 rem hang neural network and deep learning 這本書看了陸陸續續看

Greeplum 系列（七）權限管理

修改創建組 director sda languages group hba rep DBName Greeplum 系列（七）權限管理一、角色管理 Role 分為用戶(User)和組(Group)，用戶有 login 權限，組用來管理用戶，一般不會有 login 權

高性能服務器開發基礎系列（七）——開源一款即時通訊軟件的源碼

c++ 服務器在我的《高性能服務器開發基礎系列》這個系列的第一篇至第六篇都是講了一些零散的不成體系的網絡編程細節。今天，在這篇文章中，我將介紹一款我自主開發的即時通訊軟件flamingo（中文：火烈鳥），並開源其服務器和pc客戶端代碼。以此來對前幾篇文章中說到的理論進行實踐。代碼在github和c

Druid.io系列（七）：架構剖析

apache off 系統資源單元生命周期 dir 創建主從數據 1. 前言 Druid 的目標是提供一個能夠在大數據集上做實時數據攝入與查詢的平臺，然而對於大多數系統而言，提供數據的快速攝入與提供快速查詢是難以同時實現的兩個指標。例如對於普通的RDBMS,如果想

Java入門系列（七）Java 集合框架（JCF, Java Collections Framework）

後者 try 其他使用元素下一個 erl work st2 Java 集合框架圖 List、Set、Map可以看做集合的三大類 List List代表一種線性表的數據結構， List集合是有序集合，集合中的元素可以重復，訪問集合中的元素可以根據元素的索引

Mybatis學習系列（七）緩存機制

emca value 不存在 memcach except input jedis 寫入 on() Mybatis緩存介紹 MyBatis提供一級緩存和二級緩存機制。一級緩存是Sqlsession級別的緩存，Sqlsession類的實例對象中有一個hashmap用於緩

IDEA系列（七）--給自己的IDEA一個酷炫的主題吧

nts span 系列 == log font 進入 ctrl+ blog 跟eclipse和MyEclipse一樣，先找個自己喜歡的主題。http://www.riaway.com/ 1、導入主題： file-->import Setting-->選擇自己主題

Next.js踩坑入門系列（七） —— 其他相關知識

Next.js踩坑入門系列 (一) Hello Next.js (二) 新增Antd && CSS (三) 目錄重構&&再談路由 (四) Next.js中期填坑 (五) 引入狀態管理Redux (六) 再次重構目錄 (七) 其他相關知識獲

誰擋了我的神經網路？（三）—— 啟用函式

誰擋了我的神經網路？（三）—— 啟用函式這一系列文章介紹了在神經網路的設計和訓練過程中，可能提升網路效果的一些小技巧。前文介紹了在訓練過程中的一系列經驗，這篇文章將重點關注其中的啟用函式部分。更新於2018.11.1。文章目錄誰擋了我的神經網路？（三）

Deep learning系列（七）啟用函式

1. sigmoid啟用函式

2. tanh啟用函式

3.Relu啟用函式

相關推薦