神經網路中的非線性啟用函式

阿新 • • 發佈：2018-11-25

目錄

1. ReLU 整流線性單元

2. 絕對值整流線性單元

3. 滲漏整流線性單元

4. 引數化整流線性單元

5. maxout 單元

6. logistic sigmoid 單元

7. 雙曲正切單元

8. 徑向基函式

9. softplus 函式

10. 硬雙曲正切函式

如果這篇文章對你有一點小小的幫助，請給個關注，點個贊喔~我會非常開心的~

0. 前言

萬能近似定理（universal approximation theorem）表示，一個前饋神經網路如果具有線性輸出層和至少一層具有任何一種擠壓性質的啟用函式的隱藏層，只要給予網路足夠數量的隱藏單元，它可以以任意精度來近似任何從一個有限維空間到另一個有限維空間的可測函式，前饋神經網路的導數也可以任意好的近似函式的導數。

假設，在神經網路中不使用非線性啟用函式，輸入層 $x$ ，隱藏層輸出 $z_1$ ，輸出層輸出 $z_2$ ，最終的輸出仍然是線性的。

$z^{(1)}=(w^{(1)})^Tx+b^{(1)}$

$\begin{align*} z^{(2)} &=(w^{(2)})^Tz^{(1)}+b^{(2)} \\ &=(w^{(2)})^T((w^{(1)})^Tx+b^{(1)})+b^{(2)} \\ &=(w^{(2)})^T(w^{(1)})^Tx+(w^{(2)})^Tb^{(1)}+b^{(2)} \\ &= w^Tx+b \end{align*}$

在新技術的研究和開發期間，通常會測試很多不同的啟用函式，並且發現許多標準方法的變體表現非常好。

1. ReLU 整流線性單元

大多數隱藏單元採用 ReLU 整流線性單元（rectified linear unit）， $g(z)=\max\{0,z\}$ ：

如上圖所示（圖源：深度學習），函式仍然非常接近線性，因此它保留了許多線性模型易於使用梯度優化的屬性。

ReLU 的一個缺陷是它們不能通過基於梯度的方法學習那些使啟用函式為零的樣本。

2. 絕對值整流線性單元

絕對值整流線性單元（absolute value rectification）表示為， $g(z)=\left|z\right|$ ：

3. 滲漏整流線性單元

滲漏整流線性單元（Leaky ReLU）表示為， $g(z)=\max(0,z)+0.01\min(0,z)$ ：

4. 引數化整流線性單元

引數化整流線性單元（parametric ReLU，PReLU）表示為， $g(z)=\max(0,z)+\alpha \min(0,z)$ 。

將 $\alpha$ 作為學習的引數。

5. maxout 單元

maxout 單元將輸入 $z$ 劃分為每組 $k$ 個值的幾個組，然後針對每組輸出組內最大的值：

$g(z)_i=\max_{j\in \mathbb{G}^{(i)}} z_j$

換言之，輸入 $n$ 個特徵，在不損失資訊的情況下，每一組的 $k$ 個特徵用最大值概括，那麼輸出就能減少 $k$ 倍的特徵。

maxout 單元可以學習具有多達 $k$ 段的分段線性凸函式，使用足夠大的 $k$ ，maxout 單元可以以任意精度來近似任何凸函式。

6. logistic sigmoid 單元

sigmoid 單元在其大部分割槽域內都飽和，使得基於梯度的學習變得非常困難，所以不鼓勵其作為隱藏單元啟用函式：

$\sigma(z)=\frac{1}{1+e^{-z}}$

${\sigma(z)}'=\sigma(z)(1-\sigma(z))$

7. 雙曲正切單元

雙曲正切函式定義為：

$g(z)=\textup{tanh}(z)=2\sigma(2z)-1$ ：

${g(z)}'=1-g(z)^2$

8. 徑向基函式

徑向基函式（radial basis function，RBF）表示為：

$h_i=\exp(-\frac{\left\|W_{:,i}-x\right\|^2}{\sigma_i^2})$

這個函式只有在 $x$ 很接近模版時才有用，大部分時候都飽和，因此很難優化。

9. softplus 函式

softplus 函式是 ReLU 的平滑版本：

$g(z)=\zeta (z)=\log(1+e^z)$

10. 硬雙曲正切函式

硬雙曲正切函式（hard tanh）與雙曲正切函式和 ReLU 類似：

$g(z)=\max(-1,\min(1,z))$

如果這篇文章對你有一點小小的幫助，請給個關注，點個贊喔~我會非常開心的~

[深度學習] 神經網路中的啟用函式（Activation function）

20180930 在研究調整FCN模型的時候，對啟用函式做更深入地選擇，記錄學習內容啟用函式（Activation Function），就是在人工神經網路的神經元上執行的函式，負責將神經元的輸入對映到輸出端。線性啟用函式：最簡單的linear fun

為什麼神經網路中需要啟用函式（activation function）？

在看tensorflow的時候，發現書中程式碼提到，使用ReLU啟用函式完成去線性化為什麼需要啟用函式去線性化？查了一下quaro，覺得這個回答能看明白（順便問一句，截圖算不算引用？？）---------------------------------------------

淺析神經網路中的啟用函式

1 什麼是啟用函式啟用函式就是一類x到y的對映目的：是為了引入非線性元素，解決線性模型不能解決的問題。意義：一個沒有啟用函式的神經網路將只不過是一個線性迴歸模型（Linear regression Model）。它並不能表達複雜的資料分佈。啟用

神經網路中的啟用函式sigmoid、 tanh 、RELU

首先解釋為什麼要做：再解釋怎麼做：從數學上來看，Sigmoid函式對中央區的訊號增益較大，對兩側區的訊號增益小，在訊號的特徵空間對映上，有很好的效果。在具體應用中，t

神經網路中的啟用函式（activation function）-Sigmoid, ReLu, TanHyperbolic(tanh), softmax, softplus

　　不管是傳統的神經網路模型還是時下熱門的深度學習，我們都可以在其中看到啟用函式的影子。所謂啟用函式，就是在神經網路的神經元上執行的函式，負責將神經元的輸入對映到輸出端。常見的啟用函式包括Sigmoid、TanHyperbolic(tanh)、ReLu、 sof

深度學習：神經網路中的啟用函式

軟飽和和硬飽和sigmoid 在定義域內處處可導，且兩側導數逐漸趨近於0。Bengio 教授等[1]將具有這類性質的啟用函式定義為軟飽和啟用函式。與極限的定義類似，飽和也分為左飽和與右飽和。與軟飽和相對的是硬飽和啟用函式，即：f'(x)=0，當 |x| > c，其中 c 為常數。同理，硬飽和也分為左飽和

【神經網路】RELU 啟用函式及其他相關的函式

轉載自：http://blog.csdn.net/u013146742/article/details/51986575 日常 coding 中，我們會很自然的使用一些啟用函式，比如：sigmoid、ReLU等等。不過好像忘了問自己一(n)件事：為什

神經網路常見的啟用函式彙總

1.啟用函式的作用在神經網路中，啟用函式的作用是能夠給神經網路加入一些非線性因素，使得神經網路可以更好地解決較為複雜的問題。比如在下面的這個問題中：如上圖所示，這是一個簡單的線性分類問題，只需要一條直線就可以很好地分類。當我們碰到下圖問題時，無法通過一條直線將樣

淺談神經網路中的啟用函式

啟用函式是神經網路中一個重要的環節，本文將介紹為什麼神經網路網路要利用啟用函式，幾種常用的啟用函式(邏輯函式Sigmoid、雙曲正切函式tanh、線性整流函式(ReLU)，神經網路中的梯度消失問題和ReLU如何避免梯度消失。

遺傳演算法+BP神經網路組合求解非線性函式

用遺傳演算法求解非線性問題是常見的求解演算法之一，求解的過程就是隨機生成解，計算適應度，然後選擇，交叉，變異，更新種群，不斷迭代，這樣，每個個體都會向每代中最佳的個體學習並靠攏，這是區域性最優解；而變異操作是為了在靠近當前最優解的同時還有機會變異出更佳的基因，從而跳出區域性最優解而達到全域性最優解。

Keras搭建第一個神經網路（線性迴歸）

Keras介紹： Keras 是一個相容 Theano 和 Tensorflow 的神經網路高階包, 用他來元件一個神經網路更加快速, 幾條語句就能搞定。而且廣泛的相容效能使 Keras 在 Windows 和 MacOS 或者 Linux 上執行無阻礙。 Keras安裝：首先確認

理解神經網路中的目標函式

這篇部落格主要面向擁有一定機器學習經驗的人，會幫助你直觀理解在訓練神經網路時所用到的各種不同的目標函式。 Introduction 我寫這篇部落格的原因主要有 3 個：其他部落格中經常會解釋優化演算法，例如 SGD（stochastic gradi

利用神經網路逼近sin(x)函式

參考書目：智慧控制技術（第二版）對於逼近正弦函式很多講神經網路的書中都有涉及，算是比較簡單的一個例子。對於這個網路來說，輸入只有一個，那就是取樣點（或者說時間點），輸出顯然只有一個，也就是一個與sin(x)較為相似的函式。在訓練的過程中，sin(x)作為網路的期望值。啟用

深層神經網路之經典損失函式

一, 交叉熵函式交叉熵是一個資訊理論中的概念,但在此我們不深究它的本身意義,我們要知道,交叉熵刻畫了兩個概率分佈之間的距離,在深度神經網路的構建中,我們知道真實值和預測值之間會存在一個差值,這也就是為什麼使用交叉熵函式的原因. 給定兩個概率分佈p,q, 通過q來表示p的

matlab與BP神經網路擬合非線性函式

背景介紹在實際工程應用中會遇到一些複雜的非線性系統，這些系統方程複雜，難以用數學方法建模。在這種情況下，可以使用BP神經網路表達這些非線性系統。該方法把位置系統看成是一個黑箱，首先用系統輸入輸出資料訓練BP神經網路，使網路能夠表達該未知函式，然後用訓練好的BP神經網路預測系統

神經網路歐式距離損失函式和softmaxwithloss損失函式轉換示例

1. 神經網路損失函式說明神經網路歐式距離損失函式用於連續值訓練樣本的擬合，softmaxwithloss損失函式用於分類訓練樣本的擬合。另外，深度網路對於分類樣本的擬合能力強於對於連續值樣本的擬合能力。即同樣的深度網路如果能擬合10組分類的樣本，可能只能擬合3組連續值的

[ch04-03] 用神經網路解決線性迴歸問題

系列部落格，原文在筆者所維護的github上：https://aka.ms/beginnerAI，點選star加星不要吝嗇，星越多筆者越努力。 4.3 神經網路法在梯度下降法中，我們簡單講述了一下神經網路做線性擬合的原理，即：初始化權重值根據權重值放出一個解根據均方差函式求誤差誤差反向傳播給線性

Pytorch_第六篇_深度學習 (DeepLearning) 基礎 [2]---神經網路常用的損失函式

# 深度學習 (DeepLearning) 基礎 [2]---神經網路常用的損失函式 --- ## Introduce 在上一篇[“深度學習 (DeepLearning) 基礎 [1]---監督學習和無監督學習”](https://www.cnblogs.com/wangqinze/p/13433354.ht

Python3神經網路,經典簡單示例sigmoid啟用函式

選用了sigmoid作為啟用函式，作為輸出層的計算(多分類版本的logistic迴歸)，影響輸出層的delta計算；選用了squared-error作為損失函式(注：會影響calculate_loss函式的計算以及輸出層的delta計算) __author__ = '

誰擋了我的神經網路？（三）—— 啟用函式

誰擋了我的神經網路？（三）—— 啟用函式這一系列文章介紹了在神經網路的設計和訓練過程中，可能提升網路效果的一些小技巧。前文介紹了在訓練過程中的一系列經驗，這篇文章將重點關注其中的啟用函式部分。更新於2018.11.1。文章目錄誰擋了我的神經網路？（三）