pytorch系列6 -- activation_function 啟用函式 relu, leakly_relu, tanh, sigmoid及其優缺點

主要包括：

為什麼需要非線性啟用函式？
常見的啟用函式有哪些？
python程式碼視覺化啟用函式線上性迴歸中的變現
pytorch啟用函式的原始碼

為什麼需要非線性的啟用函式呢？
只是將兩個或多個線性網路層疊加，並不能學習一個新的東西，接下來通過簡單的例子來說明一下：

假設

輸入 $x$
第一層網路引數： $w_1 = 3, b_1=1$
第二層網路引數： $w_2=2, b_2=2$

經過第一層後輸出為 $y_1 = 3\times x + 1$ 經過第二層後的輸出為： $y_2=2\times y_1 +2 = 2\times(3\times x+ 1) + 2=6 \times x +4$

是不是等同於一層網路: $w=6,b=4$

所以說簡單的堆疊網路層，而不經過非線性啟用函式啟用，並不能學習到新的特徵學到的仍然是線性關係。

接下來看一下經過啟用函式呢？

仍假設

輸入 $x$
第一層網路引數： $w_1 = 3, b_1=1$
經過啟用函式Relu: $f(x)=max(0, x)$
第二層網路引數： $w_2=2, b_2=2$

通過啟用函式的加入可以學到非線性的關係，這對於特徵提取具有更強的能力。接下來結合函式看一下，輸入的 $x$ 在經過兩個網路後的輸出結果：


# -*- coding: utf-8 -*-
"""
Spyder Editor

This is a temporary script file.
"""


import matplotlib.pyplot as plt
import numpy as np
x = np.arange(-3,3, step=0.5)

def non_activation_function_model(x):
    y_1 = x * 3 + 1
    y_2 = y_1 * 2 + 2
    print(y_2)
    
    return y_2


def activation_function_model(x):
    y_1 = x * 3 + 1
    y_relu =np.where( y_1 > 0,  y_1, 0)
    # print(y_relu)
    
    y_2 = y_relu * 2 + 1
    print(y_2)
    
    return y_2


y_non = non_activation_function_model(x)

y_ = activation_function_model(x)


plt.plot(x, y_non, label='non_activation_function')
plt.plot(x, y_, label='activation_function')
plt.legend()
plt.show()

out:

可以看出，通過啟用函式，網路結構學到了非線性特徵，而不使用啟用函式，只能得到學到線性特徵。

常用的啟用函式有：

Sigmoid
Tanh
ReLU
Leaky ReLU

分式函式的求導函式： $(\frac{g(x)}{f(x)})^{'} = \frac{g(x)^{'}f(x)-g(x)f(x)^{'}}{f(x)^2}$

Sigmoid函式
$\sigma(x) = \frac{1}{1+e^{-x}}$

其導函式為： $d\sigma(x)/dx = \sigma(x)(1-\sigma(x))$

兩者的函式影象：

import numpy as np
import matplotlib.pyplot as plt

def sigma(x):
    return 1 / (1 + np.exp(-x))

def sigma_diff(x):
    return sigma(x) * (1 - sigma(x))

x = np.arange(-6, 6, step=0.5)
y_sigma = sigma(x)
y_sigma_diff = sigma_diff(x)
axes = plt.subplot(111)
axes.plot(x, y_sigma, label='sigma')
axes.plot(x, y_sigma_diff, label='sigma_diff')
axes.spines['bottom'].set_position(('data',0))
axes.spines['left'].set_position(('data',0))
axes.legend()
plt.show()

在這裡插入圖片描述

優點：

是便於求導的平滑函式；
能壓縮資料，保證資料幅度不會趨於 $+\infin或-\infin$

缺點：

容易出現梯度消失（gradient vanishing）的現象：當啟用函式接近飽和區時，變化太緩慢，導數接近0，根據後向傳遞的數學依據是微積分求導的鏈式法則，當前導數需要之前各層導數的乘積，幾個比較小的數相乘，導數結果很接近0，從而無法完成深層網路的訓練。
Sigmoid的輸出均值不是0（zero-centered）的：這會導致後層的神經元的輸入是非0均值的訊號，這會對梯度產生影響。以 f=sigmoid(wx+b)為例，假設輸入均為正數（或負數），那麼對w的導數總是正數（或負數），這樣在反向傳播過程中要麼都往正方向更新，要麼都往負方向更新，使得收斂緩慢。
指數運算相對耗時

tanh函式
$tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$
其導函式： $d(tanh(x))/dx=\frac{4}{(e^x+e^{-x})^2}$

兩者的函式影象：

import numpy as np
import matplotlib.pyplot as plt


def tanh(x):
    return (np.exp(x) - np.exp(-x)) / (np.exp(x) + np.exp(-x))

def tanh_diff(x):
    return 4 / np.power(np.exp(x) + np.exp(-x), 2)

x = np.arange(-6, 6, step=0.5)
y_sigma = tanh(x)
y_sigma_diff = tanh_diff(x)
axes = plt.subplot(111)
axes.plot(x, y_sigma, label='sigma')
axes.plot 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    pytorch系列6 -- activation_function 啟用函式 relu, leakly_relu, tanh, sigmoid及其優缺點
       
 
  
  
 主要包括： 
  
  為什麼需要非線性啟用函式？ 
  常見的啟用函式有哪些？ 
  python程式碼視覺化啟用函式線上性迴歸中的變現 
  pytorch啟用函式的原始碼 
  
 為什麼需要非線性的啟用函式呢？ 只是將兩個或多個線性網路層疊加，並不能學習一個新的東西，接下來通過簡 

  
 

    

    
    caffe Python API 之啟用函式ReLU
       
 import sys
import os
sys.path.append("/projects/caffe-ssd/python")
import caffe

net = caffe.NetSpec()
net.data, net.label = caffe.layers.Data(
    name 

  
 

    

    
    深度學習基礎--loss與啟用函式--Relu的變種
       
  
  
 Relu的變種 
 softplus/softrelu 
   softplus 是對 ReLU 的平滑逼近的解析函式形式。   softplus的公式：   f(x)=ln(1+e^x) 
 Relu與PRelu 
    ai是增加的引數，ai=0；為ReLU，若ai取很小的固定值，則為 

  
 

    

    
    深度學習基礎--loss與啟用函式--Relu(Rectified Linear Units)
       
  
  
 ReLu(Rectified Linear Units)，即修正線性單元 
   它是不飽和的、線性的函式。可以認為是一種特殊的maxout。 
 Relu的優點 
   1）採用sigmoid和tanh等函式，算啟用函式時（指數運算），計算量大，反向傳播求誤差梯度時，求導涉及除法，計算量相 

  
 

    

    
    深度學習 --- 優化入門三（梯度消失和啟用函式ReLU）
       
 
 
 前兩篇的優化主要是針對梯度的存在的問題，如鞍點，區域性最優，梯度懸崖這些問題的優化，本節將詳細探討梯度消失問題，梯度消失問題在BP的網路裡詳細的介紹過（興趣有請的檢視我的這篇文章），然後主要精力介紹RuLU啟用函式，本篇還是根據國外的文章進行翻譯，然後再此基礎上補充，這樣使大家更容易理解，好，那 

  
 

    

    
    tensorflow啟用函式relu()的詳解
      
                tf.nn.relu(features, name = None)解釋：這個函式的作用是計算啟用函式relu，即max(features, 0)。即將矩陣中每行的非最大值置0。#!/usr/bin/env python
# -*- coding: utf-8 -*-
impo 

  
 

    

    
    啟用函式ReLU、Leaky ReLU、PReLU和RReLU
      sigmoid和tanh是“飽和啟用函式”，而ReLU及其變體則是“非飽和啟用函式”。使用“非飽和啟用函式”的優勢在於兩點：    1.首先，“非飽和啟用函式”能解決所謂的“梯度消失”問題。    2.其次，它能加快收斂速度。    Sigmoid函式需要一個實值輸入壓縮至[0,1]的範圍    σ(x) = 

  
 

    

    
    PyTorch基本用法(三)——啟用函式
      
								
								            
							
							
							文章作者：Tyan 
部落格：noahsnail.com  |  CSDN  |  簡書

本文主要是關於PyTorch的啟用函式。



import torch
import torch.nn.fu 

  
 

    

    
    pytorch系列 ---5以 linear_regression為例講解神經網路實現基本步驟以及解讀nn.Linear函式
       
 
  
  
 本文主要講述最簡單的線性迴歸函式： 
      
       
        
         
          y
         
         
          =
         
         
          w
         
      

  
 

    

    
    pytorch啟用函式--LeakyReLU()
       
 
  
  
 簡述 
 以前都是用ReLU()，第一見到LeakyReLU()，就研究了下原始碼中的註釋。 
 函式影象 
 LeakyReLU()是有一個引數的。 其實不難猜到，這個引數就是在小於0的部分的曲線的斜率。 
  
 程式碼 
 import torch
import torch.nn  

  
 

    

    
    啟用函式-Sigmoid, Tanh及ReLU
       
 
 什麼是啟用函式 
   
 在神經網路中，我們會對所有的輸入進行加權求和，之後我們會在對結果施加一個函式，這個函式就是我們所說的啟用函式。如下圖所示。 
  
 為什麼使用啟用函式 
 我們使用啟用函式並不是真的啟用什麼，這只是一個抽象概念，使用啟用函式時為了讓中間輸出多樣化，能夠處理更復 

  
 

    

    
    pytorch系列 -- 9 pytorch nn.init 中實現的初始化函式 uniform, normal, const, Xavier, He initialization
       
 
  
  
 本文內容： 1. Xavier 初始化 2. nn.init 中各種初始化函式 3. He 初始化 
 torch.init https://pytorch.org/docs/stable/nn.html#torch-nn-init 
 1. 均勻分佈 
 torch.nn.init.u 

  
 

    

    
    pytorch系列12 --pytorch自定義損失函式custom loss function
       
 
  
  
 本文主要內容： 
  
  nn.Module 和 nn.Functional 區別和聯絡 
  自定義損失函式 
  
 1. 關於nn.Module與nn.Functional的區別： 
 https://discuss.pytorch.org/t/whats-the-differe 

  
 

    

    
    AI應用開發基礎傻瓜書系列3-啟用函式
      全套教程請點選：微軟 AI 開發教程 
第三篇：啟用函式和損失函式(一） 
在這一章，我們將簡要介紹一下啟用函式~ 
啟用函式 
看神經網路中的一個神經元，為了簡化，假設該神經元接受三個輸入，分別為\(x_1, x_2, x_3\),那麼\(z=\sum\limits_{i}w_ix_i+b_i\), 
 
 

  
 

    

    
    神經網路 從ReLU到Sinc，26種啟用函式視覺化
       
  
  
 轉自：https://mp.weixin.qq.com/s/7DgiXCNBS5vb07WIKTFYRQ 
 在神經網路中，啟用函式決定來自給定輸入集的節點的輸出，其中非線性啟用函式允許網路複製複雜的非線性行為。正如絕大多數神經網路藉助某種形式的梯度下降進行優化，啟用函式需要是可微分（或者至 

  
 

    

    
    深度學習啟用函式sigmoid,tanh,ReLU,softma詳解
       
  
  
 
 
  啟用函式sigmoid,tanh,ReLU,softma詳解
 
  
 [轉載地址：](https://blog.csdn.net/u011684265/article/details/78039280) # **啟用函式sigmoid,tanh,ReLU,softmax** 
 

  
 

    

    
    [python3 Numpy使用技巧]一條語句實現numpy陣列relu啟用函式
       
  
  
 一條語句實現numpy陣列relu啟用函式 
 就是實現numpy陣列中，小於零的元素賦值零。類似於神經網路裡的啟用函式，請看程式碼： 
 Idata = 1 * (Idata > 0) * Idata
 
 可以分解一下 
 temp = Idata > 0
temp = 1  

  
 

    

    
    【轉載】ReLU啟用函式：簡單之美
      
                導語

在深度神經網路中，通常使用一種叫修正線性單元(Rectified linear unit，ReLU）作為神經元的啟用函式。ReLU起源於神經科學的研究：2001年，Dayan、Abott從生物學角度模擬出了腦神經元接受訊號更精確的啟用模型，如下圖：
其中橫軸是時間(m 

  
 

    

    
    ReLU啟用函式：簡單之美
      
                導語

在深度神經網路中，通常使用一種叫修正線性單元(Rectified linear unit，ReLU）作為神經元的啟用函式。ReLU起源於神經科學的研究：2001年，Dayan、Abott從生物學角度模擬出了腦神經元接受訊號更精確的啟用模型，如下圖：

 
其中橫軸是時 

  
 

    

    
    機器學習與深度學習系列連載： 第二部分 深度學習（八）可以自己學習的啟用函式（Maxout）
      
							
							
							可以自己學習的啟用函式（Maxout）
在深度學習中啟用函式有sigma， tanh， relu，還有以後會將到的selu，但是有沒有一個啟用函式不是人為設定的，是機器學出來的呢？對抗網路（GAN）之父Goodfellow，給我們一個肯定的答案。Learnabl

pytorch系列6 -- activation_function 啟用函式 relu, leakly_relu, tanh, sigmoid及其優缺點

pytorch系列6 -- activation_function 啟用函式 relu, leakly_relu, tanh, sigmoid及其優缺點

caffe Python API 之啟用函式ReLU

深度學習基礎--loss與啟用函式--Relu的變種

深度學習基礎--loss與啟用函式--Relu(Rectified Linear Units)

深度學習 --- 優化入門三（梯度消失和啟用函式ReLU）

tensorflow啟用函式relu()的詳解

啟用函式ReLU、Leaky ReLU、PReLU和RReLU

PyTorch基本用法(三)——啟用函式

pytorch系列 ---5以 linear_regression為例講解神經網路實現基本步驟以及解讀nn.Linear函式

pytorch啟用函式--LeakyReLU()

啟用函式-Sigmoid, Tanh及ReLU

pytorch系列 -- 9 pytorch nn.init 中實現的初始化函式 uniform, normal, const, Xavier, He initialization

pytorch系列12 --pytorch自定義損失函式custom loss function

AI應用開發基礎傻瓜書系列3-啟用函式

神經網路從ReLU到Sinc，26種啟用函式視覺化

深度學習啟用函式sigmoid,tanh,ReLU,softma詳解

[python3 Numpy使用技巧]一條語句實現numpy陣列relu啟用函式

【轉載】ReLU啟用函式：簡單之美

ReLU啟用函式：簡單之美

機器學習與深度學習系列連載：第二部分深度學習（八）可以自己學習的啟用函式（Maxout）