Deep Learning 基礎 -- 啟用函式/損失函式

阿新 • • 發佈：2019-01-19

Deep Learning 基礎 – 啟用函式/損失函式

Tags： Deep_Learning

本文主要包含如下內容：

啟用函式

如果不使用啟用函式，你的網路的分類能力基本等同於一個線性分類器(線性迴歸)，網路表達能力不足,無法逼近任意函式,所以啟用函式是相當關鍵的。
啟用函式的特徵:非線性\可微性(用於梯度下降演算法)\單調性(保證單層網路是凸函式)

Sigmoid非線性函式

優點：

它輸入實數值並將其壓縮到0到1範圍內，即很大的負數變為0，很大的正數變為1。

缺點：

Sigmoid函式飽和使梯度消失：當函式啟用值接近於0或者1時，函式的梯度接近於0。在反向傳播計算梯度過程中：每層殘差接近於0，計算出的梯度也不可避免地接近於0。這樣在引數微調過程中，會引起引數彌散問題，傳到前幾層的梯度已經非常靠近0了，引數幾乎不會再更新。為了防止梯度消失，必須對於權重矩陣初始化

特別留意。(梯度最大值為0.25)

Sigmoid函式的輸出不是零中心的。這會導致後一層的神經元將得到上一層輸出的非 0 均值的訊號作為輸入。

exp指數函式運算複雜，會花費大量的時間。

Tanh非線性函式

t a n h (x) = 2 σ (2 x) - 1

導數為：f(z)’ = 1 − (f(z))2，最大值為1.

它將實數值壓縮到[-1,1]之間。和sigmoid神經元一樣，它也存在飽和問題，但是和sigmoid神經元不同的是，它的輸出是零中心的。因此，在實際操作中，tanh非線性函式比sigmoid非線性函式更受歡迎。

ReLU啟用函式

f (x) = m a x (0, x)

優點：

計算高效：相較於sigmoid和tanh函式，ReLU對於隨機梯度下降的收斂有巨大的加速作用。在反向傳播過程中，減輕了梯度彌散的問題，神經網路前幾層的引數也可以很快的更。

正向傳播過程中，sigmoid和tanh函式計算啟用值時需要計算指數，而Relu函式僅需要設定閾值。如果，如果。加快了正向傳播的計算速度。

ReLU會使一部分神經元的輸出為0，這樣就造成了網路的稀疏性，並且減少了引數的相互依存關係，緩解了過擬合問題的發生。

缺點：

梯度為0或者為1，隨著訓練的推進，部分輸入會落入硬飽和區，導致對應權重無法更新。這種現象被稱為“神經元死亡”。

與sigmoid類似，ReLU的輸出均值也大於0，偏移現象和神經元死亡會共同影響網路的收斂性。

Leaky ReLU啟用函式

α 是一個很小的常數(如0.25)。這樣，即修正了資料分佈，又保留了一些負軸的值，使得負軸資訊不會全部丟失。

優點：

不會飽和\計算高效\收斂速度快\不會死

Exponential Linear Units (ELU)

f (x) = {\begin{cases} x, i f x \geq 0 \\ α (e^{x} - 1), i f x < 0 \end{cases}

優點：

不會死\輸出接近0均值

缺點：

計算量大,需要指數運算

Maxout啟用函式

m a x (w_{1}^{T} x + b_{1}, w_{2}^{T} x + b_{2})

Maxout是對ReLU和leaky ReLU的一般化歸納。ReLU和Leaky ReLU都是這個公式的特殊情況（比如ReLU就是當w_1,b_1=0的時候）。這樣Maxout神經元就擁有ReLU單元的所有優點（線性操作和不飽和），而沒有它的缺點（死亡的ReLU單元）。然而和ReLU對比，它每個神經元的引數數量增加了一倍，這就導致整體引數的數量激增。

損失函式

MSE損失 + Sigmoid啟用函式

對於Sigmoid，當z的取值越來越大後，函式曲線變得越來越平緩，意味著此時的導數σ′(z)也越來越小。同樣的，當z的取值越來越小時，也有這個問題。僅僅在z取值為0附近時，導數σ′(z)的取值較大。在均方差+Sigmoid的反向傳播演算法中，每一層向前遞推都要乘以σ′(z),得到梯度變化值。Sigmoid的這個曲線意味著在大多數時候，我們的梯度變化值很小，導致我們的W,b更新到極值的速度較慢，也就是我們的演算法收斂速度較慢。

SigmoidCrossEntropyLoss（交叉熵損失+Sigmoid啟用函式）

使用交叉熵，得到的的梯度表示式沒有了σ′(z)，梯度為預測值和真實值的差距，這樣求得的Wl,bl的梯度也不包含σ′(z)，因此避免了反向傳播收斂速度慢的問題。

SoftmaxWithLoss（廣義線性迴歸分析損失層）（對數似然損失+softmax進行分類輸出）

解決分類問題,輸出層神經元輸出的值在0到1之間，同時所有輸出值之和為1.

對數似然函式

可見，梯度計算也很簡潔，也沒有第一節說的訓練速度慢的問題。

EuclideanLoss（歐式損失層）

當預測值與目標值相差很大時, 梯度容易爆炸, 因為梯度裡包含了x−t.

Smooth L1 Loss

當差值太大時, 原先L2梯度裡的x−t被替換成了±1, 這樣就避免了梯度爆炸, 也就是它更加健壯.

Deep Learning 基礎 -- 啟用函式/損失函式

Deep Learning 基礎 – 啟用函式/損失函式

啟用函式

Sigmoid非線性函式

Tanh非線性函式

ReLU啟用函式

Leaky ReLU啟用函式

Exponential Linear Units (ELU)

Maxout啟用函式

損失函式

MSE損失 + Sigmoid啟用函式

SigmoidCrossEntropyLoss（交叉熵損失+Sigmoid啟用函式）

SoftmaxWithLoss（廣義線性迴歸分析損失層）（對數似然損失+softmax進行分類輸出）

EuclideanLoss（歐式損失層）

Smooth L1 Loss

Deep Learning 基礎 -- 啟用函式/損失函式

啟用函式損失函式優化器

Deep Learning基礎--線性解碼器、卷積、池化

Deep Learning 基礎

Deep Learning基礎知識點彙總

深度學習基礎--loss與啟用函式--合頁損失函式、摺頁損失函式；Hinge Loss；Multiclass SVM Loss

深度學習基礎--loss與啟用函式--sigmiod與softmax；對數損失函式與交叉熵代價函式

AI應用開發基礎傻瓜書系列3-啟用函式和損失函式

1.3.2【Deep Learning翻譯系列】Activation Functions 啟用函式

Deep learning系列（七）啟用函式

AI應用開發基礎傻瓜書系列3-損失函式

1.2.11 【Deep Learning翻譯系列】Explanation of Logistic Regression Cost Function 對數機率迴歸代價函式的說明

機器學習基礎（四十二）—— 常用損失函式的設計（multiclass SVM loss & hinge loss）

深度神經網路之損失函式和啟用函式

Deep Learning 36：python中的一些函式

Deep Learning 32: 自己寫的keras的一個callbacks函式,解決keras中不能在每個epoch實時顯示學習速率learning rate的問題

度量學習（metric learning）損失函式

深度學習Deep Learning（04）：權重初始化問題2_ReLu激勵函式

《Deep Learning》譯文第六章深度前饋網路從異或函式說起

深度學習筆記(三)：啟用函式和損失函式

Deep Learning 基礎 -- 啟用函式/損失函式

Deep Learning 基礎 – 啟用函式/損失函式

啟用函式

Sigmoid非線性函式

Tanh非線性函式

ReLU啟用函式

Leaky ReLU啟用函式

Exponential Linear Units (ELU)

Maxout啟用函式

損失函式

MSE損失 + Sigmoid啟用函式

SigmoidCrossEntropyLoss（交叉熵損失+Sigmoid啟用函式）

SoftmaxWithLoss（廣義線性迴歸分析損失層） （對數似然損失+softmax進行分類輸出）

EuclideanLoss（歐式損失層）

Smooth L1 Loss

相關推薦

SoftmaxWithLoss（廣義線性迴歸分析損失層）（對數似然損失+softmax進行分類輸出）