1. 程式人生 > >機器學習-啟用函式

機器學習-啟用函式

啟用函式

啟用函式是作用於神經網路神經元輸出的函式。只有加入了非線性啟用函式之後,深度神經網路才具備了分層的非線性對映學習能力,常用的啟用函式如下圖所示。
這裡寫圖片描述
linear為線性啟用函式,表示式為 這裡寫圖片描述,用於迴歸神經網路輸出(或二分類問題);

sigmoid為非線性啟用函式 這裡寫圖片描述,用於隱層神經元輸出,將一個real value對映到(0,1)的區間,可以用來做二分類,函式在兩端附近的梯度較小,這也是sigmoid的缺點,在這些x值處,梯度容易飽和,從而造成引數無法更新或者更新很慢,向傳播求誤差梯度時,求導涉及除法,計算量相對大;
Sigmoid函式就是二項邏輯迴歸模型,這裡寫圖片描述
tanh

為非線性啟用函式 這裡寫圖片描述,用於隱層神經元輸出,將一個real value對映到(-1,1)的區間,有梯度飽和的情況存在,但比sigmoid函式延遲了飽和期;

ReLU為分段啟用函式,也叫修正線性單元 這裡寫圖片描述,用於隱層神經元輸出,消除了梯度飽和的情況,Relu會使一部分神經元的輸出為0,網路的稀疏性,減少了引數的相互依存關係,緩解了過擬合問題的發生,一般現在神經網路的啟用函式預設使用ReLu;

Softmax為非線性啟用函式這裡寫圖片描述,用於多分類神經網路輸出,把一個k維的real value向量(a1,a2,a3,a4….)對映成一個(b1,b2,b3,b4….)其中bi是一個0-1的常數,然後可以根據bi的大小來進行多分類的任務,取權重最大的一維;

最大熵模型和多項邏輯迴歸模型對比

最大熵模型如下式
這裡寫圖片描述
多項邏輯迴歸模型如下式
這裡寫圖片描述
最大熵模型與邏輯迴歸模型的區別:引自
王贇 Maigo

一般說的“特徵”都是指輸入的特徵,而最大熵模型中的“特徵”指的是輸入和輸出共同的特徵。
最大熵模型中的每個特徵會有一個權重,你可以把它理解成這個特徵所描述的輸入和輸出有多麼傾向於同時出現。
可以以多類logistic regression為例,來感受一下兩種視角的不同。
在一般的視角下,每條輸入資料會被表示成一個n維向量,可以看成n個特徵。而模型中每一類都有n個權重,與n個特徵相乘後求和再經過softmax的結果,代表這條輸入資料被分到這一類的概率。
在最大熵模型的視角下,每條輸入的n個“特徵”與k個類別共同組成了nk個特徵,模型中有nk個權重,與特徵一一對應。每個類別會觸發nk個特徵中的n個,這n個特徵的加權和經過softmax,代表輸入被分到各類的概率。

深度學習筆記–啟用函式
ReLu(Rectified Linear Units)啟用函式