1. 程式人生 > >神經網絡(三) softmax函數

神經網絡(三) softmax函數

關系 bbb 損失函數 幫助 eight 更新 ati gin sum

softmax函數

softmax用於多分類過程中,它將多個神經元的輸出,映射到(0,1)區間內,可以看成概率來理解,從而來進行多分類!

假設我們有一個數組,V,Vi表示V中的第i個元素,那麽這個元素的softmax值就是

技術分享圖片更形象的如下圖表示:

技術分享圖片

softmax直白來說就是將原來輸出是3,1,-3通過softmax函數一作用,就映射成為(0,1)的值,而這些值的累和為1(滿足概率的性質),那麽我們就可以將它理解成概率,在最後選取輸出結點的時候,我們就可以選取概率最大(也就是值對應最大的)結點,作為我們的預測目標!

softmax相關求導

當我們對分類的Loss進行改進的時候,我們要通過梯度下降,每次優化一個step大小的梯度,這個時候我們就要求Loss對每個權重矩陣的偏導,然後應用鏈式法則。那麽這個過程的第一步,就是對softmax求導傳回去,不用著急,我後面會舉例子非常詳細的說明。在這個過程中,你會發現用了softmax函數之後,梯度求導過程非常非常方便!

下面我們舉出一個簡單例子,原理一樣,目的是為了幫助大家容易理解!

技術分享圖片

我們能得到下面公式:

z4 = w41*o1+w42*o2+w43*o3

z5 = w51*o1+w52*o2+w53*o3

z6 = w61*o1+w62*o2+w63*o3

z4,z5,z6分別代表結點4,5,6的輸出,01,02,03代表是結點1,2,3往後傳的輸入.

那麽我們可以經過softmax函數得到

技術分享圖片
技術分享圖片技術分享圖片

好了,我們的重頭戲來了,怎麽根據求梯度,然後利用梯度下降方法更新梯度!

要使用梯度下降,肯定需要一個損失函數,這裏我們使用交叉熵作為我們的損失函數,為什麽使用交叉熵損失函數,不是這篇文章重點,後面有時間會單獨寫一下為什麽要用到交叉熵函數(這裏我們默認選取它作為損失函數)

交叉熵函數形式如下:

技術分享圖片

其中y代表我們的真實值,a代表我們softmax求出的值。i代表的是輸出結點的標號!在上面例子,i就可以取值為4,5,6三個結點(當然我這裏只是為了簡單,真實應用中可能有很多結點)

現在看起來是不是感覺復雜了,居然還有累和,然後還要求導,每一個a都是softmax之後的形式!

但是實際上不是這樣的,我們往往在真實中,如果只預測一個結果,那麽在目標中只有一個結點的值為1,比如我認為在該狀態下,我想要輸出的是第四個動作(第四個結點),那麽訓練數據的輸出就是a4 = 1,a5=0,a6=0,哎呀,這太好了,除了一個為1,其它都是0,那麽所謂的求和符合,就是一個幌子,我可以去掉啦!

為了形式化說明,我這裏認為訓練數據的真實輸出為第j個為1,其它均為0!

那麽Loss就變成了技術分享圖片,累和已經去掉了,太好了。現在我們要開始求導數了!

我們在整理一下上面公式,為了更加明白的看出相關變量的關系:

其中技術分享圖片,那麽形式變為技術分享圖片

那麽形式越來越簡單了,求導分析如下:

參數的形式在該例子中,總共分為w41,w42,w43,w51,w52,w53,w61,w62,w63.這些,那麽比如我要求出w41,w42,w43的偏導,就需要將Loss函數求偏導傳到結點4,然後再利用鏈式法則繼續求導即可,舉個例子此時求w41的偏導為:

技術分享圖片

w51.....w63等參數的偏導同理可以求出,那麽我們的關鍵就在於Loss函數對於結點4,5,6的偏導怎麽求,如下:

這裏分為倆種情況:

一:當選定的節點是我們期望的節點,則它的誤差項為:

技術分享圖片

那麽由上面求導結果再乘以交叉熵損失函數求導

技術分享圖片,它的導數為技術分享圖片,與上面技術分享圖片相乘為技術分享圖片(形式非常簡單,這說明我只要正向求一次得出結果,然後反向傳梯度的時候,只需要將它結果減1即可,後面還會舉例子!)那麽我們可以得到Loss對於4結點的偏導就求出了了(這裏假定4是我們的預計輸出)

二:當節點不上真正的期望節點,則它的誤差項(梯度)求法如下:

技術分享圖片

那麽由上面求導結果再乘以交叉熵損失函數求導

技術分享圖片,它的導數為技術分享圖片,與上面技術分享圖片相乘為技術分享圖片(形式非常簡單,這說明我只要正向求一次得出結果,然後反向傳梯度的時候,只需要將它結果保存即可,後續例子會講到)這裏就求出了除4之外的其它所有結點的偏導,然後利用鏈式法則繼續傳遞過去即可!我們的問題也就解決了!

下面我舉個例子來說明為什麽計算會比較方便,給大家一個直觀的理解

舉個例子,通過若幹層的計算,最後得到的某個訓練樣本的向量的分數是[ 2, 3, 4 ],
那麽經過softmax函數作用後概率分別就是=[技術分享圖片
,技術分享圖片,技術分享圖片] = [0.0903,0.2447,0.665],如果這個樣本正確的分類是第二個的話,那麽計算出來的偏導就是[0.0903,0.2447-1,0.665]=[0.0903,-0.7553,0.665],是不是非常簡單!!然後再根據這個進行back propagation就可以了。

神經網絡(三) softmax函數