pytorch筆記：03)softmax和log_softmax，以及CrossEntropyLoss

阿新 • • 發佈：2018-11-10

softmax在神經網路裡面比較常見，簡而言之，就是多分類的概率輸出

s o t f m a x (x_{i}) = \frac{\exp (x_{i})}{\sum_{j} \exp (x_{j})}

$sotfmax(x_i)=\frac{\exp(x_i)}{\sum_j \exp(x_j)}$
但是在pytorch裡面發現額外有個log_softmax( 對softmax取了一個In的對數)，為啥這樣做呢？
其實涉及到對數似然損失函式,對於用於分類的softmax啟用函式，對應的損失函式一般都是用對數似然函式，即：

J (W, b, a^{L}, y) = - \sum_{k} y_{k} l n a_{k}^{L}

$J(W,b,a^L,y) = - \sum\limits_ky_klna_k^L$
其中

l n a_{k}

$lna_k$ 為softmax函式的輸出元，

y_{k}

$y_k$ 的取值為0或者1，如果某一訓練樣本的輸出為第i類。則

y_{i} = 1

$y_i=1$ ,其餘的

j \neq i

$j≠i$ 都有

y_{j}

$y_j$ =0。由於每個樣本只屬於一個類別，所以這個對數似然函式可以簡化為：

J (W, b, a^{L}, y) = - l n a_{i}^{L}

$J(W,b,a^L,y) = -lna_i^L$
其中

i

$i$ 即為訓練樣本真實的類別序號。

pytorch裡面提供了一個實現 torch.nn.CrossEntropyLoss(This criterion combines nn.LogSoftmax() and nn.NLLLoss() in one single class)，其整合了上面的步驟。這和tensorflow中的tf.nn.softmax_cross_entropy_with_logits函式的功能是一致的。必須明確一點：在pytorch中若模型使用CrossEntropyLoss這個loss函式，則不應該在最後一層再使用softmax進行啟用。

然而在keras中，我們固化了模型的搭建，諸如：

model.add(Dense(num_classes, activation='softmax'))
model.compile(loss=keras.losses.categorical_crossentropy,optimizer=keras.optimizers.Adadelta(),metrics=['accuracy'])

我們通常在最後一層使用softmax進行啟用，保證輸出神經元的值即分類的概率值，然後在compile中使用損失函式categorical_crossentropy，這符合常理。其實可以看下keras底層的實現，其實它幫我們手動地計算了crossentropy。

def categorical_crossentropy(target, output, from_logits=False):

    if not from_logits:
        # scale preds so that the class probas of each sample sum to 1
        output /= tf.reduce_sum(output,
                                len(output.get_shape()) - 1,
                                True)
        # manual computation of crossentropy
        _epsilon = _to_tensor(epsilon(), output.dtype.base_dtype)
        output = tf.clip_by_value(output, _epsilon, 1. - _epsilon)
        return - tf.reduce_sum(target * tf.log(output),
                               len(output.get_shape()) - 1)
    else:
        return tf.nn.softmax_cross_entropy_with_logits(labels=target,
                                                       logits=output)

題外話：
為什麼要糾結這個問題？
在天池的一個比賽中，要輸出每個類別的取值概率，使用keras直接輸出最後一層即可；然而在pytorch中softmax整合到了損失函式中，最後一層沒有使用softmax進行啟用。

reference:
對數似然損失函式 http://www.cnblogs.com/pinard/p/6437495.html

pytorch筆記：03)softmax和log_softmax，以及CrossEntropyLoss

pytorch筆記：03)softmax和log_softmax，以及CrossEntropyLoss

pytorch筆記：06)requires_grad和volatile

Pytorch softmax和log_softmax & CrossEntropyLoss() 與 NLLLoss()

金甲防線服務項目筆記：菜單和初始化

筆記：免費SSL證書申請，Linux+Nginx啟用https

javaEE學習筆記：maven下載和安裝（1）

資料結構——第三章樹和二叉樹：03樹和森林

python筆記：經典類和新式類的區別

java技術學習筆記：Maven安裝和作用

資料結構筆記：順序表和單鏈表的對比分析

pytorch筆記：05)UNet網路簡單實現

pytorch筆記：04)resnet網路&解決輸入影象大小問題

pytorch筆記：08)使用LSTM寫古詩詞

pytorch筆記：07)LSTM

Python學習筆記：中文編碼和基礎語法

資料結構筆記：歸併排序和快速排序

資料結構筆記：氣泡排序和希爾排序

資料結構筆記：選擇排序和插入排序

Java技術學習路線筆記：Maven安裝和作用

Effective Java (3rd Editin) 讀書筆記：1 建立和銷燬物件

pytorch筆記：03)softmax和log_softmax，以及CrossEntropyLoss

相關推薦