【隨感】在Keras中如何按最大似然(Max Likewood)訓練模型

阿新 • • 發佈：2018-12-17

在Keras中如何按最大似然(Max Likewood)訓練模型

按照生成模型的思路，模型的引數是和資料分佈無關的，利用極大似然準則就可以訓練模型。但是在類似Keras這種神經網路庫中，如何訓練類似如下的目標函式：

$-\mathbb{E}_{{o}^{[t]},{l}} [ { \log\pi_{\theta}(a^{[t]}|{o}^{[t]},{h}^{[t-1]},{l})) } + { \eta v_{\theta}({o}^{[t]},{h}^{[t-1]},{l})} ]$

- E_{o^{[t]}, l} [lo g π_{θ} (a^{[t]} ∣ o^{[t]}, h^{[t - 1]}, l)) + η v_{θ} (o^{[t]}, h^{[t - 1]}, l)]

其中類似 $\pi_{\theta}(a^{[t]}|{o}^{[t]},{h}^{[t-1]},{l}))$ 這樣的對映的取樣是困難的(你不能將一次/多次前向傳播的結果就當做是取樣的結果),必須以極大量的前向傳播結果才能逼近這個分佈(大數定律)。下面將介紹一種替代方案，也就是將證明可以用KL散度 (Kullback–Leibler divergence)代替最大似然模型。

最大似然的損失函式: $L$

(θ,x)=−log(Pθ(x))\mathcal{L}(\theta,x) = -log(\mathcal{P}_{\theta}(x))

L (θ, x) = - l o g (P_{θ} (x))

優化目標即為 $\theta=\min_{\theta} -log(\mathcal{P}_{\theta}(x))$ ，假設真實資料分佈服從 $x \sim \mathcal{Q}(x)$ ，那麼引數 $\theta$ 的風險期望為:

$E_{x} [L (θ, x)] = - \sum_{x} Q (x) l o g (P_{θ} (x)) = \underset{D_{K}}{\underset{⎵}{\sum_{x} Q (x) l o g (Q (x) / P_{θ} (x))}}$

L(Q∣∣P)+∑xQ(x)log(1/Q(x)⎵H(Q))\mathbb{E}_{x}[\mathcal{L}(\theta,x)]=-\sum_{x}\mathcal{Q}(x) log(\mathcal{P}_{\theta}(x)) \\ = \underbrace{\sum_{x}\mathcal{Q}(x) log( { \mathcal{Q}(x) }/{ \mathcal{P}_{\theta}(x) })}_{D_{KL}(\mathcal{Q}||\mathcal{P}) } + \underbrace{\sum_{x}\mathcal{Q}(x) log( {1}/{ \mathcal{Q}(x) }}_{H(\mathcal{Q})} )

E_{x} [L (θ, x)] = - x \sum Q (x) l o g (P_{θ} (x)) = D_{K L} (Q ∣ ∣ P) x \sum Q (x) l o g (Q (x) / P_{θ} (x)) + H (Q) x \sum Q (x) l o g (1 / Q (x))

由於真實資料分佈是 $\mathcal{Q}(x)$ ，那麼 $H(\mathcal{Q})$ 是給定的，那麼 $\mathbb{E}_{x}[\mathcal{L}(\theta,x)]$ 在 $\mathcal{Q}=\mathcal{P_{\theta}}$ 時是最小的且為 $0$ .

因此我們在訓練時採用Keras自帶的crossentropy即可:

from keras.layers import Input,Embedding,LSTM,Dense
from keras.models import Model
from keras import backend as K

word_size = 128
dim_hidden = 100
dim_action = 10
dim_value  = 10
encode_size = 64

input          = Input(shape=(None,))
embedded       = Embedding(dim_hidden,word_size)(input)
encoder        = LSTM(encode_size)(embedded)
predict_action = Dense(dim_action)(encoder)
predict_value  = Dense(dim_value)(encoder)

def object1(y_true, y_pred, eta=0.2):
    loss1 = K.categorical_crossentropy(y_true, y_pred)
    return K.log(loss1)

def object2(y_true, y_pred, eta=0.2):
    loss2 = K.categorical_crossentropy(y_true, y_pred)
    return eta*loss2

model = Model(inputs=input, outputs=[predict_action,predict_value])
model.compile(optimizer='adam', loss=[object1,object2])

【隨感】在Keras中如何按最大似然(Max Likewood)訓練模型

在Keras中如何按最大似然(Max Likewood)訓練模型

【隨感】在Keras中如何按最大似然(Max Likewood)訓練模型

【機器學習筆記】最大似然估計法與LR中 J of theta 的概率解釋

【資料結構】陣列中的最大連續遞增子序列

【MLE】最大似然估計Maximum Likelihood Estimation

【BZOJ1458】士兵占領最大流的模板題

【UOJ】#79. 一般圖最大匹配

【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

【模式識別與機器學習】——最大似然估計（MLE）最大後驗概率（MAP）

【python】np.argmax() 返回最大值索引號

【佇列】滑動視窗的最大值序列,帶max函式的佇列

【機器學習】MAP最大後驗估計和ML最大似然估計區別

【演算法】最大似然估計總結筆記

【轉載】引數估計(Parameter Estimation)：頻率學派（最大似然估計MLE、最大後驗估計MAP）與貝葉斯學派（貝葉斯估計BPE）

【Leetcode】628. 三個數最大乘積

【Python】求陣列區域性最大值

【DP】求三角形面積最大問題

【機器學習】【邏輯迴歸】最大似然估計的推導和求解步驟和梯度上升演算法求解

【C++】列印1到最大的n位數

【HTTP】GET傳參最大長度的理解誤區

似然函式和最大似然估計與機器學習中的交叉熵函式之間的關係

【隨感】在Keras中如何按最大似然(Max Likewood)訓練模型

在Keras中如何按最大似然(Max Likewood)訓練模型

相關推薦