機器學習筆記:最大熵(模型,推導,與似然函式關係的推導,求解)
阿新 • • 發佈:2019-01-13
1、最大熵模型
最大熵原理:最大熵原理認為在學習概率模型時,在所有可能的概率模型中,熵最大的模型是最少的模型。
該原理認為要選擇的概率模型首先得承認已有的現實(約束條件),對未來無偏(即不確定的部分是等可能的)。比如隨機變數取值有A,B,C,另外已知 ,那麼根據最大熵原理,首先滿足約束條件 ,然後未知的部分即 ,應該是等可能的,所以 ,此時模型熵最大,被認為是最好的模型。
那麼根據最大熵原來來定義最大熵模型。假設要學習的是個分類模型,表示為條件概率分佈 ,訓練集 , 是輸出變數, 是輸出變量表示類別。我們需要獲得最佳的分類模型
根據最大熵原理,在滿足約束條件下, 的熵最大的模型為最佳模型。所以我定義最大熵模型就是做兩件事
- 的熵
- 約束條件
先給出聯合分佈 和邊緣分佈 如下:
,分子表示(x,y)的頻數
,分子表示
的頻數
的熵
的定義和變換如下
從而得到 的熵 。如果看不習慣那就寫成