一:前言

update:2015/11/9

獲得了一些新的理解,指數簇分佈的最大熵等價於其指數形式的最大似然界。二項式的最大熵解等價於二項式指數形式(sigmoid)的最大似然,多項式分佈的最大熵等價於多項式分佈指數形式(softmax)的最大似然,因此為什麼用sigmoid函式,那是因為指數簇分佈最大熵的特性的必然性。假設分佈求解最大熵,引入拉格朗日函式,求偏導數等於0,直接求出就是sigmoid函式形式。還有很多指數簇分佈都有對應的最大似然界。而且,單個指數簇分佈往往表達能力有限,就引入了多個指數簇分佈的混合模型,比如高斯混合,引出了EM演算法。想LDA就是多項式分佈的混合模型。一下子豁然開朗了好多

大概瞭解過邏輯迴歸與最大熵模型有些關係,但是一直沒有理清楚。這次稍微深入理解了一下。邏輯迴歸是最大熵對應類別為兩類時的特殊情況,也就是當邏輯迴歸類別擴充套件到多類別時,就是最大熵。下面會詳細的進行證明。

本文只是一個copy版本,內容源自:<the equivalence of logistic regression and maximum entropymodels >

首先我們引入一些符號。假定輸入是一個n維空間的實數向量。(考慮到公式在這裡展示不好看,以圖片的格式呈現)








這個公式不是憑空出來的,其背後有資訊理論基礎。於是我們得到了(10),在受公式(9)約束的條件下,求(10)的極大值。

A)     首先引入拉格朗日函式