1. 程式人生 > >邏輯斯諦迴歸與最大熵分類模型

邏輯斯諦迴歸與最大熵分類模型

1 邏輯斯諦演算法

1.1 工作原理

邏輯斯諦是一種最優化演算法。根據現有資料對分類邊界線建立迴歸公式,相當於找出一些擬合引數,將兩類資料儘可能的分開。為了實現迴歸分類,我們給每個特徵分配一個迴歸係數,然後把所有結果相加,為了能讓這個結果可以表示分類,我們另外使用一個階躍函式Sigmoid,將結果帶入,函式可以使輸出範圍控制在0-1之間,大於0.5分為1類,小於0.5分為0類。

1.2 三要素

模型:條件概率模型、對數線性函式決策模型

策略:對數似然函式最大化、邏輯斯諦損失(預測值與真實值的差)

演算法:梯度下降演算法

注:隨機梯度下降演算法更快速,不容易陷入區域性最優解。

條件概率模型和對數線性模型可以相互轉化,即表示為輸出Y=1的對數機率是輸入x的線性函式。

優點:計算代價不高,易於理解和實現。

缺點:容易欠擬合,分類精度不高

2 最大熵模型

2.1 工作原理

最大熵原理認為,學習概率模型時,熵最大的模型時最好的模型。表述為在滿足約束條件的模型集合中選擇熵最大的模型。0 <= H(P) <= log |X|  ,X服從均勻分佈時,熵最大。我們將約束最優化原始問題轉換為無約束最優化的對偶問題,求解對偶函式的極大化(等價於極大似然估計)。

2.2 三要素

模型:最大熵決策模型

策略:極大似然估計學習引數,求解最優化問題

演算法:改進的迭代尺度法、擬牛頓法

2.3 對偶化

對原約束最優化問題,引入拉格朗日乘子,定義拉格朗日函式,原始問題為min max L(P,w) 轉換為對偶問題max min L(P,w),由於L(P,w)是凸函式,所以原問題與對偶問題的解釋等價的。min L(P,w)可以通過求偏導數計算,之後求解對偶函式的最大化,這裡可以應用最優化演算法改進的迭代尺度法等。

2.4 最優化演算法

對偶函式的極大化 = 對數似然函式的極大化 = 最大熵極大似然估計

2.4.1 改進的迭代尺度法(IIS)

假設最大熵模型當前的引數向量是w,我們希望得到一個新的引數向量w+§,使得模型的對數似然函式增大。如果有這樣一種引數更新方法w→w+§,那麼就可以迭代找到函式最大值。

對數似然函式改變數:L(w+§) - L(w) >= A(§|w) >= B(§|w)

對改變數的下界B求偏導,得出§,通過提高下界B,不斷優化函式值,最終求得對數似然函式的最大值。

2.4.2 擬牛頓法

0

優點:不需要考慮如何使用特徵,特徵可以靈活選擇,不需要獨立性假設

缺點:計算量巨大

參考資料:統計學習方法(李航)、機器學習實戰(Peter)