《統計學習方法(李航)》邏輯斯蒂迴歸與最大熵模型學習筆記
作者:jliang
1.重點歸納
1)線性迴歸
(1)是確定兩種或以上變數間相互依賴的定量關係的一種統計分析方法。
(2)模型:y=wx+b
(3)誤差函式:
(4)常見求解方法
- 最小二乘法
- 梯度下降法
- 其它演算法:牛頓法或擬牛頓法
(5)最小二乘與梯度下降法關係
- 最小二乘法看作優化方法的話,那麼梯度下降法是求解方法的一種。
- 梯度下降法是一種解決問題的資料方法,最小二乘法則是一個最優化問題。
- 最小二乘法求解
通過求偏導,求得w和b的解。
2)邏輯斯蒂迴歸能夠用於分類,不過本質上還是線性迴歸。它僅線上性迴歸的基礎上,在特徵到結果的對映中加入一層sigmoid函式(非線性)對映,即先把特徵線性求和,然後再使用sigmoid函式來預測類別。
3)邏輯斯蒂迴歸本身只能求解線性可分的資料,但是通過特徵變換的方式把低維空間轉換到高維空間,而低維空間不可分的資料到高維空間中線性可分的機率會高一些。
4)邏輯斯蒂迴歸的損失函式時log損失,目標函式:對數似然函式的最大值。
損失函式的另一種表達形式:
5)最大熵原理:在滿足約束條件的模型集合中選取熵最大的模型。
2.邏輯斯蒂迴歸模型
1)邏輯斯蒂迴歸分佈
(1)分佈函式:
- μ:位置引數
- γ:形狀引數
- Sigmoid曲線以點(μ,12)為中心對稱
(2)密度函式:
2)二項邏輯斯蒂迴歸模型(二分類)
(1)模型
其中
(2)一件事發生的對數機率:
對於邏輯斯蒂迴歸而言
邏輯斯蒂迴歸模型:輸出Y=1的對數機率是輸入x的線性函式表示的模型。
(3)決策函式
實際應用時,特定的情況選擇不同閾值
- 如果對正例的判別準確性要求高,則可以選擇閾值大一些
- 如果對正例的召回要求高,則可以選擇閾值小一些
3)引數估計
(1)可以應用極大似然估計法估計模型引數
似然函式:
求Lw的極大值,得到w的估計值。
(2)對數似然函式為目標函式的最優化問題
(3)通常使用梯度下降法及擬牛頓法進行學習
4)多項邏輯斯蒂迴歸(多分類)
(1)k個類別不是互斥時,對每個類標訓練一個二元分類器
(2)k個類別是互斥時,使用softmax替換sigmoid函式。它能使一個含任意k維向量Z壓縮到另一個k維向量中,使每個元素都在[0,1]之間,並且它們之和為1。
3. 最大熵模型
1)最大熵原理:在滿足約束條件的模型集合中選取熵最大的模型。
2)當X服從均勻分佈時,熵最大。
3)最大熵模型與邏輯斯蒂迴歸模型有型別的形式,它們又稱為對數線性模型。模型學習就是在給定的訓練資料條件下對模型進行極大似然估計或正則化的極大似然估計。
4.模型學習的最優化演算法
1)邏輯斯蒂迴歸模型和最大熵模型是以似然函式為目標函式的最優化問題,可以形式化為無約束最優化問題。求解該最優化問題的演算法有改進的迭代尺度法、梯度下降法、牛頓法或擬牛頓法,牛頓法或擬牛頓法一般收斂速度更快。