線性模型之 Logistic Regression 數學公式推導
線性模型(Linear Model)是機器學習中應用最廣泛的模型,指通過樣本 特徵的線性組合來進行預測的模型。本系列文章會介紹四種線性模型函式的推導和優化過程。
兩分類與多分類
-
兩類分類(Binary Classification)
-
類別標籤y只有兩種取值,通常設為{0,1}
-
線性判別函式,即形如 y = w^T*x + b
-
分割超平面(hyper plane),由滿足f(w,x)=0的點組成
-
決策邊界(Decision boundary)、決策平面(Decision surface):即分分割超平面,決策邊界將特徵空間一分為二,劃分成兩個區域,每個區域對應一個類別。
-
有向距離(signed distance)
-
多樣分類(Multi-class Classification)
-
分類的類別個數大於2,多分類一般需要多個線性判別函式,但設計這些判別函式有很多方式。eg:
-
一對其餘:屬於和不屬於
-
一對一
-
argmax(改進的一對其餘):屬於每個類別的概率,找概率最大值
-
參考:多分類實現方式介紹和在Spark上實現多分類邏輯迴歸
Logistic迴歸
LR迴歸
Logistic迴歸(Logistic Regression,LR)是一種常見的處理二分類的線性迴歸模型。
為了解決連續的線性迴歸函式不適合做分類的問題,引入函式g:R^d -> (0,1)來預測類別標籤的後驗概率p(y=1 | x)
其中g(.)通常稱為啟用函式(activation function),其作用是把線性函式的值域從實數區間“擠壓”到了(0,1)之間,可以用概率表示。在統計文獻中,g(.)的逆函式g(.)^-1也稱為聯絡函式(Link Function)
在邏輯迴歸中使用Logistic作為啟用函式,標籤y=1的後驗概率為(公式-1):
標籤 y=0的後驗概率為(公式-2):
將公式-1進行等價變換,可得(公式-3):
其中
為樣本x正反例後驗概率的比例,稱為機率(odds),機率的對數稱為對數機率(log odds或者logit),公式-3中第一個表示式,左邊是線性函式,logistic迴歸可以看做是預測值為“標籤的對數機率”的線性迴歸模型,因為Logistic迴歸也稱為對數機率迴歸(Logit Regression)。
附公式-1到公式-3的推導:
引數學習
LR迴歸採用交叉熵作為損失函式,並使用梯度下降法對引數進行優化。給定N個訓練樣本{x_i,y_i},i<=N,使用LR對每個樣本進行預測,並用輸出x_i的標籤為1的後驗概率,記為y'_i(x) (公式-4)
由於y_i屬於{0,1},樣本{x_i,y_i}的真實概率可以表示為(公式-5):
使用交叉熵損失函式,其風險函式為(公式-6):
風險函式R(w)關於引數w的導數為(公式-7):
採用梯度下降演算法,Logistic的迴歸訓練過程為:初始化w_0 為0,然後通過下式來更新迭代引數(公式-8)。
其中a是學習率,y_{wt}'是當引數為w_t 時,Logistic迴歸的輸出。
從公式-6可知,風險函式R(w)是關於引數w的連續可導的凸函式,因此除了梯度下降演算法外,Logistic還可以使用高階的優化演算法,比如牛頓法來進行優化。
說明:
-
兩個未知數相乘求導:
-
sigmoid函式求導後為:
參考
-
https://zhuanlan.zhihu.com/p/44591359
-
https://blog.csdn.net/wgdzz/article/details/48816307
在這浮躁的社會沉靜,用心記錄,用心學習!

關於【資料與演算法聯盟】
專注於推薦系統,深度學習,機器學習,資料探勘,雲端計算,人工智慧,架構和程式設計等技術乾貨的分享和探討,偶爾會推送一些福利,文字,攝影和遊記,掃碼關注,不再孤單。
更多幹貨,掃碼關注
熱
相關文章
深度學習中的epochs、batch_size、iterations詳解
基於線性迴歸看偏差-方差分解(Bias-Variance Decomposition)
歡迎投稿,凡是投稿一經錄用者,贈送技術圖書和相關學習資料
國內各大網際網路公司,可內推
關注公眾號,加小編微信,拉你進
【 資料與演算法交流群 】
你點的每個 “在 看” ,我都認真當成了喜歡