深入解讀Logistic迴歸結果（…

阿新 • • 發佈：2019-01-24

Logistic迴歸雖然名字叫”迴歸”，但卻是一種分類學習方法。使用場景大概有兩個：第一用來預測，第二尋找因變數的影響因素。

一從線性迴歸到Logistic迴歸

線性迴歸和Logistic迴歸都是廣義線性模型的特例。

假設有一個因變數y和一組自變數x₁, x₂, x₃, ... , x_n，其中y為連續變數，我們可以擬合一個線性方程：

y =β₀+β₁*x₁+β₂*x₂+β₃*x₃+...+β_n*x_n

並通過最小二乘法估計各個β係數的值。

如果y為二分類變數，只能取值0或1，那麼線性迴歸方程就會遇到困難: 方程右側是一個連續的值，取值為負無窮到正無窮，而左側只能取值[0,1]

，無法對應。為了繼續使用線性迴歸的思想，統計學家想到了一個變換方法，就是將方程右邊的取值變換為[0,1]。最後選中了Logistic函式：

y = 1 / (1+e^-x)

這是一個S型函式，值域為(0,1)，能將任何數值對映到(0,1)，且具有無限階可導等優良數學性質。

我們將線性迴歸方程改寫為：

y = 1 / (1+e^-z),

其中，z =β₀+β₁*x₁+β₂*x₂+β₃*x₃+...+β_n*x_n

此時方程兩邊的取值都在0和1之間。

進一步數學變換，可以寫為：

Ln(y/(1-y)) =β₀+β₁*x₁+β₂*x₂+β₃*x₃+...+β_n*x_n

Ln(y/(1-y))

稱為Logit變換。我們再將y視為y取值為1的概率p(y=1)，因此，1-y就是y取值為0的概率p(y=0)，所以上式改寫為：

p(y=1) = e^z/(1+e^z),

p(y=0) = 1/(1+e^z),

其中，z =β₀+β₁*x₁+β₂*x₂+β₃*x₃+...+β_n*x_n.

接下來就可以使用”最大似然法”估計出各個係數β。

二 odds與OR複習

odds: 稱為機率、比值、比數，是指某事件發生的可能性(概率)與不發生的可能性（概率）之比。用p表示事件發生的概率，則：odds = p/(1-p)。

OR：比值比，為實驗組的事件發生機率(odds1)/

對照組的事件發生機率(odds2)。

三 Logistic迴歸結果的解讀

我們用一個例子來說明，這個例子中包含200名學生資料，包括1個自變數和4個自變數：

因變數: hon，表示學生是否在榮譽班(honors class)，1表示是，0表示否；

自變數：

female ：性別，分類變數，1=女，0=男

read: 閱讀成績，為連續變數

write: 寫作成績，為連續變數

math：數學成績，為連續變數

1、不包含任何變數的Logistic迴歸

首先擬合一個不包含任何變數的Logistic迴歸，

模型為 ln(p/(1-p) =β₀

迴歸結果如下（結果經過編輯）：

hon	係數β	標準誤	P
截距	-1.12546	0.164	0.000

這裡的係數β就是模型中的β₀= -1.12546，

我們用p表示學生在榮譽班的概率，所以有ln(p/(1-p) =β₀= -1.12546，

解方程得：p = 0.245。

odds = p/1-p = 0.3245

這裡的p是什麼意思呢？p就是所有資料中hon=1的概率。

我們來統計一下整個hon的資料:

hon	例數	百分比
0	151	75.5%
1	49	24.5%

hon取值為1的概率p為49/(151+49) = 24.5% = 0.245，我們可以手動計算出ln(p/(1-p) = -1.12546，等於係數β₀。可以得出關係：

β₀=ln(odds)。

2、包含一個二分類因變數的模型

擬合一個包含二分類因變數female的Logistic迴歸，

模型為 ln(p/(1-p) =β₀+β₁*female.

迴歸結果如下（結果經過編輯）：

hon	係數β	標準誤	P
female	0.593	.3414294	0.083
截距	-1.47	.2689555	0.000

在解讀這個結果之前，先看一下hon和female的交叉表：

hon	female		Total
hon	Male	Female	Total
0	74	77	151
1	17	32	49
Total	91	109

根據這個交叉表，對於男性（Male），其處在榮譽班級的概率為17/91，處在非榮譽班級的概率為74/91，所以其處在榮譽班級的機率odds1=(17/91)/(74/91) = 17/74 = 0.23；相應的，女性處於榮譽班級的機率odds2 = (32/109)/(77/109)=32/77 = 0.42。女性對男性的機率之比OR = odds2/odds1 = 0.42/0.23 = 1.809。我們可以說，女性比男性在榮譽班的機率高80.9%。

回到Logistic迴歸結果。截距的係數-1.47是男性odds的對數（因為男性用female=0表示，是對照組），ln(0.23) = -1.47。變數female的係數為0.593，是女性對男性的OR值的對數，ln(1.809) = 0.593。所以我們可以得出關係: OR = exp(β)，或者β= ln(OR)（exp(x)函式為指數函式，代表e的x次方）。

3、包含一個連續變數的模型

擬合一個包含連續變數math的Logistic迴歸，

模型為 ln(p/(1-p) =β₀+β₁*math.

迴歸結果如下（結果經過編輯）：

hon	係數β	標準誤	P
math	.1563404	.0256095	0.000
截距	-9.793942	1.481745	0.000

這裡截距係數的含義是在榮譽班中math成績為0的odds的對數。我們計算出odds = exp(-9.793942) = .00005579，是非常小的。因為在我們的資料中，沒有math成績為0的學生，所以這是一個外推出來的假想值。

怎麼解釋math的係數呢？根據擬合的模型，有：

ln(p/(1-p)) = - 9.793942 + .1563404*math

我們先假設math=54，有：

ln(p/(1-p))(math=54) = - 9.793942 + .1563404 *54

然後我們把math提高提高一個單位，令math=55，有：

ln(p/(1-p))(math=55) = - 9.793942 + .1563404 *55

兩者之差：

ln(p/(1-p))(math=55) - ln(p/1-p))(math = 54) = 0.1563404.

正好是變數math的係數。

由此我們可以說，math每提高1個單位，odds（即p/(1-p)，也即處於榮譽班的機率）的對數增加0.1563404。

那麼odds增加多少呢？根據對數公式：

ln(p/(1-p))(math=55) - ln(p/1-p))(math = 54) = ln((p/(1-p)(math=55)/ (p/(1-p)(math=54))) = ln(odds(math=55)/ odds(math=54)) = 0.1563404.

所以：

odds(math=55)/ odds(math=54) = exp(0.1563404) = 1.169.

因此我們可以說，math每升高一個單位，odds增加16.9%。且與math的所處的絕對值無關。

聰明的讀者肯定發現，odds(math=55)/ odds(math=54)不就是OR嘛！

4、包含多個變數的模型（無互動效應）

擬合一個包含female、math、read的Logistic迴歸，

模型為 ln(p/(1-p) = β₀+β₁*math+β₂*female+β₃*read.

迴歸結果如下（結果經過編輯）：

hon	係數β	標準誤	P
math	.1229589	略	0.000
female	0.979948	略	0.020
read	.0590632	略	0.026
截距	-11.77025	略	0.000

該結果說明:

（1）性別：在math和read成績都相同的條件下，女性（female=1）進入榮譽班的機率（odds）是男性（female=0）的exp(0.979948) = 2.66倍，或者說，女性的機率比男性高166%。

（2） math成績：在female和read都相同的條件下，math成績每提高1，進入榮譽班的機率提高13%（因為exp(0.1229589) = 1.13）。

（3）read的解讀類似math。

5、包含互動相應的模型

擬合一個包含female、math和兩者互動相應的Logistic迴歸，

模型為 ln(p/(1-p) =β₀+β₁*female+β₂*math+β₃*female *math.

所謂互動效應，是指一個變數對結果的影響因另一個變數取值的不同而不同。

迴歸結果如下（結果經過編輯）：

hon	係數β	標準誤	P
female	-2.899863	略	0.349
math	.1293781	略	0.000
female*math	.0669951	略	0.210
截距	-8.745841	略	0.000

注意：female*math項的P為0.21，可以認為沒有互動相應。但這裡我們為了講解互動效應，暫時忽略P值，姑且認為他們是存在互動效應的。

由於互動效應的存在，我們就不能說在保持math和female*math不變的情況下，female的影響如何如何，因為math和female*math是不可能保持不變的!

對於這種簡單的情況，我們可以分別擬合兩個方程，

對於男性（female=0）：

log(p/(1-p))= β₀ + β₂*math.

對於女性（female=1）：

log(p/(1-p))= (β₀ + β₁) + (β₂ + β₃ )*math.

然後分別解釋。

深入解讀Logistic迴歸結果（…

深入解讀Logistic迴歸結果（…

深入理解線性迴歸演算法（二）：正則項的詳細分析

深入理解線性迴歸演算法（三）：淺談貝葉斯線性迴歸

利用theano編寫logistic迴歸模型（A Real Example: Logistic Regression）

深入理解線性迴歸演算法（一）

SPSS進行logistic迴歸分析（含示例）

《機器學習實戰》Logistic迴歸演算法（1）

Logistic迴歸演算法（梯度上升）

深入解讀Quartz的原理（job-jobDetail-Trigger-scheduler）

Spark2.0機器學習系列之2：Logistic迴歸及Binary分類（二分問題）結果評估

民生銀行十五年的數據體系建設，深入解讀阿拉丁大數據生態圈、人人BI 是如何養成的？（轉載）

機器學習-Logistic迴歸python實踐【3】（10.26更新）

Logistic迴歸（Python實現）

機器學習實戰（四）邏輯迴歸LR（Logistic Regression）

機器學習實戰（Machine Learning in Action）學習筆記————05.Logistic迴歸

線性分類模型（二）：logistic迴歸模型分析

Logistic迴歸之梯度上升優化演算法（二）

Logistic迴歸之梯度上升優化演算法（一）

RabbitMQ系列（四）RabbitMQ事務和Confirm傳送方訊息確認——深入解讀（轉載）

Logistic迴歸之梯度上升優化演算法（四）

深入解讀Logistic迴歸結果（…

相關推薦