1. 程式人生 > >從概率的角度看logistic regression

從概率的角度看logistic regression

logistic regression假設樣本 x x 為正的概率是: P ( Y = 1

x ) = 1 1 + e
( w x + b
)
P(Y=1|x)=\frac{1}{1+e^{-(w\cdot x+b)}}
我們在看這個公式的時候,可以理解成

  • x x 是一個事件,一共有1,2,…,N個事件
  • Y Y 是類別,有0和1,這兩種類別

那麼 P ( Y = 1 x ) P(Y=1|x) 我理解就是一個後驗概率,後驗概率的意思是

後驗概率:事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小

所以 P ( Y = 1 x ) P(Y=1|x) 就是事件 x x 已經發生了, x x 屬於這個 Y = 1 Y=1 這個類別的概率是多少。

現在就假設 P ( Y = 1 x ) = 1 1 + e ( w x + b ) P(Y=1|x)=\frac{1}{1+e^{-(w\cdot x+b)}} ,同理 P ( Y = 0 x ) = 1 1 1 + e ( w x + b ) P(Y=0|x)=1-\frac{1}{1+e^{-(w\cdot x+b)}} 也可以是這麼理解。

OK,我們假設是這個概率,那麼假設中的引數 w b w,b 怎麼求呢?答案是:

極大似然函式估計法

為什麼用這個方法求 w b w,b ?因為

極大似然函式估計法就是用來求模型已知,引數未知的情況下,通過若干次試驗,觀察其結果,利用試驗結果得到某個引數值能夠使樣本出現的概率為最大。

在logistic regression裡,模型已知了啊,是 P ( Y = 1 x ) = 1 1 + e ( w x + b ) P(Y=1|x)=\frac{1}{1+e^{-(w\cdot x+b)}} ,和 P ( Y = 0 x ) = 1 1 1 + e ( w x + b ) P(Y=0|x)=1-\frac{1}{1+e^{-(w\cdot x+b)}} ,引數 w b w,b 未知,用試驗結果,就是訓練資料 x i , y i x_{i},y_{i} i = 1 , 2 , . . . , N i=1,2,...,N 去估計引數啊。

所以用極大化似然函式的方法,可以列出似然函式 L ( w x ) = P ( x w ) = i = 1 N p ( x i w ) = i = 1 N P ( Y = 1 x ) y i P ( Y = 0 x ) 1 y i L(w|x)=P(x|w)=\prod_{i=1}^{N}p(x_{i}|w)=\prod_{i=1}^{N}P(Y=1|x)^{y_{i}}P(Y=0|x)^{1-y_{i}}

這裡解釋一下這個似然函式 L ( w x ) L(w|x) ,意思是事件 x x 已經發生了, w w 的值等於某個值時使得事件 x x 發生的可能性等於多少。那麼 p ( x w ) p(x|w) 的意思是,在給定w的值等於多少,事件 x x 發生的概率是想到的。所以就可以列出上面的似然函式。

我們要求 x x 發生的可能性最大啊,那麼就是極大化似然函式,求出來的 w w 就是我們想要的引數了。由於該極大似然函式無法直接求解,我們一般通過對該函式進行梯度下降來不斷逼急最優解。