1. 程式人生 > >經典的機器學習二分類演算法——Logistic迴歸

經典的機器學習二分類演算法——Logistic迴歸

問題描述

對於維度為m+1特徵為x樣本的二分類問題,有負類(Negative Class)記為0,正類(Positive Class)記為1,即對於類別y,有

y{0,1}.
我們期望找到一個hθ(x),使得
0hθ(x)1.
其中,θ為待優化的引數,使得在對未知類別的樣本x0分類時,
hθ(x0)為樣本為正類的概率。即分類準則如下:
y0={0,if hθ(x0)<0.5;1,if hθ(x0)0.5.

Logistic迴歸

線上性迴歸(Linear Regression)中,我們常找一組引數

θ=(θ0θ1...θm)
計算
f(x)=θTx.
設定閾值T,通過f(x)T的大小關係判斷正負類。
而在Logistic迴歸中,我們引入Sigmoid函式
g(z)=11+ez.
其影象如下
這裡寫圖片描述
Logistic迴歸取hypothesis function為
hθ(x)=g(θTx)=11+eθTx=p(y=1|x;θ)=p(y=0|x;θ).
hθ(x)等價於正類的概率,由Sigmoid函式影象可知,當
θTx0
時,判定為正類,當θTx<0時,判定為負類。

代價函式(cost function)

與線性迴歸問題類似,Logistic同樣需要定義代價函式使用梯度下降法優化引數
由於Sigmoid函式的使用,若使用與線性迴歸相同的二次損失函式,優化問題將變為非凸問題,即可能存在很多區域性最優解。Logistic迴歸採用以下損失函式