1. 程式人生 > >十分鐘理解logistic迴歸原理

十分鐘理解logistic迴歸原理

三年前,寫過一篇邏輯迴歸演算法的介紹,現在回頭來看,比較亂,首尾不能兼顧。關於邏輯迴歸的分類演算法,很多書籍都有介紹,比較來看,還是李航老師的書《統計學習方法》裡介紹的更清楚,若大家有時間,請不要偷懶,還是建議從頭開始看李航老師的書,這本書簡潔明瞭,適合入門。建議至少看1遍。

基於如上(主要參考李老師那本書),本篇部落格,再次對邏輯迴歸,梳理如下,目的是讓大家更快地理解邏輯迴歸。

1. logistic分佈的概念,如下圖
這裡寫圖片描述
logistic分佈為什麼常用呢?因為它的分佈曲線,在中心附近增長很快,而在兩端增長很慢。這就是說,若以概率0.5(中心點μ處的分佈概率)為分界點,大於μ的點Z為一類,小於μ的點為另一類,那麼,我們能很好很快地把中心點附近的資料分類,就像越階跳一樣,不拖泥帶水。

基於這個分佈的特點,我們假設訓練資料滿足如下的模型:

2. Logistic迴歸的模型,如下圖
這裡寫圖片描述

3. Logistic模型中引數的求法(估計)
有了如上模型的假設,有了訓練資料後,我們就可以把模型中的引數給求出來,具體方法如下:
這裡寫圖片描述

4. 利用模型進行分類
利用3中的方法,得到一個logistic模型的結果如下:
這裡寫圖片描述

則,對於測試資料或未來要分類的資料,我們只需把x帶入上面的兩個條件概率公式,哪個條件概率的值大,x對應的類別便是哪一類。