1. 程式人生 > >各種迴歸全解:傳統迴歸、邏輯迴歸、加權迴歸/核迴歸、嶺迴歸、廣義線性模型/指數族

各種迴歸全解:傳統迴歸、邏輯迴歸、加權迴歸/核迴歸、嶺迴歸、廣義線性模型/指數族

2、從‘廣義線性模型(GLM:generalized linear models)’和‘指數族’說起:

(1)指數族(the exponential family)



  • 伯努利分佈:


  • 高斯分佈:


(2)GLM


3、為什麼sigma函式可以代表概率?

設y只取0,1

4、邏輯迴歸的引數估計:(使用最大似然,因為關於未知數的概率函式是相乘且指數)




注意:發現邏輯迴歸最後需要求解的式子和傳統線性迴歸一樣,再次說明了 概率密度符合指數族的分佈的隨機變數,都可以用GLM迴歸分析 最後求解過程參見‘二。傳統線性迴歸的2’

5、邏輯迴歸的優點:

見二2,線性迴歸、嶺迴歸、區域性加權線性迴歸這些‘傳統線性迴歸’可知,最終的最優解是基於
由於特徵樣本x是高斯分佈導致誤差是高斯分佈,從而進行最優解求解 而從上面的4可見,邏輯迴歸直接根據二項分佈的概率密度特點匯出最優解,所以邏輯迴歸的優勢:

(1)不需要特徵樣本x是高斯分佈

(2)甚至不需要x具有特定分佈(注意:LR所謂的‘二項分佈’是指標對分類結果y只有0和1,這個分佈和x無關)

(3)對於誤差的分佈當然也沒有要求

六。關於線性迴歸、嶺迴歸、區域性加權線性迴歸和邏輯迴歸的特點

前兩種都是:

這本身就是一個‘超平面’方程 因為是‘平的’,所以如果沿某一個平面的三個點(兩頭是同一個型別,中間是另一種),x依次增加,但是y是‘兩頭大,中間小’,則一個平面是無法分開的 對於邏輯迴歸: 因為sigma函式並沒有改變單調性,所以和上面的同理

可以是黑的,但不能是紅的 但是對於區域性加權線性迴歸: 因為是針對單個預測點單獨估值,即便被估值的點在‘凹點或凸點’,因為是‘區域性直線’

也會比較精確 換句話說,一般的線性迴歸或者邏輯迴歸這種先用所有樣本點算出引數後再代入預測值x,對於‘凹點或凸點’x來說,會被兩側距離遠的點影響,從而出現最終上圖紅線的情況