1. 程式人生 > >機器學習筆記(4)Logistic回歸

機器學習筆記(4)Logistic回歸

可能性 相同 模擬 我們 inline alt 最小 cas 離散

模型介紹

對於分類問題,其得到的結果值是離散的,所以通常情況下,不適合使用線性回歸方法進行模擬。
所以提出Logistic回歸模型。
其假設函數如下:
\[ h_θ(x)=g(θ^Tx) \]
函數g定義如下:
\[ g(z)=\frac{1}{1+e^{-z}}(z∈R) \]
所以假設函數書寫如下:
\[ h_θ(x)=\frac{1}{1+e^{-θ^Tx}} \]
圖像類似如下:

技術分享圖片

根據圖像我們可以看出,當g(z)中的z大於0的時候,其g(z)則大於0.5,則此狀態下的可能性則更大。


決策邊界

對於假設函數hθ,當確定了其中所有的系數θ,則可以將\(θ^Tx\)繪制出一個用於區分結果值0與1之間的邊界。

技術分享圖片


代價函數

和線性回歸相同,代價函數可以用於構造最合適的系數θ。
\[ J(θ)=\frac{1}{m}\sum_{i=1}^{m}{cost(h_θ(x)-y)} \]
\[ cost(h_θ(x)-y)=\begin{cases} -log(h_θ(x)) & if & y=1 \ -log(1-h_θ(x)) & if & y=0 \end{cases} \]

\[ J(θ)=\frac{1}{m}[\sum_{i=1}^{m}{y^{(i)}logh_θ(x^{(i)})+(1-y^{(i)})log(1-h_θ(x^{(i)}))}] \]


技術分享圖片

分析

對於cost函數,在y=1的時候,很明顯當\(h_θ(x)\)趨近於1的時候,cost函數接近於0,則代價函數\(J(θ)\)也接近於0,合理;\(h_θ(x)\)趨近於0的時候,cost函數趨近於無窮大,而代價函數\(J(θ)\)也趨於無窮大,這是不合理的。從代價函數本身的意義出發,就是尋找當代價函數\(J(θ)\)最小的時候,就得到最合理的系數θ。


梯度下降

為了獲得最小的\(J(θ)\)
給出:
\[ θ_j:=θ_j-α\frac{?}{?θ_j}J(θ) \]
\[ θ_j:=θ_j-α\frac{1}{m}\sum_{i=1}^{m} {(h_θ(x^{(i)})-y^{(i)})x_j^{(i)}} \]

通過不斷叠代得到最終合適的θ。


一對多問題

對於很多分類問題,不只是需要分類為兩類0,1,可能需要做更多的分類。

對於解決這類問題可以采用回歸分類器,見下圖:

技術分享圖片

對於多個分類,可以選擇將需要判斷的那個分類定義為正類,其余都定義為負類,執行logistic回歸得到一個假設函數\(h_θ^{(i)}\),使用時,選擇最為合適的假設函數進行模擬即可。


機器學習筆記(4)Logistic回歸