機器學習筆記04:邏輯迴歸(Logistic regression)、分類(Classification)
面對一些類似迴歸問題,我們可以通過線性迴歸方法來擬合一個函式,以此來預測資料,但它的輸出是連續的。有時候呢,我們需要一種方法給出一個判定結果,例如”同意(agree)”、”不同意(disagree)”。、下面呢就是關於這個方法的新內容,叫做分類(Classification)問題。又例如,如果我們需要預測一輛汽車是好的還是壞的,只有兩種結果:好、壞。這種輸出為0或者1的問題,就叫做分類問題,而我們對應與此種問題所採用的方法即是邏輯迴歸(Logistic regression)。
1.分類及其表示(Classification and Representation)
i.分類(Classification)
首先來看看分類(Classification)問題,在第一段中已經簡單介紹了什麼是分類問題,下面再來舉幾個例子:
Examples | Purposes |
---|---|
Spam / Not Spam? | |
Online Transaction | Fraudulent (Yes / No?) |
Tumor | Malignant / Benign? |
第一個例子是判斷垃圾郵件,對一封郵件,我們需要判斷它是否為垃圾郵件;第二個例子是線上交易,我們需要判斷這個交易是否有欺詐的嫌疑;最後一個例子是腫瘤評估,我們需要對一個病人的病情進行綜合分析,來判斷腫瘤是惡性的還是良性的。
詳細地,我們以腫瘤評估為例。我們有如下圖所示的一些樣本,其橫座標表示腫瘤的大小,縱座標表示性態(良性還是惡性):
假設我們用一條直線
如上圖所示,
如上圖所示,我們增加了一組資料,通過線性迴歸(Linear Regression)得到了一條藍色的直線,但是其看起有點不那麼理想,例如有幾個惡性腫瘤,也會被分類為良性腫瘤。所以,在分類問題中,線性迴歸
ii.假設函式(Hypothesis)
上面我們提到了,在只有兩種結果的分類問題中,它的輸出不是
其與
現在我們來看一下邏輯迴歸(Logistic regression)的假設函式的具體意義是什麼。
這裡的函式
假設有兩個特徵:
即給定引數
iii.決策邊界(Decision Boundary)
前面提到了