Logistic Regression 邏輯回歸
問題描述
收集到某一地區的房子面積和房價的數據(x, y)42組,對於一套已知面積的房子預測其房價?
由房價數據可視化圖可以看出,可以使用一條直線擬合房價。通過這種假設得到的預測值和真實值比較接近。
Model 模型
將現實的問題通過數學模型描述出來。
m 個 樣本(example)組成訓練集(training set),每一個樣本有n個特征(feature)和一個標簽(label)。目的是,通過一個數學模型(algorithm)和參數(parameters)將每一個樣本和標簽映射。這樣,給定一個未知的樣本就可以通過建立的數學模型預測其標簽。
Hypothesis 假設
假設房價由此方程擬合
其中theta_0為偏置bias,theta_1為因變量的權重weigh
Cost function 損失函數
需要一個函數評價擬合函數的預測效果如何。直觀的,我們可以計算真實房價和預測房價的差值平方和J,J越小預測效果越好。所以,可以通過最小化J可以求出參數theta_0和theta_1的值。
Gradient descent 梯度下降
這是一個二元函數求極值的問題。可以使用求偏導的方法找出極值點。對於計算機來說采用梯度下降法。
repeat until convergence {
}
通過這種方式可以得出假設的參數。對於已知房子面積的房子就可以使用假設估計房價了。值得一提的是預測的房價不可能是100%準確,但是可以認為是在給定條件下最接近真實房價的值。
LG with multiple variables 多元線性回歸
更一般的情況是房價可能由多種因素綜合決定,像房子年齡,臥室數目和樓層數。
這時hypothesis變為
cost function變為
gradient descent變為
註意使用feature scaling將不同範圍的特征映射到相近的範圍。
Polynomial regression多項式回歸
更一般的情況是房價和面積是如下圖的關系。解決方法轉化為多元線性回歸。
在這種情況下,一種可能是選擇以下特征
hypothesis 為
即為
解決方法同多元線性回歸。
Normal Equation
當除了使用梯度下降外,還可以
解得
註意當features數多於樣本數的情況
解決辦法增加樣本數,減少特征數,使用normalization
References
- Machine Learning by Andrew Ng
- 機器學習 周誌華
Logistic Regression 邏輯回歸