1. 程式人生 > >Logistic Regression 邏輯回歸

Logistic Regression 邏輯回歸

維度 擬合 我們 del ble sca con douban label

問題描述
收集到某一地區的房子面積和房價的數據(x, y)42組,對於一套已知面積的房子預測其房價?
技術分享圖片
技術分享圖片
由房價數據可視化圖可以看出,可以使用一條直線擬合房價。通過這種假設得到的預測值和真實值比較接近。

Model 模型

將現實的問題通過數學模型描述出來。
m 個 樣本(example)組成訓練集(training set),每一個樣本有n個特征(feature)和一個標簽(label)。目的是,通過一個數學模型(algorithm)和參數(parameters)將每一個樣本和標簽映射。這樣,給定一個未知的樣本就可以通過建立的數學模型預測其標簽。

技術分享圖片

Hypothesis 假設

假設房價由此方程擬合
技術分享圖片


其中theta_0為偏置bias,theta_1為因變量的權重weigh

Cost function 損失函數

需要一個函數評價擬合函數的預測效果如何。直觀的,我們可以計算真實房價和預測房價的差值平方和J,J越小預測效果越好。所以,可以通過最小化J可以求出參數theta_0和theta_1的值。
技術分享圖片

Gradient descent 梯度下降

這是一個二元函數求極值的問題。可以使用求偏導的方法找出極值點。對於計算機來說采用梯度下降法。
repeat until convergence {
技術分享圖片
技術分享圖片

}
技術分享圖片

技術分享圖片

通過這種方式可以得出假設的參數。對於已知房子面積的房子就可以使用假設估計房價了。值得一提的是預測的房價不可能是100%準確,但是可以認為是在給定條件下最接近真實房價的值。

LG with multiple variables 多元線性回歸

更一般的情況是房價可能由多種因素綜合決定,像房子年齡,臥室數目和樓層數。
技術分享圖片

這時hypothesis變為
技術分享圖片

cost function變為
技術分享圖片

gradient descent變為
技術分享圖片

註意使用feature scaling將不同範圍的特征映射到相近的範圍。
技術分享圖片

技術分享圖片

Polynomial regression多項式回歸

更一般的情況是房價和面積是如下圖的關系。解決方法轉化為多元線性回歸。
技術分享圖片

在這種情況下,一種可能是選擇以下特征
技術分享圖片

hypothesis
技術分享圖片

即為
技術分享圖片

解決方法同多元線性回歸。

Normal Equation

當除了使用梯度下降外,還可以

技術分享圖片

技術分享圖片

解得
技術分享圖片

註意當features數多於樣本數的情況
解決辦法增加樣本數,減少特征數,使用normalization

References

  1. Machine Learning by Andrew Ng
  2. 機器學習 周誌華

Logistic Regression 邏輯回歸