邏輯迴歸、線性迴歸、最小二乘、極大似然、梯度下降

阿新 • • 發佈：2019-02-10

轉自

http://www.zhihu.com/question/24900876

機器學習的基本框架大都是模型、目標和演算法！

重要的事情說三遍！
對於一個數據集，首先你要根據資料的特點和目的來選擇合適模型。
就你問的而言，選定的模型是Logistic Regression。現在既然已經選擇了模型，那麼接下來的問題是：怎麼才能讓這個模型儘可能好的擬合或者分類資料呢？那麼就需要有目標，所以要定下模型的cost function，但是cost function怎麼定呢？憑直覺隨便選嗎！不！可！能！
我們都知道，Linear Regression的cost function是最小二乘，即
$J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
但是Logistic Regression的cost function卻是 $J(\theta)=\sum_{i=1}^m[y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]$

為什麼Logistic Regression不使用最小二乘做cost function呢？

答案是各自的響應變數 $y$ 服從不同的概率分佈。
在Linear Regression中，前提假設是 $y$ 服從正態分佈，即 $y\sim N(\mu,\sigma^2)$ ，而Logistic中的 $y$ 是服從二項分佈的，即 $y\sim Bernoulli(\phi)$ 。(為什麼不服從正態？因為 $y$ 非0即1啊！)
因而，在用極大似然估計計算時，所得到的cost function自然是不一樣的。(可自行推導)

然而，只有目標是沒用的，我們還要有方法來達到目標，這裡的方法就是上述的演算法——最優化演算法。包括常用的梯度下降法(最速下降法)、牛頓法、擬牛頓法等。這樣，一個機器學習演算法就算完整了，因為可以用這些最優化演算法來 $minJ(\theta)$ 求出 $\theta$ 。

所以！結論是：三者完全沒有可比性！

由一些前提假設和極大似然估計從概率的角度推匯出了cost function（Linear中是最小二乘，Logistic中是對數似然），而梯度下降只是一個最優化演算法，用來優化cost function的。

邏輯迴歸、線性迴歸、最小二乘、極大似然、梯度下降

矩陣的逆、偽逆、左右逆，最小二乘，投影矩陣

線性代數之——最小二乘

關於Matlab中的線性與非線性最小二乘擬合

最小二乘法原理（後）：梯度下降求權重引數

logisitic 迴歸 +極大似然法 + 梯度下降法 (迭代優化)

邏輯迴歸、線性迴歸、最小二乘、極大似然、梯度下降

【機器學習詳解】線性迴歸、梯度下降、最小二乘的幾何和概率解釋

迴歸學習演算法---偏最小二乘迴歸、PCA降維與理論

牛頓法求解最小二乘問題（線性迴歸）

概率統計與機器學習：獨立同分布，極大似然估計，線性最小二乘迴歸

線性迴歸最小二乘梯度下降隨機梯度下降

極大既然估計和高斯分布推導最小二乘、LASSO、Ridge回歸

最小二乘迴歸，嶺迴歸，Lasso迴歸，彈性網路

偏最小二乘迴歸（PLSR）演算法原理

偏最小二乘（pls）迴歸分析 matlab

偏最小二乘迴歸（PLSR）- 2 標準演算法（NIPALS）

MATLAB——偏最小二乘迴歸演算法

迭代求解最優化問題——最小二乘問題、高斯牛頓法

最小二乘迴歸樹Python實現——統計學習方法第五章課後題

資料科學個人筆記：偏最小二乘迴歸+主成分分析+典型相關分析

邏輯迴歸、線性迴歸、最小二乘、極大似然、梯度下降

相關推薦