線性迴歸、邏輯迴歸和softmax方法

線性迴歸(Linear Regression,LR)

對於m個樣本 $X=[x_{1},x_{2}\cdots x_{n}]^{T}$ ，用引數 $\Theta =[\theta _{1},\theta _{2}\cdots \theta _{n}]^{T}$ 進行估計，記為
$h_{\theta }(x)=\Theta ^{T}X=\theta _{0}x_{0}+\theta _{1}x_{1}+\cdots \theta _{n}x_{n}（為表示方便令x_{0}=1。）$

h_{θ} (x) = Θ^{T} X = θ_{0} x_{0} + θ_{1} x_{1} + \dots θ_{n} x_{n} （ 為 表 示 方 便 令 x_{0} = 1 。 ）

定義損失函式

J(\theta )=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta }(x^{i})-y^{i})^{2}

目標為最小化損失函式

J(\theta )

，可使用梯度下降法或者最小二乘法。

梯度下降法
求 $J(\theta)$ 相對於 $\theta$ 的梯度 $\frac{\partial J(\theta )}{\partial \theta _{j}}=(h_{\theta }(x^{i})-y^{i})x^{i}_{j}$ ，這裡上標i表示第i個樣本，下標j表示樣本的第j個特徵。在梯度的負方向上更新 $\theta$ ，即
$\theta _{j}:=\theta _{j}-\alpha \frac{\partial J(\theta )}{\partial \theta _{j}}=\theta _{j}+\alpha(y^{i}-h_{\theta }(x^{i}))x^{i}_{j}$
最小二乘法
將樣本整體表示為矩陣X，結果表示為向量 $\overrightarrow{y}$ ，則引數 $\theta$ 可由下式求得
$\theta =(X^{T}X)^{-1}X^{T}\overrightarrow{y}$ 但要求X為列滿秩（列滿秩要求行數大於列數，即樣本數量應大於特徵維度，否則 $(X^{T}X)$ 為奇異矩陣，不可逆），並且求逆矩陣較慢。並且當出現多重共線性時無法計算。

線性迴歸注意事項

特徵歸一化：即對特徵資料進行歸一化操作，進行特徵縮放的好處有兩點，一是能夠提升模型的收斂速度，因為如果特徵間的資料相差級別較大的話，以兩個特徵為例，以這兩個特徵為橫縱座標繪製等高線圖，繪製出來是扁平狀的橢圓，這時候通過梯度下降法尋找梯度方向最終將走垂直於等高線的之字形路線，迭代速度變慢。但是如果對特徵進行歸一化操作之後，整個等高線圖將呈現圓形，梯度的方向是指向圓心的，迭代速度遠遠大於前者。二是能夠提升模型精度。關於歸一化可以參考模式識別之樣本資料歸一化（Normalization）與標準化（Standardization）
學習率α的選取：如果學習率α選取過小，會導致迭代次數變多，收斂速度變慢；學習率α選取過大，有可能會跳過最優解，最終導致根本無法收斂。可使用3倍法選擇學習率，即0.01，0.03，0.1，0.3，1，3···
繪製迭代次數與損失函式的曲線判斷優化效率即選擇合適的引數。此方法適用於梯度下降法。
線上性迴歸中，可能出現多重共線性，會對結果產生較大影響。多重共線性即不同特徵之間存在近似線性關係。解決方法可參考多重共線性的解決方法。

嶺迴歸(Ridge Regression)和Lasso迴歸

線上性迴歸中，存在以下問題：

變數間存在多重共線性時模型估計不準或者無法估計
樣本數較小時發生過擬合
為解決此類問題提出嶺迴歸和Lasso迴歸，其分別對應L2正則化和L1正則化。

嶺迴歸

損失函式修改為
$J(\theta )=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta }(x^{i})-y^{i})^{2}+\lambda \sum_{j=1}^{n}\theta _{j}^{2}$ $\lambda$ 為懲罰係數，可以限制引數的範圍，使用的是L2正則化項。

Lasso迴歸

損失函式修改為
$J(\theta )=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta }(x^{i})-y^{i})^{2}+\lambda \sum_{j=1}^{n}\left |\theta _{j} \right |$ $\lambda$ 為懲罰係數，可以限制引數的範圍，使用的是L1正則化項。

如果 $\lambda$ 選取過大，會把所有引數θ均最小化，造成欠擬合，如果λ選取過小，會導致對過擬合問題解決不當

嶺迴歸和Lasso迴歸的聯絡與區別

二者都通過正則化項來減少過擬合，但Lasso使用L1正則化可以使更多引數變為0，起到特徵選擇的作用，一定程度上優於嶺迴歸。關於L1的稀疏作用參考文章L1相較於L2的稀疏性。

無論對於嶺迴歸還是lasso迴歸，本質都是通過調節λ來實現模型誤差vs方差的平衡調整。

邏輯迴歸

線性迴歸可用於解決資料擬合問題，要解決分類問題時需要將輸出轉化為標籤0和1。使用Sigmoid函式進行轉換，得到邏輯迴歸。
Sigmoid函式形式為： $\phi (z)=\frac{1}{1+e^{-z}}$ ，其導數形式為 ${\phi}' (z)=\phi(z)(1- \phi(z))$
其影象如下。

則邏輯迴歸可表達為 $y=\phi(z)=\phi(\theta ^{T}x)$ 當y>=0.5認為屬於類別1，否則屬於類別0。
定義損失函式
這裡y可以看做x屬於類別1的概率，即 $\phi(z)=P(y=1|x;\theta)$ 。若假設分類問題滿足伯努利分佈，則 $1-\phi(z)=P(y=0|x;\theta)$ 。綜合兩式得到 $P(y|x;\theta)=\phi(z)^{y}(1-\phi(z))^{1-y}$ 根據最大似然法估計 $\theta$ 引數，有 $L(\theta)=\prod_{i=1}^{n} P(y^{i}|x^{i};\theta)=\prod_{i=1}^{n}\phi(z^{i})^{y^{i}}(1-\phi(z^{i}))^{1-y^{i}}$

線性迴歸、邏輯迴歸和softmax方法

線性迴歸(Linear Regression,LR)

線性迴歸注意事項

嶺迴歸(Ridge Regression)和Lasso迴歸

嶺迴歸

Lasso迴歸

嶺迴歸和Lasso迴歸的聯絡與區別

邏輯迴歸

線性迴歸、邏輯迴歸和softmax方法

機器學習cs229——（三）區域性加權迴歸、邏輯迴歸、感知器、牛頓方法、廣義線性模型

線性迴歸、邏輯迴歸和感知機的區別

ml課程：線性迴歸、邏輯迴歸入門（含程式碼實現）

對線性迴歸、邏輯迴歸、各種迴歸的概念學習

線性迴歸、嶺迴歸、Lasso迴歸、邏輯迴歸的總結

對極大似然估計、梯度下降、線性迴歸、邏輯迴歸的理解

各種迴歸全解：傳統迴歸、邏輯迴歸、加權迴歸/核迴歸、嶺迴歸、廣義線性模型/指數族

《機器學習》學習筆記（一）：線性迴歸、邏輯迴歸

迴歸問題總結（梯度下降、線性迴歸、邏輯迴歸、原始碼、正則化）

機器學習-對線性迴歸、邏輯迴歸、各種迴歸的概念學習

梯度下降原理及線上性迴歸、邏輯迴歸中的應用

Machine Learning--week3 邏輯迴歸函式(分類)、決策邊界、邏輯迴歸代價函式、多分類與(邏輯迴歸和線性迴歸的)正則化

各種機器學習方法（線性迴歸、支援向量機、決策樹、樸素貝葉斯、KNN演算法、邏輯迴歸）實現手寫數字識別並用準確率、召回率、F1進行評估

線性迴歸與邏輯迴歸、softmax迴歸

邏輯迴歸、決策樹和支援向量機

資料科學和人工智慧技術筆記十二、邏輯迴歸

【機器學習入門】Andrew NG《Machine Learning》課程筆記之四：分類、邏輯迴歸和過擬合

機器學習筆記:線性迴歸、邏輯斯蒂迴歸推導

機器學習（七）線性迴歸、正規方程、邏輯迴歸的正規化

線性迴歸、邏輯迴歸和softmax方法

線性迴歸(Linear Regression,LR)

線性迴歸注意事項

嶺迴歸(Ridge Regression)和Lasso迴歸

嶺迴歸

Lasso迴歸

嶺迴歸和Lasso迴歸的聯絡與區別

邏輯迴歸

相關推薦