skiti-learn線性迴歸演算法庫

阿新 • • 發佈：2018-11-12

線性迴歸的目的是要得到輸出向量Y和輸入特徵X之間的線性關係，求出線性迴歸係數θ,也就是 Y=Xθ。其中Y的維度為mx1，X的維度為mxn，而θ的維度為nx1

LinearRegression
最常見的普通線性迴歸，損失函式如下：
J(θ)=1/2 (Xθ−Y)T (Xθ−Y)
此損失函式一般採用梯度下降法或者最小二乘法優化
skiti的LinearRegression類中採用的是最小二乘法：
θ=(XT X)−1 XT Y
Ridge
嶺迴歸是在普通線性迴歸的基礎上加上了L2正則化：
J(θ)=1/2 (Xθ−Y)T (Xθ−Y)+1/2 α||θ||²2
Ridge迴歸在不拋棄任何一個特徵的情況下，縮小了迴歸係數，使得模型相對而言比較的穩定，不至於過擬合。
此損失函式一般採用梯度下降法或者最小二乘法優化
skiti的Ridge類中採用的是最小二乘法：
　θ=(XT X+αE)−1 XT Y
一般來說，只要我們覺得資料有線性關係，用LinearRegression類擬合的不是特別好，需要正則化，可以考慮用Ridge類。不過需要自己制定一個超引數，自己評估超引數的好壞，比較麻煩，RidgeCV類可以解決這一問題。
RidgeCV
RidgeCV類對超引數α使用了交叉驗證，來幫忙我們選擇一個合適的α。在初始化RidgeCV類時候，我們可以傳一組備選的α值，10個，100個都可以。RidgeCV類會幫我們選擇一個合適的α。免去了我們自己去一輪輪篩選α的苦惱。
Lasso
Lasso使用了L1正則化，用係數α來調節損失函式的均方差項和正則化項的權重，損失函式如下：
J(θ)=1/2m (Xθ−Y)T (Xθ−Y)+α||θ||1
Lasso迴歸可以使得一些特徵的係數變小，甚至還是一些絕對值較小的係數直接變為0。增強模型的泛化能力。
Lasso迴歸的優化方式一般為座標軸下降法和最小角迴歸法。Lasso採用的是座標軸下降法。
一般來說，對於高維的特徵資料，尤其線性關係是稀疏的，我們會採用Lasso迴歸。或者是要在一堆特徵裡面找出主要的特徵，那麼Lasso迴歸更是首選了。但是Lasso類需要自己對α調優，所以一般用到的是LassoCV類。
LassoCV
LassoCV對超引數使用交叉驗證，幫助我們選擇一個合適的超引數。
LassoLars
與Lasso基本相同，區別在於損失的優化方法。LassoLars類採用的是最小角迴歸法。
LassoLarsCV
同樣方便LassoLars進行超引數選擇，使用交叉驗證。
針對座標軸下降法和最小角迴歸法的選擇：
一：如果我們想探索超引數α更多的相關值的話，由於最小角迴歸可以看到迴歸路徑，此時用LassoLarsCV比較好。二：如果我們的樣本數遠小於樣本特徵數的話，用LassoLarsCV也比LassoCV好。其餘場景最好用LassoCV。
LassoLarsIC
損失函式與優化方法與LassoLars相同，區別在於驗證方法。
LassoLarIC類採用的是而是用 Akaike資訊準則(AIC)和貝葉斯資訊準則(BIC)。此時我們並不需要指定備選的α值，而是由LassoLarsIC類基於AIC和BIC自己選擇。用LassoLarsIC類我們可以一輪找到超引數α，而用K折交叉驗證的話，我們需要K+1輪才能找到。相比之下LassoLarsIC類尋找α更快。
不過使用LassoLarIC資料必須滿足一定條件，需要對解的自由度做一個適當的估計。該估計是來自大樣本（漸近結果），並假設該模型是正確的（即這些資料確實是由假設的模型產生的）。當待求解的問題的條件數很差的時候（比如特徵個數大於樣本數量的時候），這些準則就會有崩潰的風險。所以除非我們知道資料是來自一個模型確定的大樣本，並且樣本數量夠大，我們才能用LassoLarsIC。而實際上我們得到的資料大部分都不能滿足這個要求。
ElasticNet
ElasticNet是Ridge和Lasso的一箇中和，做了一個既有L1也含有L2的正則化，通過ρ來平衡L1和L2的比重，損失函式如下：
J(θ)=1/2m (Xθ−Y)T (Xθ−Y)+αρ||θ||1 +α(1−ρ)/2 ||θ||²2
由於存在L1正則化無法求導，所以優化方式還是座標軸下降法和最小角迴歸法兩種。ElasticNet採用的是座標軸下降法
ElasticNetCV
ElasticNetCV對兩個超引數使用了交叉驗證。方便選擇超引數
ElasticNetCV類用在我們發現用Lasso迴歸太過（太多特徵被稀疏為0），而用Ridge迴歸又正則化的不夠（迴歸係數衰減的太慢）的時候。一般不推薦拿到資料就直接就上ElasticNetCV。
OrthogonalMatchingPursuit
OrthogonalMatchingPursuit（OMP）演算法和普通的線性迴歸損失函式的區別是增加了一個限制項，來限制迴歸係數中非0元素的最大個數。
J(θ)=1/2 (Xθ−Y)T (Xθ−Y)
subject to ||θ||0≤n(non−zero−coefs)
其中(||θ||0代表θ的L0範數，即非0迴歸係數的個數。)
OrthogonalMatchingPursuit類使用前向選擇演算法來優化損失函式。它是最小角迴歸演算法的縮水版。雖然精度不如最小角迴歸演算法，但是運算速度很快。
和之前的演算法類似，OMP需要選擇n（non−zero−coefs）的值。
OrthogonalMatchingPursuitCV
同樣的，此方法使用交叉驗證，在S折交叉驗證中以MSE最小為標準來選擇最好的n（non−zero−coefs）
OrthogonalMatchingPursuitCV類通常用在稀疏迴歸係數的特徵選擇上，這點和LassoCV有類似的地方。不過由於它的損失函式優化方法是前向選擇演算法，精確度較低，一般情況不是特別推薦用，用LassoCV就夠，除非你對稀疏迴歸係數的精確個數很在意，那可以考慮用OrthogonalMatchingPursuitCV。
MultiTaskLasso
針對具體的線性迴歸模型是Y=XW。其中X是mxn維度的矩陣。W為nxk維度的矩陣，Y為mxk維度的矩陣。m為樣本個數，n為樣本特徵，而k就代表多個迴歸模型的個數。所謂的“MultiTask”這裡其實就是指k個線性迴歸的模型一起去擬合。
J(W)=1/2m (||XW−Y||)²Fro + α||W||21
其中， (||XW−Y||)Fro是Y=XW的***Frobenius***範數。而||W||21代表W的各列的根平方和之和。
MultiTaskLasso採用座標軸下降法。
MultiTaskLassoCV
MultiTaskLassoCV類對超引數α使用了交叉驗證，來幫忙選擇一個合適的α。
MultiTaskLassoCV是多個迴歸模型需要一起共享樣本特徵一起擬合時候的首選。它可以保證選到的特徵每個模型都用到。不會出現某個模型選到了某特徵而另一個模型沒選到這個特徵的情況。
MulitTaskElasticNet
MultiTaskElasticNet類和MultiTaskLasso類的模型是相同的。不過損失函式不同。損失函式表示式如下：
J(W)=1/2m (||XW−Y||)²Fro+αρ||W||21+α(1−ρ)/2(||W||)²Fro
其中， (||XW−Y||)Fro是Y=XW的Frobenius範數。而||W||21代表W的各列的根平方和之和。
採用座標軸下降法進行優化
MultiTaskElasticNetCV
MultiTaskElasticNetCV類對超引數α和 ρ使用了交叉驗證，來幫忙選擇合適的α和ρ。
MultiTaskElasticNetCV是多個迴歸模型需要一起共享樣本特徵一起擬合時候的兩個備選之一，首選是MultiTaskLassoCV。如果我們發現用MultiTaskLassoCV時迴歸係數衰減的太快，那麼可以考慮用MultiTaskElasticNetCV。
BayesianRidge
貝葉斯迴歸模型，貝葉斯迴歸模型假設先驗概率，似然函式和後驗概率都是正態分佈。先驗概率是假設模型輸出Y是符合均值為Xθ的正態分佈，正則化引數α被看作是一個需要從資料中估計得到的隨機變數。迴歸係數θ的先驗分佈規律為球形正態分佈，超引數為λ。我們需要通過最大化邊際似然函式來估計超引數α和λ，以及迴歸係數θ。
如果我們的資料有很多缺失或者矛盾的病態資料，可以考慮BayesianRidge類，它對病態資料魯棒性很高，也不用交叉驗證選擇超引數。但是極大化似然函式的推斷過程比較耗時，一般情況不推薦使用。
ARDRegression
ARDRegression和BayesianRidge很像，唯一的區別在於對迴歸係數θ的先驗分佈假設。BayesianRidge假設θ的先驗分佈規律為球形正態分佈，而ARDRegression丟掉了BayesianRidge中的球形高斯的假設，採用與座標軸平行的橢圓形高斯分佈。這樣對應的超引數λ有n個維度，各不相同。而上面的BayesianRidge中球形分佈的θ對應的λ只有一個。
ARDRegression也是通過最大化邊際似然函式來估計超引數α和λ向量，以及迴歸係數θ。
如果我們的資料有很多缺失或者矛盾的病態資料，可以考慮BayesianRidge類，如果發現擬合不好，可以換ARDRegression試一試。因為ARDRegression對迴歸係數先驗分佈的假設沒有BayesianRidge嚴格，某些時候會比BayesianRidge產生更好的後驗結果。

skiti-learn線性迴歸演算法庫

線性迴歸的目的是要得到輸出向量Y和輸入特徵X之間的線性關係，求出線性迴歸係數θ,也就是 Y=Xθ。其中Y的維度為mx1，X的維度為mxn，而θ的維度為nx1 LinearRegression 最常見的普通線性迴歸，損失函式如下： J(θ)=1/2 (Xθ−Y)T (Xθ−Y)

skiti-learn邏輯迴歸演算法庫

skiti-learn中，與邏輯迴歸相關的3個類：LogisticRegression, LogisticRegressionCV,logistic_regression_path。LogisticRegressionCV使用交叉驗證選擇正則化係數C。logistic_regression_

skiti-learn決策樹演算法庫

skiti-learn內部實現的是調優過的CART決策樹。既可以做分類，也可以做迴歸。分類決策樹採用的類是DecisionTreeClassifier,迴歸則是DecisionTreeRegressor。 DecisionTreeClassifier and DecisionTr

基於sciket-learn實現線性迴歸演算法

線性迴歸演算法主要用來解決迴歸問題，是許多強大的非線性模型的基礎，無論是簡單線性迴歸，還是多元線性迴歸，思想都是一樣的，假設我們找到了最佳擬合方程（對於簡單線性迴歸，多元線性迴歸對應多個特徵作為一組向量）y=ax+b，則對於每一個樣本點xi，根據我們的直線方程，預測值為y^i = axi + b,真

Bobo老師機器學習筆記第五課-線性迴歸演算法的評估指標

評價線性迴歸的指標有四種，均方誤差（Mean Squared Error）、均方根誤差（Root Mean Squared Error）、平均絕對值誤差（Mean Absolute Error）以及R Squared方法。 sklearnz中使用的，也是大家推薦的方法是R Squared方法。

深入理解線性迴歸演算法（二）：正則項的詳細分析

前言當模型的複雜度達到一定程度時，則模型處於過擬合狀態，類似這種意思相信大家看到個很多次了，本文首先討論了怎麼去理解複雜度這一概念，然後回顧貝葉斯思想（原諒我有點囉嗦），並從貝葉斯的角度去理解正則項的含義以及正則項降低模型複雜度的方法，最後總結全文。 &nb

深入理解線性迴歸演算法（三）：淺談貝葉斯線性迴歸

前言上文介紹了正則化項與貝葉斯的關係，正則化項對應於貝葉斯的先驗分佈，因此通過設定引數的先驗分佈來調節正則化項。本文首先介紹了貝葉斯線性迴歸的相關性質，和正則化引數λ的作用，然後簡單介紹了貝葉斯思想的模型比較，最後總結全文。目錄 1、後驗引數分佈和預測變數分

機器學習筆記第5課：線性迴歸演算法

線性迴歸可能是統計學和機器學習中最知名且易於理解的演算法之一。它不就是一項起源於統計學的技術嗎？預測建模主要關注的是讓模型的誤差最小化，或者說，在可以解釋的前提下，儘可能作出最準確的預測。我們會借用，重用，甚至是竊取許多不同領域（包括統計學）的演算法，並將其用於上述的目標。線性迴歸

scikit-learn 線性迴歸模型的score函式，返回值是決定係數R^2

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression http://scikit-le

在Ignite中使用線性迴歸演算法

　　在本系列前面的文章中，簡單介紹了一下Ignite的機器學習網格，下面會趁熱打鐵，結合一些示例，深入介紹Ignite支援的一些機器學習演算法。　　　　如果要找合適的資料集，會發現可用的有很多，但是對於線性迴歸來說，一個非常好的備選資料集就是房價，可以非常方便地從UCI網站獲取合適的資料。　　　　在本文中會訓

機器學習（六）線性迴歸演算法分析概覽

前言前面介紹了迴歸家族中的邏輯迴歸，本篇部落格我們開始介紹線性迴歸演算法相關的問題，正所謂不同的特徵資料有不同的演算法來對待，今天我們要研究的這個演算法正好是具有線性特徵的資料所具有的特徵，與前面演算法的一個

【機器學習】線性迴歸演算法的過擬合比較

回顧過擬合與欠擬合主要介紹了什麼是欠擬合什麼是過擬合對抗過擬合主要介紹了線性迴歸中對抗過擬合的方法，主要包括：L1-norm的LASSO迴歸、L2-norm的Ridge迴歸，此外還有一個沒有提到，L1-norm和L2-norm結合的Elasitc Net(彈性網

梯度下降、線性迴歸演算法中的梯度下降、為什麼要用梯度下降演算法。

梯度梯度是一個向量。函式上某點的梯度的方向：導數最大的方向。梯度的大小（梯度的模）：該點的導數的大小。梯度下降對於一般二次函式而言：由於梯度的方向是導數最大的方向，順著梯度方向走，函式值就變大的最快，順著梯度的反方向，那麼函式值減小最快的方向，導數也慢慢減小。當導數減為

三個評價線性迴歸演算法的標準MSE、RMSE、MAE

在分類演算法中，我們首先將資料集分成訓練資料集和測試資料集，用訓練資料集去訓練我們的分類模型，用測試資料集的輸入特徵去預測，將預測的結果與測試資料集的真實結果對比，得出模型的準確率。對於線性迴歸演算法：

簡單線性迴歸演算法

一、目標尋找一條直線，最大程度的“擬合”樣本特徵和樣本輸出標記之間的關係。在迴歸問題中我們預測的是一個具體的數值，這個具體的數值是在一個連續的空間裡的，如果想看兩個特徵的迴歸問題就需要在三維空間裡

【ML_Algorithm 1】線性迴歸——演算法推導及程式碼實現

：：：：：：：：線性迴歸：：：：：：：：第一式第二式從式一到式二，需要新增一個

scikit-learn 線性迴歸擬合正弦函式，預測房價

隨書程式碼，閱讀筆記。線性迴歸擬合正弦函式 %matplotlib inline import matplotlib.pyplot as plt import numpy as np n_dots = 200 X = np.linspace(-2 * np.pi

python資料分析6:雙色球使用線性迴歸演算法預測下期中獎結果

本次將進行下期雙色球號碼的預測，想想有些小激動啊。程式碼中使用了線性迴歸演算法，這個場景使用這個演算法，預測效果一般，各位可以考慮使用其他演算法嘗試結果。發現之前有很多程式碼都是重複的工作，為了讓程式碼看的更優雅，定義了函式，去呼叫，頓時高大上了 #!/usr/bi

線性迴歸演算法原理推導講解

線性迴歸演算法線性迴歸演算法是機器學習中最基本的一個演算法，但是該演算法的思想、原理相當重要。本文將詳細從原理上講解線性迴歸演算法從一個例子引入：想象一下，假如我要去銀行貸款，銀行會問我兩個問題，一是工資、二是年齡。根據我的回答，銀行將計算

機器學習--線性迴歸演算法預測房價

裡面非常詳細地介紹了微積分基本運演算法則、線性迴歸演算法、梯度下降演算法及改進。 a. 用線性迴歸方法擬合正弦函式 %matplotlib inline import matplotlib.pyplot as plt import numpy as np # 生成2

skiti-learn線性迴歸演算法庫

相關推薦