python 機器學習 sklearn 廣義線性模型

阿新 • • 發佈：2018-12-04

廣義的線性模型是最最常用和我個人認為最重要的

最小二乘

class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1)

fit_intercept=True表示是否計算截距，就是最後的那個 Y=w1X1+w2X2+b的b，normalize表示是都需要標準化
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
reg.coef_
嶺迴歸

這是對上面的一個優化， $\underset{w}{min\,} {|| X w - y||_2}^2$ 變成了 $\underset{w}{min\,} {{|| X w - y||_2}^2 + \alpha {||w||_2}^2}$ ， $\alpha \geq 0$ 是控制係數收縮量的複雜性引數： $\alpha$ 的值越大，收縮量越大，這樣係數對共線性的魯棒性也更強

class sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True, normalize=False, copy_X=True, max_iter=None, tol=0.001, solver='auto', random_state=None)

alpha就是公式上的alpha，正則話引數，後面幾個和最小二乘一樣

solver的選擇如下列表：{"auto","svd","cholesky","sparse_cg","lsqr","sag"}

'auto'根據資料型別自動選擇求解器；'svd'使用X的奇異值分解來計算嶺係數；'cholesky'使用標準的scipy.linalg.solve函式來獲得封閉形式的解決方案；'sparse_cg'使用scipy.sparse.linalg.cg中的共軛梯度求解器；'lsqr'使用專用的正則化最小二乘例程scipy.sparse.linalg.lsqr；'sag'使用隨機平均梯度下降
from sklearn.linear_model import Ridge
import numpy as np
n_samples, n_features = 10, 5
np.random.seed(0)
y = np.random.randn(n_samples)
X = np.random.randn(n_samples, n_features)
clf = Ridge(alpha=1.0)
clf.fit(X, y) 
對於有些矩陣，矩陣中某個元素的一個很小的變動，會引起最後計算結果誤差很大，這種矩陣稱為“病態矩陣”。有些時候不正確的計算方法也會使一個正常的矩陣在運算中表現出病態。對於高斯消去法來說，如果主元（即對角線上的元素）上的元素很小，在計算時就會表現出病態的特徵。

迴歸分析中常用的最小二乘法是一種無偏估計。對於一個適定問題，X通常是列滿秩的採用最小二乘法，定義損失函式為殘差的平方，最小化損失函式上述優化問題可以採用梯度下降法進行求解，也可以採用如下公式進行直接求解當X不是列滿秩時，或者某些列之間的線性相關性比較大時，的行列式接近於0，即接近於奇異，上述問題變為一個不適定問題，此時，計算時誤差會很大，傳統的最小二乘法缺乏穩定性與可靠性。為了解決上述問題，我們需要將不適定問題轉化為適定問題：我們為上述損失函式加上一個正則化項，變為其中，我們定義，於是：上式中，是單位矩陣。隨著的增大，各元素的絕對值均趨於不斷變小，它們相對於正確值的偏差也越來越大。趨於無窮大時，趨於0。其中，隨的改變而變化的軌跡，就稱為嶺跡。實際計算中可選非常多的值，做出一個嶺跡圖，看看這個圖在取哪個值的時候變穩定了，那就確定值了。

嶺迴歸是對最小二乘迴歸的一種補充，它損失了無偏性，來換取高的數值穩定性，從而得到較高的計算精度。

PS：奇異矩陣就是行列式=0；也代表著行列式的向量有線性相關；線性相關也就意味著最起碼有兩個向量式Y=AX+B的關係，也就是說有一行向量根本不起作用，也就是說在一個方陣中有M個變數，卻只有M-1個方程式，那麼根本解不了方程，既然解不了方程，你這個最小二乘的結果.....是不是有點....不對了，所以才出現了嶺迴歸。（個人理解）

所以在看到屬性式如下：工資，房產，.......， [ label ] 這樣的資料，就不要用最小二乘擬合了，試試嶺迴歸，因為工資和房產有線性關係，感覺結果不如後者（個人感覺....沒有測試過）；還有一種情況，就是一個屬性的值一直都很小很接近，比如0.000012，0.000011，0.000013；這樣的資料，我感覺這樣一來一條屬性就費了，那在一個方陣中有一個屬性不起作用，也就是一列都是0，方程也解不了啊，建議不要用最小二乘擬合。

線性迴歸工作原理

讀入資料，將資料特徵x、特徵標籤y儲存在矩陣x、y中
驗證 x^Tx 矩陣是否可逆
使用最小二乘法求得 迴歸係數 w 的最佳估計

線性迴歸開發流程

收集資料: 採用任意方法收集資料
準備資料: 迴歸需要數值型資料，標稱型資料將被轉換成二值型資料
分析資料: 繪出資料的視覺化二維圖將有助於對資料做出理解和分析，在採用縮減法求得新迴歸係數之後，可以將新擬合線繪在圖上作為對比
訓練演算法: 找到迴歸係數
測試演算法: 使用 R^2 或者預測值和資料的擬合度，來分析模型的效果
使用演算法: 使用迴歸，可以在給定輸入的時候預測出一個數值，這是對分類方法的提升，因為這樣可以預測連續型資料而不僅僅是離散的類別標籤

線性迴歸演算法特點

優點：結果易於理解，計算上不復雜。
缺點：對非線性的資料擬合不好。
適用於資料型別：數值型和標稱型資料。

def loadDataSet(fileName): #general function to parse tab -delimited floats
numFeat = len(open(fileName).readline().split('\t')) - 1 #get number of fields
dataMat = []; labelMat = []
fr = open(fileName)
for line in fr.readlines():
lineArr =[]
curLine = line.strip().split('\t')
for i in range(numFeat):
lineArr.append(float(curLine[i]))
dataMat.append(lineArr)
labelMat.append(float(curLine[-1]))
return dataMat,labelMat

#最小二乘擬合

def standRegres(xArr,yArr):
xMat = mat(xArr); yMat = mat(yArr).T
xTx = xMat.T*xMat
if linalg.det(xTx) == 0.0:
print "This matrix is singular, cannot do inverse"
return
ws = xTx.I * (xMat.T*yMat)
return ws

#嶺迴歸

def ridgeRegres(xMat,yMat,lam=0.2):
xTx = xMat.T*xMat
denom = xTx + eye(shape(xMat)[1])*lam
if linalg.det(denom) == 0.0:
print "This matrix is singular, cannot do inverse"
return
ws = denom.I * (xMat.T*yMat)
return ws

def ridgeTest(xArr,yArr): # 因為alpha不同，效果不同所以可以看看不同的alpha對解過有什麼不一樣
xMat = mat(xArr); yMat=mat(yArr).T
yMean = mean(yMat,0)
yMat = yMat - yMean #to eliminate X0 take mean off of Y
#regularize X's
xMeans = mean(xMat,0) #calc mean then subtract it off
xVar = var(xMat,0) #calc variance of Xi then divide by it
xMat = (xMat - xMeans)/xVar
numTestPts = 30
wMat = zeros((numTestPts,shape(xMat)[1]))
for i in range(numTestPts):
ws = ridgeRegres(xMat,yMat,exp(i-10))
wMat[i,:]=ws.T
return wMat

Lasso迴歸（上面的嶺迴歸是二範數--最優化理論第一章講的就是範數）

class sklearn.linear_model.Lasso(alpha=1.0, fit_intercept=True, normalize=False, precompute=False, copy_X=True, max_iter=1000, tol=0.0001, warm_start=False, positive=False, random_state=None, selection='cyclic')

引數中有一個max_iter，最大迭代次數，因為Losso不是平方，是絕對值計算，所以不能直接求解，只能迭代求解
from sklearn import linear_model
clf = linear_model.Lasso(alpha=0.1)
clf.fit([[0,0], [1, 1], [2, 2]], [0, 1, 2])
print(clf.coef_)
print(clf.intercept_)
Lasso迴歸是Ridger迴歸發展的，如果有太多的特徵，可以用此方法

因為是線性，所以比非線性解算方便。但是L1範數的懲罰項，帶有絕對值，求導之後存在尖點，所以需要通過迭代演算法來進行求解，不能直接得到解析解。迭代求解方法：

（1）座標軸下降法

（2）最小角迴歸法（Least Angle Regression，LAR）

（3）前向選擇法（Forward Selection method）

（4）前向梯度法（Forward stagewise method）

逐步向前回歸模擬：
def stageWise(xArr,yArr,eps=0.01,numIt=100):
xMat = mat(xArr); yMat=mat(yArr).T
yMean = mean(yMat,0)
yMat = yMat - yMean #can also regularize ys but will get smaller coef
xMat = regularize(xMat)
m,n=shape(xMat)
#returnMat = zeros((numIt,n)) #testing code remove
ws = zeros((n,1)); wsTest = ws.copy(); wsMax = ws.copy()
for i in range(numIt):
print ws.T
lowestError = inf;
for j in range(n):
for sign in [-1,1]:
wsTest = ws.copy()
wsTest[j] += eps*sign
yTest = xMat*wsTest
rssE = rssError(yMat.A,yTest.A)
if rssE < lowestError:
lowestError = rssE
wsMax = wsTest
ws = wsMax.copy()
returnMat[i,:]=ws.T
return returnMat

python 機器學習 sklearn 廣義線性模型

廣義的線性模型是最最常用和我個人認為最重要的最小二乘 class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=

Python機器學習/LinearRegression（線性回歸模型）（附源碼）

max ide 示意圖 res tree near main atp then LinearRegression（線性回歸） 2019-02-20 20:25:47 1.線性回歸簡介線性回歸定義：　　百科中解釋我個人的理解就是：線性回歸算法就是一個使用線性函數作為模

python機器學習-sklearn挖掘乳腺癌細胞（三）

質量 mat spl tcl pytho 不同區別工具 state python機器學習-sklearn挖掘乳腺癌細胞( 博主親自錄制) 網易雲觀看地址 https://study.163.com/course/introduction.htm?courseId=10

python機器學習-sklearn挖掘乳腺癌細胞（五）

糾正 plot 不錯方法 eid right ref nump cores python機器學習-sklearn挖掘乳腺癌細胞( 博主親自錄制) 網易雲觀看地址 https://study.163.com/course/introduction.htm?courseId

Python 機器學習系列之線性迴歸篇深度詳細

前兩篇部落格主要是講解基礎的線性迴歸，以下轉載自：http://www.jianshu.com/p/738f6092ef53，對迴歸進行深度分析，並加入了多項式的內容。前言本次推文介紹用線性模型處理迴歸問題。從簡單問題開始，先處理一個響應變數和一個解釋變數的一元問題。然後，介

資料學習(2)·廣義線性模型

作者課堂筆記，有問題請聯絡[email protected] 目錄指數族，廣義線性模型 1 指數族如果一種分佈可以寫成如下形式，那麼這種分佈屬於指數族： p(y;η)=b(y)e

[050]Python 機器學習系列之線性迴歸篇深度詳細

本次推文介紹用線性模型處理迴歸問題。從簡單問題開始，先處理一個響應變數和一個解釋變數的一元問題。然後，介紹多元線性迴歸問題（multiple linear regression），線性約束由多個解釋變數構成。緊接著，介紹多項式迴歸分析（polynomial regression 問題），一種具有非線性

《Python機器學習及實踐》----模型實用技巧

本片部落格是根據《Python機器學習及實踐》一書中的例項，所有程式碼均在本地編譯通過。資料為從該書指定的百度網盤上下載的，或者是sklearn自帶資料下載到本地使用的。程式碼片段： measurements = [{'city': 'Dubai',

機器學習sklearn多元線性迴歸

from __future__ import print_function from sklearn import datasets from sklearn.linear_model import

python機器學習——自適應線性神經元

上篇部落格我們說了感知器，這篇部落格主要記錄自適應線性神經元的實現演算法及一些其他的訓練細節，自適應線性神經元（簡稱為Adaline）由Bernard Widrow和他的博士生Tedd Hoff提出，對感知器演算法進行了改進。當然Adaline對輸入向量x的處理和感知器是一樣的，都是使用一個權重向量w與x線

寫給程式設計師的機器學習入門 (三) - 線性模型，啟用函式與多層線性模型

生物神經元與人工神經元在瞭解神經元網路之前，我們先簡單的看看生物學上的神經元是什麼樣子的，下圖摘自維基百科：（因為我不是專家，這裡的解釋只用於理解人工神經元模擬了生物神經元的什麼地方，不一定完全準確）神經元主要由細胞體和細胞突組成，而細胞突分為樹突 (Dendrites) 和軸突 (Axon)，樹突

Python機器學習筆記：線性判別分析（LDA）演算法

預備知識　　首先學習兩個概念：　　線性分類：指存在一個線性方程可以把待分類資料分開，或者說用一個超平面能將正負樣本區分開，表示式為y=wx，這裡先說一下超平面，對於二維的情況，可以理解為一條直線，如一次函式。它的分類演算法是基於一個線性的預測函式，決策的邊界是平的，比如直線和平面。一般的方法有感知器，最小

廣義線性模型 - Andrew Ng機器學習公開課筆記1.6

sans luci art 能夠 tro ron 便是 import grand 在分類問題中我們如果：他們都是廣義線性模型中的一個樣例，在理解廣義線性模型之前須要先理解指數分布族。指數分

【機器學習+sklearn框架】（一）線性模型之Linear Regression

前言一、原理 1.演算法含義 2.演算法特點二、實現 1.sklearn中的線性迴歸 2.用Python自己實現演算法三、思考（面試常問）參考前言線性迴歸（Linear Regression）基本上可以說是機器

機器學習cs229——（三）區域性加權迴歸、邏輯迴歸、感知器、牛頓方法、廣義線性模型

首先，我們先來討論一下欠擬合（underfitting）和過擬合（overfitting）問題。比如我們同樣採用線性迴歸來對一組房屋價格和房屋大小的資料進行擬合，第一種情況下我們只選取一個數據特徵(比如房屋大小 x)採用直線進行擬合。第二種情況下選取兩個資料特徵(比如房屋大

機器學習筆記五：廣義線性模型（GLM）

一.指數分佈族在前面的筆記四里面，線性迴歸的模型中，我們有，而在logistic迴歸的模型裡面，有。事實上，這兩個分佈都是指數分佈族中的兩個特殊的模型。所以，接下來會仔細討論一下指數分佈族的一些特點，會證明上面兩個分佈為什麼是指數分佈族的特性情況以及怎麼用到

機器學習數學原理（2）——廣義線性模型

機器學習數學原理（2）——廣義線性模型這篇博文主要介紹的是在機器學習中的迴歸問題以及分類問題中的一個非常具有概括性的模型：廣義線性模型（Generalized Linear Models，簡稱GLMs），這類模型包括了迴歸問題中的正態分佈，也包含了分類問題中的伯努利分佈。隨著我們的

【機器學習-斯坦福】學習筆記4 ——牛頓方法;指數分佈族; 廣義線性模型（GLM）

牛頓方法本次課程大綱： 1、牛頓方法：對Logistic模型進行擬合 2、指數分佈族 3、廣義線性模型（GLM）：聯絡Logistic迴歸和最小二乘模型複習： Logistic迴歸：分類演算法假設給定x以為引數的y=1和y=0的概率：

機器學習演算法之：指數族分佈與廣義線性模型

> 翻譯總結By joey周琦參考NG的lecture note1 part3 本文將首先簡單介紹指數族分佈，然後介紹一下廣義線性模型（generalized linear model, GLM), 最後解釋了為什麼邏輯迴歸（logistic r

斯坦福大學公開課機器學習課程（Andrew Ng）四牛頓方法與廣義線性模型

本次課所講主要內容： 1、牛頓方法：對Logistic模型進行擬合 2、指數分佈族 3、廣義線性模型（GLM）：聯絡Logistic迴歸和最小二乘模型一、牛頓方法牛頓方法與梯度下降法的功能一樣，都是對解空間進行搜尋的方法。假設有函

python 機器學習 sklearn 廣義線性模型

相關推薦