機器學習各個演算法---1.線性迴歸

阿新 • • 發佈：2019-01-22

1.最原始的linear regression

標準迴歸函式和文字資料匯入函式

from numpy import *

def loadDataSet(fileName):      #general function to parse tab -delimited floats
    numFeat = len(open(fileName).readline().split('\t')) - 1 #get number of fields '\t'是tab,每一行的特徵個數
    dataMat = []; labelMat = []   #資料矩陣，標籤矩陣
    fr = open(fileName)
    for line in fr.readlines():  #fr.readlines()表示讀取每一行
        lineArr =[]   #該行的列表,注意這裡儲存的可是數字了
        curLine = line.strip().split('\t')  #strip()去掉前後的空格,split()把一個字串分割成字串陣列
        for i in range(numFeat):   #數字序列，內建函式range() range(10) [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
            lineArr.append(float(curLine[i]))   #
        dataMat.append(lineArr)
        labelMat.append(float(curLine[-1]))  #-1表示倒數第一個
    return dataMat,labelMat    #返回資料矩陣和標籤矩陣(目標值矩陣)

def standRegres(xArr,yArr):     #用來計算最佳擬合直線
    xMat = mat(xArr); yMat = mat(yArr).T   #搞成矩陣形式   matrix.T transpose：返回矩陣的轉置矩陣
    xTx = xMat.T*xMat
    if linalg.det(xTx) == 0.0:     # numpy.linalg模組包含線性代數的函式,計算行列式值是否為0
        print "This matrix is singular, cannot do inverse"   #奇異矩陣
        return
    ws = xTx.I * (xMat.T*yMat)   #matrix.I inverse：返回矩陣的逆矩陣,就這一步就求出來了，該演算法叫做普通最小二乘法(ordinary least squares)
    return ws

測試

import regression
import matplotlib.pyplot as plt
from numpy import *
xArr, yArr = regression.loadDataSet('ex0.txt')
# print xArr[0:2] #取不到2
# print yArr
#接下來來看擬合的效果
ws = regression.standRegres(xArr, yArr)
# print ws    #變數ws存放的就是迴歸係數
xMat = mat(xArr)
yMat = mat(yArr)
yHat = xMat*ws #計算預測值
#接下來繪製資料集散點圖和最佳擬合直線圖
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(xMat[:,1].flatten().A[0],yMat.T[:,0].flatten().A[0]) 
# flatten()方法能將matrix的元素變成一維的，
# .A能使matrix變成array  


xCopy = xMat.copy()
# print xCopy
xCopy.sort(0)   #按照升序排序,主要是根據第二個元素
# print xCopy
yHat = xCopy *ws
ax.plot(xCopy[:,1],yHat,'red')
plt.show()

結果：

2. locally weighted linear regression

必要函式

#以下函式，對於x空間中的任意一個testPoint,輸出其對應的預測值yHat
def lwlr(testPoint,xArr,yArr,k=1.0):   # 引數k控制衰減速度   1.0為預設值; testPoint為輸入，函式返回根據區域性加權線性迴歸得出的預測值
    xMat = mat(xArr); yMat = mat(yArr).T
    m = shape(xMat)[0]     #[0]指示的是行數，也就是樣本點個數
    weights = mat(eye((m)))   #eye(m)主對角元素為1----對應於（m,m），其餘為0 
    for j in range(m):                      #next 2 lines create weights matrix
        diffMat = testPoint - xMat[j,:]     
        weights[j,j] = exp(diffMat*diffMat.T/(-2.0*k**2))
    xTx = xMat.T * (weights * xMat)
    if linalg.det(xTx) == 0.0:
        print "This matrix is singular, cannot do inverse"
        return
    ws = xTx.I * (xMat.T * (weights * yMat))
    return testPoint * ws

def lwlrTest(testArr,xArr,yArr,k=1.0):  #loops over all the data points and applies lwlr to each one， k的預設值為1
    m = shape(testArr)[0]
    yHat = zeros(m)     #元素全為0的向量
    for i in range(m):
        yHat[i] = lwlr(testArr[i],xArr,yArr,k)
    return yHat

def lwlrTestPlot(xArr,yArr,k=1.0):  #same thing as lwlrTest except it sorts X first
    yHat = zeros(shape(yArr))       #easier for plotting
    xCopy = mat(xArr)
    xCopy.sort(0)
    for i in range(shape(xArr)[0]):
        yHat[i] = lwlr(xCopy[i],xArr,yArr,k)
    return yHat,xCopy

測試

import regression
import matplotlib.pyplot as plt
from numpy import *

xArr, yArr = regression.loadDataSet('ex0.txt')
# print yArr[0]
# print regression.lwlr(xArr[0],xArr,yArr,0.001)
yHat, xSort = regression.lwlrTestPlot(xArr,yArr,1)    #此處的這個k值得選取會直接影響到擬合的效果
# print xSort

fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(xSort[:,1],yHat)
xMat = mat(xArr)
yMat = mat(yArr)
ax.scatter(xMat[:,1].flatten().A[0],yMat.T[:,0].flatten().A[0], s=2, c='red')
plt.show()

k=1 欠擬合

k=0.01

k=0.003 過擬合

3. 預測鮑魚的年齡

#預測鮑魚年齡
import regression
from numpy import *

abX, abY = regression.loadDataSet('abalone.txt')
yHat01=regression.lwlrTest(abX[0:99],abX[0:99],abY[0:99],0.1)   #過擬合
yHat1=regression.lwlrTest(abX[0:99],abX[0:99],abY[0:99],1)
yHat10=regression.lwlrTest(abX[0:99],abX[0:99],abY[0:99],10)
print regression.rssError(abY[0:99], yHat01.T)
print regression.rssError(abY[0:99], yHat1.T)
print regression.rssError(abY[0:99], yHat10.T)

yHat01New=regression.lwlrTest(abX[100:199],abX[0:99],abY[0:99],0.1)   #過擬合
yHat1New=regression.lwlrTest(abX[100:199],abX[0:99],abY[0:99],1)
yHat10New=regression.lwlrTest(abX[100:199],abX[0:99],abY[0:99],10)
print regression.rssError(abY[100:199], yHat01New.T)
print regression.rssError(abY[100:199], yHat1New.T)
print regression.rssError(abY[100:199], yHat10New.T)

#接下里看看普通的線性迴歸
ws = regression.standRegres(abX[0:99], abY[0:99])
yHat =mat(abX[100:199])*ws
print regression.rssError(abY[100:199],yHat.T.A)

結果：

56.8843765879
429.89056187
549.118170883

58720.7256135
573.526144189
517.571190538

518.636315325

4. 縮減係數來“理解”資料

4.1 嶺迴歸

#嶺迴歸---在鮑魚資料集上的效果
import regression
from numpy import *
import matplotlib.pyplot as plt

abX, abY = regression.loadDataSet('abalone.txt')
ridgeWeights = regression.ridgeTest(abX, abY)
print ridgeWeights
fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(ridgeWeights)
plt.show()

4.2 前向逐步迴歸

def regularize(xMat):#regularize by columns
    inMat = xMat.copy()
    inMeans = mean(inMat,0)   #calc mean then subtract it off
    inVar = var(inMat,0)      #calc variance of Xi then divide by it
    inMat = (inMat - inMeans)/inVar
    return inMat

def stageWise(xArr,yArr,eps=0.01,numIt=100):    #前向逐步線性迴歸
    xMat = mat(xArr); yMat=mat(yArr).T
    yMean = mean(yMat,0)
    yMat = yMat - yMean     #can also regularize ys but will get smaller coef
    xMat = regularize(xMat)
    m,n=shape(xMat)
    returnMat = zeros((numIt,n)) #testing code remove
    ws = zeros((n,1)); wsTest = ws.copy(); wsMax = ws.copy()
    for i in range(numIt):   #numIt表示迭代次數
        print ws.T
        lowestError = inf;   #inf表示無窮
        for j in range(n):
            for sign in [-1,1]:   #分別顯示增加和減少該特徵係數對結果的影響
                wsTest = ws.copy()
                wsTest[j] += eps*sign
                yTest = xMat*wsTest
                rssE = rssError(yMat.A,yTest.A)
                if rssE < lowestError:
                    lowestError = rssE
                    wsMax = wsTest
        ws = wsMax.copy()
        returnMat[i,:]=ws.T
    return returnMat

測試

#測試前向逐步線性迴歸的效果
import regression
from numpy import *
import matplotlib.pyplot as plt

xArr, yArr = regression.loadDataSet('abalone.txt')
print regression.stageWise(xArr,yArr,0.001,5000)

#將其結果與最小二乘法進行比較
xMat = mat(xArr)
yMat = mat(yArr).T
xMat = regression.regularize(xMat)
yM = mean(yMat,0)
yMat = yMat - yM
weights=regression.standRegres(xMat, yMat.T)
print weights.T

機器學習各個演算法---1.線性迴歸

1.最原始的linear regression 標準迴歸函式和文字資料匯入函式 from numpy import * def loadDataSet(fileName): #general function to parse tab -delimited f

機器學習經典演算法7-線性迴歸

1.簡單介紹分類處理的是離散預測，而對於連續的值型別則可以利用迴歸進行預測，這裡對主要的幾個線性迴歸方法進行初步介紹。這裡也有訓練集和測試集。 2.單變數線性迴歸的引數求解 3.多變數線性迴歸 4.利用矩陣進行引數求解 5.區域性加權線性迴歸 6.嶺迴歸 7.程式設計實現

機器學習（六）線性迴歸演算法分析概覽

前言前面介紹了迴歸家族中的邏輯迴歸，本篇部落格我們開始介紹線性迴歸演算法相關的問題，正所謂不同的特徵資料有不同的演算法來對待，今天我們要研究的這個演算法正好是具有線性特徵的資料所具有的特徵，與前面演算法的一個

機器學習公開課筆記(1)：機器學習簡介及一元線性迴歸

初步介紹監督式學習: 給定資料集並且知道其正確的輸出應該是怎麼樣的，即有反饋（feedback），分為迴歸（Regressioin）: map輸入到連續的輸出值。分類（Classification）：map輸出到離散的輸出值。非監督式學習: 給定資料集，並不知道其正確的輸出是什麼，

Andrew機器學習課程章節3——線性迴歸回顧

本章主要講解了一些基本的線性代數知識。（非常基礎，沒看視訊的感覺可以直接跳過，防止浪費時間） matrix（矩陣）：在數學中，矩陣（Matrix）是一個按照長方陣列排列的複數或實數集合 vector（向量）：特殊的矩陣，只有一列的矩陣，即 Nx1 matrix 一般使用小寫字

機器學習之優雅落地線性迴歸法

在統計學中，線性迴歸（Linear regression）是利用稱為線性迴歸方程的最小二乘函式對一個或多個自變數和因變數之間關係進行建模的一種迴歸分析維基百科。簡單線性迴歸當只有一個自變數的時候，成為簡單線性迴歸。簡單線性迴歸模型的思路為了得到一個簡單線性迴歸模型，假設存在以房屋面積為特徵

吳恩達機器學習之多變數線性迴歸實現部分

C++實現梯度下降法 “linear_regression.h” //多變數線性迴歸模型 struct elem_var2 { double y; double* x; //用陣列傳入自變數資料(x[0]=1,便於之後的計算) }; class var2

吳恩達機器學習之多變數線性迴歸理論部分

本部落格主要參考此部落格：戀雨心一.Multiple Features — 多維特徵相對於單變數線性迴歸模型，多變數線性迴歸模型適用於處理多個變數/特徵。對比：以之前我們介紹的單變數線性迴歸模型為例：用房屋面積x預測房子價格y。現在我們對房價模型增加更多的特徵，例如房間

吳恩達機器學習之單變數線性迴歸實現部分

C++實現程式碼實現 “linear_regression.h” //單變數線性迴歸模型 struct elem_var1 { double x, y; //訓練集元素資料：自變數、因變數 }; class var1_lin_reg { p

吳恩達機器學習之單變數線性迴歸理論部分

理論部分 1.方程形式在進行資料處理過程中，有時資料影象可擬合成單變數線性函式，即 2.如何擬合此時，我們雖知道擬合函式的形式，但如何擬合仍是個問題，怎樣擬合可以最接近實際資料情況呢？最小二乘法此時我們引入代價函式這個概念代價函式接下來我們來分析如何

【機器學習】LR（線性迴歸）—— python3 實現方案

import numpy as np class LR: def calcost(self, X, y, theta, lamb=1): ''' 平方誤差代價函式，使用L2正則化 :param X: 特徵集 m*n，m

機器學習——單層神經網路線性迴歸解釋解實現

線性迴歸機器學習——單層神經網路線性迴歸從零實現上篇部落格使用小批量隨機梯度下降法對loss函式進行優化，這篇部落格將從解釋解角度（即直接求解）對演算法進行優化。演算法實現 import matplotlib.pyplot as plt from mpl_t

機器學習筆記之四——線性迴歸原理以及推導

一元線性迴歸：對於樣本[(x1,y1),(x2,y2),……(xn,yn)]，xi為特徵，yi為標籤。(字幕i代表下標) 假定y與x有：

機器學習(二)——多變數線性迴歸

一. 前言本文繼續《機器學習(一)——單變數線性迴歸》的例子，介紹多維特徵中的線性迴歸問題，並通過矩陣計算的方法優化機器學習的計算效率。二. 模型表示現在我們對房價預測模型增加更多的特徵值，如房間數、樓層、房屋年限等，構成一個多變數的模型，模型中

機器學習(一)——單變數線性迴歸

關鍵詞：線性迴歸、監督學習、模型、假設函式、代價函式、梯度遞降、學習率、訓練集一.前言前段時間在學習 Andrew Ng 的《機器學習課程》，個人認為這是一個非常適合新手學習機器學習的課程（即使你對線性代數，微積分、概率論等已經忘得差不多了）。這裡對

機器學習筆記2：線性迴歸

機器學習筆記2：線性迴歸 Andrew Ng機器學習課程學習筆記2 線性迴歸引數說明：　　θi:parameters，引數　　x:input，輸入　　y:output，輸出　　h:hypothesis，假設　　m:資料數量迴歸方程：　　一元線性的迴歸方程的一

【機器學習】區域性加權線性迴歸

一、問題引入我們現實生活中的很多資料不一定都能用線性模型描述。依然是房價問題，很明顯直線非但不能很好的擬合所有資料點，而且誤差非常大，但是一條類似二次函式的曲線卻能擬合地很好。為了解決非線性模型建立線性模型的問題，我們預測一個點的值時，選擇與這個

跟著吳恩達學習機器學習 5多變數線性迴歸

1 多維特徵在之前的單變數問題中，考慮的是房子的面積對房價的影響，實際上，地理位置、樓層、房子的臥室數量等都會對價格有影響。上圖中分別列舉了樓層等其他影響對價格的影響，每一行資料表示多變數作用的房子價格。 Xi表示特徵矩陣的第j行（從1開始），j表示第j

機器學習實踐系列 1 線性代數計算的python實現

在深入學習機器學習，開啟人工智慧演算法設計之前，有許多需要事先掌握的知識，最重要的是數學知識和程式設計能力，而且要把這兩者有機結合起來，以備今後實現各類演算法做好準備。 python是如今廣為傳頌的科學計算程式開發語言，有優勢或缺點在這裡不想追溯，畢竟沒有一種

《機器學習》一，線性迴歸

機器學習思維導圖一，什麼是線性迴歸線性：y=a*x 一次方的變化迴歸：迴歸到平均值簡單線性迴歸演算法==公式一元一次方程組一元指的一個X：影響Y的因素，維度一次指的X的變化：沒有非線性的變化 y = a*x + b x1,y1 x2,y2 x3,

機器學習各個演算法---1.線性迴歸

相關推薦