線性迴歸數值型預測：預測鮑魚的年齡

注：程式碼和資料已上傳：https://download.csdn.net/download/j__max/10749344

一、實驗準備

1、實驗內容和目的

根據訓練集中給出的鮑魚的各項生物特徵引數以及其年齡，進行處理和擬合。然後使用擬合出來的模型來預測測試集中鮑魚的年齡
其中訓練集為檔案train.txt，測試集為檔案test.txt。訓練集中的每個樣本有8個特徵引數，最後的數字為其年齡；而測試集合中只存放每個樣本的8個特徵引數

2、實驗原理

前面學習的KNN分類演算法和樸素貝葉斯分類演算法的目標變數是標稱型資料，而回歸則是對連續型的資料做出處理，迴歸的目的是預測數值型資料的目標值

2.1 關於迴歸的背景瞭解

迴歸的目的是預測數值型的目標值。最直接的方法就是依據輸入寫出一個目標值的計算公式。比如要計算一輛車的馬力大小，可能會這麼計算：

$H o r s e$

P o w e r = 0.0015 ∗

a n n u a l S a l a r y − 0.99 ∗ h o u r s e L i s t e n i n g T o P u b l i c R a d i o HorsePower = 0.0015*annualSalary - 0.99*hourseListeningToPublicRadio $H o r s e P o w e r = 0.0015 * a n n u a l S a l a r y - 0.99 * h o u r s e L i s t e n i n g T o P u b l i c R a d i o$
這就是所謂的迴歸方程，其中的0.0015和-0.99稱作迴歸係數，求這些迴歸係數的過程就是迴歸。一旦有了這些迴歸係數，再給定輸入，做預測就非常容易了。具體的做法是用迴歸係數乘以輸入值，再將結果相加，就能得到預測值

2.2 用線性迴歸找到最佳擬合直線

大致的原理已經知道了，那麼應當怎麼從一大堆資料裡求出迴歸方程呢？假定輸入資料在矩陣 $\mathbf{x}$ 中，而回歸係數存放在向量 $\mathbf{w}$ 中。那麼對於給定的資料 $x_1$ ，預測結果將會通過 $Y_1=x_1^T\mathbf{w}$ 給出。現在的問題是，手裡有一些x和對應的y，怎樣才能好到 $\mathbf{w}$ 呢？一個常用的方法就是找出使誤差最小的 $\mathbf{w}$ 。這裡的誤差是指預測y值和真實y值之間的差值，使用該誤差的簡單累加會使得正差值和負差值相互抵消，所以採用平方誤差
平方誤差可以寫為：

$\sum_{i=1}^{m}(y_i-x_i^T\mathbf{w})^2$
用矩陣表示還可以寫做 $(y-x\mathbf{w})^T(y-x\mathbf{w})$ 。如果對 $\mathbf{w}$ 求導，得到 $x^T(y-x\mathbf{w})$ ，令其等於零，解得 $\mathbf{w}$ 如下：

$\hat{\mathbf{w}}=(X^TX)^{-1}X^Ty$
值得注意的是，上述的公式中包含 $(X^TX)^{-1}$ ，也就是需要對矩陣求逆，因此這個方程只在逆矩陣存在的時候適應。然而，矩陣的逆有可能不存在，因此必須要在程式碼中對此作出判斷

2.3 區域性加權線性迴歸

如果單純的使用上述線性迴歸的方法，會出現欠擬合的問題，因為它求的是具有最小均方誤差的無偏估計。顯而易見，如果模型欠擬合將不能取得最好的預測效果。所以在此次預測任務中採用了局部加權線性迴歸演算法
在區域性加權線性迴歸演算法中，我們給待預測點附近的每個點賦予一定的權重；然後與2.1中的解法類似，在這個子集上基於最小均方差來進行普通的迴歸。該演算法解出迴歸係數 $\mathbf{w}$ 的形式如下：

$\hat{\mathbf{w}}=(X^TWX)^{-1}X^TWy$
其中 $W$ 是一個矩陣，用來給每個資料點賦予權重。區域性加權線性迴歸演算法使用“核”來對附近的點賦予更高的權重。核的型別可以自由選擇，最常用的核就是高斯核，高斯核對應的權重如下：

$w(i,i)=exp(\frac{\big|{x^{(i)}-x}\big|}{-2k^2})$

二、進行實驗

1、演算法思路

使用區域性加權迴歸演算法，對訓練資料進行擬合操作。其中，通過高斯核引數k的調整來提高擬合效果；同時，對比在縮減不同特徵項的情況下得到的擬合效果，取最優

2、演算法步驟

(1) 對訓練資料進行處理，提出每個訓練樣本的特徵引數集以及y值
(2) 對測試資料進行處理，提出每個測試樣本的特徵引數集
(3) 使用區域性加權迴歸演算法對訓練資料進行擬合，得到係數w
(4) 使用擬合得到的係數w，計算測試樣本對應的y值

3、程式碼實現

注：程式碼中的所有函式功能已註釋在函式頭部
(1) 處理訓練資料和測試資料。因為訓練資料中的每個樣本包含y值而測試資料中的樣本不包含，因此使用兩個不同的功能函式分別進行處理

def loadTrainData(filename):
    """
    函式說明：
        載入訓練資料
    :param filename:
        檔名
    :return:
        xArray - x資料集，即為每個訓練樣本的特徵引數
        yArray - y資料集，即為每個訓練樣本的年齡
    """
    featNum = len(open(filename).readline().split(',')) - 2 # 特徵引數的個數，其中舍掉了第一個性別特徵

    file = open(filename)
    xArray = []
    yArray = []
    for line in file.readlines():
        tempLine = line.strip().split(',')
        '''
        if tempLine[0] == 'M':
            tempLine[0] = '1'
        elif tempLine[0] == 'F':
            tempLine[0] = '-1'
        else:
            tempLine[0] = '0'
        '''
        del(tempLine[0])

        xArr = []
        for i in range(featNum):
            xArr.append(float(tempLine[i]))
        xArray.append(xArr)
        yArray.append(float(tempLine[-1]))

    return xArray, yArray

def loadTestData(filename):
    """
    函式說明：
        載入測試資料
    :param filename:
        檔名
    :return:
        xArray - x資料集，即為每個測試樣本的特徵引數
    """
    featNum = len(open(filename).readline().split(',')) - 1 # 特徵引數的個數，其中舍掉了第一個性別特徵

    file = open(filename)
    xArray = []
    for line in file.readlines():
        tempLine = line.strip().split(',')
        '''
        if tempLine[0] == 'M':
            tempLine[0] = '1'
        elif tempLine[0] == 'F':
            tempLine[0] = '-1'
        else:
            tempLine[0] = '0'
        '''
        del(tempLine[0])

        xArr = []
        for i in range(featNum):
            xArr.append(float(tempLine[i]))
        xArray.append(xArr)

    return xArray

(2) 使用區域性加權迴歸演算法對訓練資料進行擬合，得到係數w

def lwlRegression(testPoint, xArr, yArr, k=1.0):
    """
    函式說明：
        使用區域性加權線性迴歸計算迴歸係數w
    :param testPoint:
        測試樣本
    :param xArr:
        x訓練資料集
    :param yArr:
        y訓練資料集
    :param k:
        高斯核的k值，預設為1.0，可自定義
    :return:
        testPoint * ws - 計算得到的係數w對測試樣本的預測值
    """
    xMat = np.mat(xArr)
    yMat = np.mat(yArr).T
    m = np.shape(xMat)[0]
    weights = np.mat(np.eye((m)))
    for i in range(m):
        diffMat = testPoint - xMat[i, :]
        weights[i, i] = np.exp(diffMat * diffMat.T / (-2.0 * k ** 2))
    xTx = xMat.T * (weights * xMat)
    if np.linalg.det(xTx) == 0.0:
        print("不能求逆!")
        return

    ws = xTx.I * (xMat.T * (weights * yMat))
    return testPoint * ws

(3) 使用擬合得到的係數w，計算測試樣本對應的y值

def RegressionTest(testArr, xArr, yArr, k=1.0):
    """
    函式說明：
        區域性加權線性迴歸測試
    :param testArr:
        測試資料集
    :param xArr:
        x訓練資料集
    :param yArr:
        y訓練資料集
    :param k:
        高斯核的k值，預設為1.0，可自定義
    :return:
        yHat - 測試集合的所有預測值
    """
    m = np.shape(testArr)[0]
    yHat = np.zeros(m)
    for i in range(m):
        yHat[i] = lwlRegression(testArr[i], xArr, yArr, k)
    return yHat

4、總結

使用區域性加權線性迴歸演算法得到的效果會優於最小二乘法；同時，進行不同特徵項的縮減比較，發現舍掉第一個性別特徵的情況下擬合效果會更好(已在程式碼中體現)
大致總結了線性迴歸的優缺點：
- 優點：結果易於理解，計算上不復雜
- 缺點：對非線性的資料擬合效果不好

三、完整程式碼

#!/usr/bin/python
# -*- coding utf-8 -*-
# Project: Regression
# Author: jiangnan 
# Mail: [email protected]
# Date: 2018/10/13

import numpy as np

def loadTrainData(filename):
    """
    函式說明：
        載入訓練資料
    :param filename:
        檔名
    :return:
        xArray - x資料集，即為每個訓練樣本的特徵引數
        yArray - y資料集，即為每個訓練樣本的年齡
    """
    featNum = len(open(filename).readline().split(',')) - 2 # 特徵引數的個數，其中舍掉了第一個性別特徵

    file = open(filename)
    xArray = []
    yArray = []
    for line in file.readlines():
        tempLine = line.strip().split(',')
        '''
        if tempLine[0] == 'M':
            tempLine[0] = '1'
        elif tempLine[0] == 'F':
            tempLine[0] = '-1'
        else:
            tempLine[0] = '0'
        '''
        del(tempLine[0])

        xArr = []
        for i in range(featNum):
            xArr.append(float(tempLine[i]))
        xArray.append(xArr)
        yArray.append(float(tempLine[-1]))

    return xArray 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    線性迴歸數值型預測：預測鮑魚的年齡
       
 
  
  
 
  
   線性迴歸數值型預測：預測鮑魚的年齡
   
  
  注：程式碼和資料已上傳：https://download.csdn.net/download/j__max/10749344 
  
 一、實驗準備 
 1、實驗內容和目的 
  
   根據訓練集中給出的鮑魚的各項生物 

  
 

    

    
    機器學習實戰——預測數值型資料：迴歸 實現記錄
       
 
 關於利用資料集繪圖建立模型 
 
>>> import regression
>>> xArr, yArr= regression.loadDataSet('ex0.txt')
>>> ws= regression.standRegres(xAr 

  
 

    

    
    機器學習---預測數值型資料：迴歸3（使用LAR演算法進行求解lasso演算法）
      
                上一節我們詳細的介紹了嶺迴歸演算法和lasso演算法的來歷和使用，不過還沒有詳解lasso的計算方式，本節將進行全面的詳解，在詳解之前，希望大家都理解了嶺迴歸和lasso 的來歷，他們的區別以及使用的範圍。下面將開始詳解求解過程：

一樣的，講解之前先把本節需要的基礎知識和大 

  
 

    

    
    預測數值型資料：迴歸（二）
      
								
								            
							
							
							　　上次我們留了個兩個問題沒有仔細說明，一個是區域性加權線性迴歸，另一個是嶺迴歸。今天依次對這兩種演算法進行說明。



一、區域性加權線性迴歸

　　欠擬合這種問題是僅僅憑藉一條直線來對資料點進行擬合 

  
 

    

    
    【線性迴歸】波斯頓房價預測
       
 
 
 # -*- coding: cp936 -*-
from sklearn.datasets import load_boston
boston=load_boston()

from sklearn.cross_validation import train_test_split
import  

  
 

    

    
    利用線性迴歸模型進行kaggle房價預測
      
                

最近剛學線性迴歸的一些基礎知識，就想利用kaggle中的一個入門級比賽 House Prices: Advanced Regression Techniques進行一下鞏固，發現建模之前的資料清洗與特徵選擇非常重要。

1. 資料清洗

1.1 匯入資料   

將tra 

  
 

    

    
    線性迴歸（linear-regression）預測演算法基本概念&C++實現
      
                

linear-regression預測演算法C++實現

機器學習領域，幾個常見的概念：迴歸(regression)：用已知樣本對未知公式引數的估計。線性迴歸(linear regression)：迴歸的一種，迴歸函式是一次函式，例如：result=f(X,Y,Z,…)= 

  
 

    

    
    線性迴歸預測數值型資料
      
                所謂線性迴歸(linear regression)，就是根據訓練資料找到一組引數w，利用 y = w*s 對新資料進行預測。

通常使用誤差函式為平方誤差：



使該誤差最小化，求導令其導數為零求得係數w，利用矩陣可以表示為：



該過程成為普通最小二乘法(ordinar 

  
 

    

    
    機器學習實戰第8章預測數值型數據：回歸
      矩陣   向量   from   his   sca   ima   用戶   targe   不可   1.簡單的線性回歸
假定輸入數據存放在矩陣X中，而回歸系數存放在向量W中，則對於給定的數據X1，預測結果將會是
　　　　　　　　　　　　　　　　
這裏的向量都默認為列向量
現在的問題是手裏有一些x 

  
 

    

    
    機器學習實戰教程（十二）：線性迴歸提高篇之樂高玩具套件二手價預測
      
                

一、前言

本篇文章講解線性迴歸的縮減方法，嶺迴歸以及逐步線性迴歸，同時熟悉sklearn的嶺迴歸使用方法，對樂高玩具套件的二手價格做出預測。

二、嶺迴歸

如果資料的特徵比樣本點還多應該怎麼辦？很顯然，此時我們不能再使用上文的方法進行計算了，因為矩陣X不是滿秩矩陣，非 

  
 

    

    
    Python3《機器學習實戰》學習筆記（十二）：線性迴歸提高篇之樂高玩具套件二手價預測
      
							
							
							
一、前言
本篇文章講解線性迴歸的縮減方法，嶺迴歸以及逐步線性迴歸，同時熟悉sklearn的嶺迴歸使用方法，對樂高玩具套件的二手價格做出預測。
二、嶺迴歸
如果資料的特徵比樣本點還多應該怎麼辦？很顯然，此時我們不能再使用上文的方法進行計算了，因為矩陣X不是滿秩矩 

  
 

    

    
    【SciKit-Learn學習筆記】3：線性迴歸測算波士頓房價,Logistic迴歸預測乳腺癌
       
 
  
  
 學習《scikit-learn機器學習》時的一些實踐。 
  
 線性迴歸 
 這部分和第一篇筆記"繪製隨機波動樣本的學習曲線 "部分基本類似。線性迴歸裡可以加入多項式特徵，以對模型做增強。 
 線性迴歸增加多項式特徵,擬合sin函式 
 import numpy as np
impor 

  
 

    

    
    【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（下）
      
							
							
							
  上一篇中我們簡單的介紹了利用線性迴歸分析並預測波士頓房價資料集，那麼在這一篇中，將使用相同的模型來對紅酒資料集進行分析。 
  




1 基本要求

利用線性迴歸，對紅酒資料集進行分析。資料集下載地址。



2 完整程式碼



#-*- codin 

  
 

    

    
    分別使用普通線性迴歸、嶺迴歸、lasso迴歸預測鮑魚年齡
      
							
							
							1.匯入相關模組

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

#機器學習的普通線性模型、嶺迴歸模型、lasso模型
from sklearn.linea 

  
 

    

    
    【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（上）
      
							
							
							
  本篇筆記是《從自然語言處理到機器學習入門》課程第三次作業的上篇，主要是復現了老大課上講的利用線性迴歸對波士頓房價進行預測的實驗。在下篇中，將利用該模型對紅酒資料集進行線性迴歸分析。 
  




1 基本要求

利用提供的波士頓房價資料，對其進行分析。資 

  
 

    

    
    《機器學習實戰》學習筆記（七）之預測數值型別資料：迴歸
      
							
							
							轉載請註明作者和出處：http://blog.csdn.net/john_bh/  
執行平臺： Windows  
Python版本： Python3.6  
IDE： Sublime text3






一、降維技術



1.1 什麼是降維

降維就是 

  
 

    

    
    機器學習(二)：理解線性迴歸與梯度下降並做簡單預測
      # 預測從瞎猜開始

按[上一篇文章](https://mp.weixin.qq.com/s/-KsbtgOc3C3ry-8P5f8K-Q)所說，機器學習是應用數學方法在資料中發現規律的過程。既然數學是對現實世界的解釋，那麼我們迴歸現實世界，做一些對照的想象。  

想象我們面前有一塊塑料泡沫做的白板，白板上 

  
 

    

    
    matlab實現線性迴歸成績預測
       
 
 
 目的 
 1. 熟悉matlab基本語法。 
 2. 使用matlab進行繪圖。 
 3. 複習線性迴歸於梯度下降。 
 資料集 
 與之前的文章，樸素貝葉斯實現成績等級分類相同，也是某市一模考試成績（只保留了語文英語數學和總分） 
 假設函式 
  
 等號的左側代表預測的成績，左側(θ0，θ 

  
 

    

    
    機器學習入門之房價預測（線性迴歸）
       
 #!/usr/bin/env python
# coding: utf-8

# In[1]:


# 1.定義問題

# 2.匯入資料

# 匯入類庫
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
impo 

  
 

    

    
    Tensorflow之多元線性迴歸問題（以波士頓房價預測為例）
      一、根據波士頓房價資訊進行預測，多元線性迴歸+特徵資料歸一化 
 
 #讀取資料
%matplotlib notebook

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np