【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（下）

阿新 • • 發佈：2019-01-02

上一篇中我們簡單的介紹了利用線性迴歸分析並預測波士頓房價資料集，那麼在這一篇中，將使用相同的模型來對紅酒資料集進行分析。

1 基本要求

利用線性迴歸，對紅酒資料集進行分析。資料集下載地址。

2 完整程式碼

#-*- coding: UTF-8 -*-
# @Time    : 2017/12/21 9:29
# @Author  : xiongzongyang
# @Software: PyCharm

import pandas as pd
from pandas import Series, DataFrame
import numpy as np
from sklearn.linear_model import 
 LinearRegression #線性迴歸
from sklearn.metrics import mean_squared_error
import matplotlib as mpl
import matplotlib.pyplot as plt

#讀取資料
def read_data(data_path="./data/"):
    test_data = pd.read_csv(data_path+"test.csv", header=None)
    train_data = pd.read_csv(data_path+"train.csv", header=None)
    return 
 train_data,test_data
#資料處理
def deal_data(pd_data):
    #獲取資料的行數,因為要出去欄位名，所以要-1
    row_cnt = pd_data.shape[0]-1
    #計算列數，因為在讀入資料時，沒有指定分隔符，所以所有列資料都是作為一列資料來讀入的，因此在計算列數時，將讀入的每一行按照;來分開
    column_cnt = len(pd_data.iloc[0, 0].split(";"))
    #empty 會建立一個沒有使用特定值來初始化的陣列。給這些方法傳遞一個元組作為形狀來建立高維陣列：
    X = np.empty((row_cnt, column_cnt - 1 
))
    Y = np.empty((row_cnt, 1))
    column_name=pd_data.iloc[0, 0].split(";")
    #開始獲取資料
    for i in range(0, row_cnt):
        #逐一將每一行進行分割（按;空格分割）
        row_array = pd_data.iloc[i+1, 0].split(";")
        #x取前13個數據，X[i]是一個一維陣列，則X相當於一個二維陣列，Y同理
        X[i] = np.array(row_array[0:-1])
        #y取最後一個數據
        Y[i] = np.array(row_array[-1])
    return X, Y,column_name
#把特徵標準化為均勻分佈
def uniform_norm(X):
    X_max = X.max(axis=0)
    X_min = X.min(axis=0)
    return (X - X_min) / (X_max - X_min), X_max, X_min

#實現線性迴歸
#畫圖
def draw(pred,test_Y):
    t = np.arange(len(pred))
    mpl.rcParams['font.sans-serif'] = [u'simHei']
    mpl.rcParams['axes.unicode_minus'] = False
    plt.figure(facecolor='w')
    plt.plot(t, test_Y, 'r-', lw=2, label=u'true value')
    plt.plot(t, pred, 'b-', lw=2, label=u'estimated')
    plt.legend(loc='best')
    plt.title(u'wine quality', fontsize=18)
    plt.xlabel(u'case id', fontsize=15)
    plt.ylabel(u'quality', fontsize=15)
    plt.grid()
    plt.show()
#模型評估
def evaluate(unif_train_X,train_Y,unif_test_X,test_Y):
    print("訓練集上效果評估:")
    pred_train = model.predict(unif_train_X)
    print("R^2係數 ", model.score(unif_train_X, train_Y))
    print("均方誤差 ", mean_squared_error(train_Y, pred_train))
    print("\n測試集上效果評估 :")
    r2 = model.score(unif_test_X, test_Y)
    print("R^2係數 ", r2)
    pred = model.predict(unif_test_X)
    print("均方誤差 ", mean_squared_error(test_Y, pred))

#主函式
if __name__ == "__main__":
    #讀取資料
    train_data,test_data=read_data()
    #資料處理
    train_X, train_Y,column_name=deal_data(train_data)
    # print(train_X.shape)
    # print(train_Y.shape)
    test_X, test_Y,column_name=deal_data(test_data)
    # print(test_X.shape)
    # print(test_Y.shape)
    #把特徵標準化為均勻分佈
    unif_train_X, max_X, min_X = uniform_norm(train_X)
    unif_test_X = (test_X - min_X) / (max_X - min_X)
    #實現線性迴歸
    model = LinearRegression()
    model.fit(unif_train_X, train_Y)
    #在訓練集上預測
    pred_train = model.predict(unif_train_X)
    #在測試集上預測
    pred = model.predict(unif_test_X)
    #畫圖
    draw(pred,test_Y)
    #模型評估
    evaluate(unif_train_X,train_Y,unif_test_X,test_Y)

注意：本資料集中，每一列都有列名，因此在資料預處理的過程中要去掉。

3 實驗結果

4 實驗小結

結果這兩個實驗可以看出，一般資料分析處理流程如下圖所示。

graph LR
資料讀取-->資料預處理
選擇模型-->訓練模型
資料預處理-->訓練模型
訓練模型-->測試模型
測試模型-->模型評估

【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（下）

上一篇中我們簡單的介紹了利用線性迴歸分析並預測波士頓房價資料集，那麼在這一篇中，將使用相同的模型來對紅酒資料集進行分析。 1 基本要求利用線性迴歸，對紅酒資料集進行分析。資料集下載地址。 2 完整程式碼 #-*- codin

【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（上）

本篇筆記是《從自然語言處理到機器學習入門》課程第三次作業的上篇，主要是復現了老大課上講的利用線性迴歸對波士頓房價進行預測的實驗。在下篇中，將利用該模型對紅酒資料集進行線性迴歸分析。 1 基本要求利用提供的波士頓房價資料，對其進行分析。資

【自然語言處理入門】01：利用jieba對資料集進行分詞，並統計詞頻

一、基本要求使用jieba對垃圾簡訊資料集進行分詞，然後統計其中的單詞出現的個數，找到出現頻次最高的top100個詞。二、完整程式碼 # -*- coding: UTF-8 -*- fr

斯坦福大學-自然語言處理入門筆記第十一課最大熵模型與判別模型（2）

一、最大熵模型 1、模型介紹基本思想：我們希望資料是均勻分佈的，除非我們有其他的限制條件讓給我們相信資料不是均勻分佈的。均勻分佈代表高熵（high entropy）。所以，最大熵模型的基本思想就是我們要找的分佈是滿足我們限制條件下，同時熵最高的分佈。熵：表示分佈的不

【自然語言處理篇】--以NLTK為基礎講解自然語?處理的原理

pytho 沒有正則表達 emma lower art pro 轉換算法一、前述 Python上著名的?然語?處理庫?帶語料庫，詞性分類庫?帶分類，分詞，等等功能強?的社區?持，還有N多的簡單版wrapper。二、文本預處理 1、安裝nltk pip instal

【python】pytorch中如何使用DataLoader對資料集進行批處理

第一步：我們要建立torch能夠識別的資料集型別（pytorch中也有很多現成的資料集型別，以後再說）。首先我們建立兩個向量X和Y，一個作為輸入的資料，一個作為正確的結果：隨後我們需要把X和Y組成一個完整的資料集，並轉化為pytorch能

優雲軟體葉帥：“網際網路+”時代的雲資料中心運維思辨（下）

2017中國開源產業峰會暨中國國際軟體博覽會分論壇，優雲軟體葉帥在開源雲端計算技術創新論壇發表了《“網際網路+”時代的雲資料中心運維思辨》的主題演講，本文根據演講內容整理而成。無論是穩態還是敏態，大家關注的內容最終的目標並不會發生變化，最終的目標都是保證當前的資料、

【自然語言處理】良心資源，不點開會後悔的那種

ACL文章連結 http://www.aclweb.org/anthology/ 2016年ACL-WMT機器翻譯資料集 PaperWeekly http://rsarxiv.github.io/ 中國NLP聯盟（牆裂推薦） ht

【自然語言處理】詳說中文自動分詞

文章目錄詳說中文自動分詞前言一、 what is 中文分詞二、中文分詞的用途三、中文分詞的特點和難點四、常見的中文分詞方法五、中文分詞工具 1、Ha

【自然語言處理】淺談語料庫

文章目錄【自然語言處理】淺談語料庫前言一、淺談語料庫 1、語料和語料庫 2、語料庫語言學 3、建議語料庫的意義二、語料庫深入瞭解

【自然語言處理】論述自然語言處理的技術範疇

文章目錄論述自然語言處理的技術範疇一、前言二、主要技術範疇 1、語音合成(Speech Synthesis) 2、語音識別(Speech Recognition) 3、中

【自然語言處理】最全的window下NLTK安裝說明

文章目錄 NLTK安裝說明前言說明一、獲取自然語言工具包二、安裝自然語言工具包三、獲取，安裝NLTK資料包 1、方式一 2、方式二

【自然語言處理】python中的jieba分詞使用手冊

這篇文章是轉載的，但是我沒找到出處啊，宣告一下～ jieba “結巴”中文分詞：做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to b

【自然語言處理】詞性標記程式碼及其含義

以下為各個詞性的含義 1. CC Coordinating conjunction 連線詞 2. CD Cardinal number 基數詞 3. DT Determiner 限定詞（如this,that,th

【自然語言處理】預測電影影評情感的深度學習詞袋模型

翻譯自外網：https://machinelearningmastery.com/deep-learning-bag-of-words-model-sentiment-analysis/ 教程概述： 1.電影評論集 2.資料準備 3.詞包表示法 4.情感分析模型 1.電

【自然語言處理】句法分析 (syntactic parsing) 在 NLP 領域的應用是怎樣的？

文章整理自郭江師兄問題回答（被收錄於知乎編輯推薦）！已取得師兄授權！@jiangfeng 原問題如下： opinion extraction system，information retrieval system是如何通過syntactic parsing實現的？解答如下：這裡面有兩個問題：1.

【自然語言處理】【scikit-learn】文字特徵提取

詞袋錶示文字分析是機器學習演算法的主要應用領域。然而，原始資料，一串符號序列不能直接送到演算法本身，因為大多數演算法期望具有固定大小的數字特徵向量而不是具有可變長度的原始文字文件。為了解決這個問題，scikit-learn提供了從文字內容中提取數字特徵的最常用方法的

【自然語言處理】TF-IDF演算法提取關鍵詞

自然語言處理——TF-IDF演算法提取關鍵詞這個標題看上去好像很複雜，其實我要談的是一個很簡單的問題。有一篇很長的文章，我要用計算機提取它的關鍵詞（Automatic Keyphrase extraction），完全不加以人工干預，請問怎樣才能正確做到？這個問

【自然語言處理】情感分析資源

（以下需要論壇積分）情感分析語料 3.酒店評論語料 - http://www.datatang.com/data/11936 譚鬆波整理的一個較大規模的酒店評論語料。語料規模為10000篇。語料從攜程網上自動採集，並經過整理而成。 4.豆瓣網影評情感測試語料 - http://www.

【自然語言處理】--視覺問答（Visual Question Answering，VQA）從初始到應用

一、前述視覺問答（Visual Question Answering，VQA），是一種涉及計算機視覺和自然語言處理的學習任務。這一任務的定義如下： A VQA system takes as input an image and a free-form, open-ended, natural-langua

【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（下）

1 基本要求

2 完整程式碼

3 實驗結果

4 實驗小結

相關推薦