【機器學習】交叉驗證、正則化例項Python程式碼實現

阿新 • • 發佈：2019-02-01

前言

機器學習常用的資料集網址：資料集
執行環境：python3.6（這裡我用的anaconda的jupyter notebook）

1. 對比不同模型的交叉驗證的結果

這份資料集包含來自3種不同起源的葡萄酒的共178條記錄。13個屬性是葡萄酒的13種化學成分。通過化學分析可以來推斷葡萄酒的起源。值得一提的是所有屬性變數都是連續變數。

13個屬性

from sklearn import datasets   # 用於呼叫sklearn自帶的資料集

# 用load_wine方法匯入資料
wine_data = datasets.load_wine()
print(wine_data.feature_names)  # 輸出的就是13個屬性名

data_input = wine_data.data  # 輸入輸出資料
data_output = wine_data.target

from sklearn.ensemble import RandomForestClassifier   # 隨即森林模型
from sklearn.linear_model import LogisticRegression   # 邏輯迴歸模型
from sklearn import svm     # 支援向量機
from sklearn.model_selection import cross_val_score

# 模型重新命名   
rf_class = RandomForestClassifier(n_estimators=10) 
log_class = LogisticRegression()
svm_class = svm.LinearSVC()

# 把資料分為四分，並計算每次交叉驗證的結果，並返回
print(cross_val_score(rf_class, data_input, data_output, scoring='accuracy', cv = 4))

# 這裡的cross_val_score將交叉驗證的整個過程連線起來，不用再進行手動的分割資料
# cv引數用於規定將原始資料分成多少份
accuracy = cross_val_score(rf_class, data_input, data_output, scoring='accuracy', cv = 4).mean() * 100
print("Accuracy of Random Forests is: " , accuracy)

accuracy = cross_val_score(log_class, data_input, data_output, scoring='accuracy', cv = 4).mean() * 100
print("Accuracy of logistic is: " , accuracy)

accuracy = cross_val_score(svm_class, data_input, data_output, scoring='accuracy', cv = 4).mean() * 100
print("Accuracy of SVM is: " , accuracy)

這裡寫圖片描述

2. 正則化（regularization）

資料準備

import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 10

x = np.array([1.4*i*np.pi/180 for i in range(0,300,4)])
np.random.seed(20)  #隨機數
y = np.sin(x) + np.random.normal(0,0.2,len(x))  # 加噪音
data = pd.DataFrame(np.column_stack([x,y]),columns=['x','y'])
plt.plot(data['x'],data['y'],'.')

這裡寫圖片描述

# 模型複雜度設定
for i in range(2,16):  
    colname = 'x_%d'%i      # 變數名變為 x_i形式
    data[colname] = data['x']**i
    print(data.head()) # 顯示五行

這裡寫圖片描述

LinearRegression(normalize=True) 加入正則化的線性迴歸

# 模型複雜度可變
from sklearn.linear_model import LinearRegression
def linear_regression(data, power, models_to_plot):
    # 初始化預測器
    predictors=['x']
    if power>=2:
        predictors.extend(['x_%d'%i for i in range(2,power+1)])

    # 模型訓練
    linreg = LinearRegression(normalize=True)
    linreg.fit(data[predictors],data['y'])

    # 預測
    y_pred = linreg.predict(data[predictors])

    # 是否要畫圖（複雜度是否在models_to_plot中）為了便於比較選擇性畫圖
    if power in models_to_plot:
        plt.subplot(models_to_plot[power])
        plt.tight_layout()
        plt.plot(data['x'],y_pred)
        plt.plot(data['x'],data['y'],'.')
        plt.title('Plot for power: %d'%power)

    # 返回結果
    rss = sum((y_pred-data['y'])**2)
    ret = [rss]
    ret.extend([linreg.intercept_])
    ret.extend(linreg.coef_)
    return ret

col = ['rss','intercept'] + ['coef_x_%d'%i for i in range(1,16)]
ind = ['model_pow_%d'%i for i in range(1,16)]
coef_matrix_simple = pd.DataFrame(index=ind, columns=col)

# 定義作圖的位置與模型的複雜度
models_to_plot = {1:231,3:232,6:233,8:234,11:235,14:236}

# 畫圖
for i in range(1,16):
    coef_matrix_simple.iloc[i-1,0:i+2] = linear_regression(data, power=i, models_to_plot=models_to_plot)

這裡寫圖片描述

Ridge（L2-norm）

from sklearn.linear_model import Ridge

def ridge_regression(data, predictors, alpha, models_to_plot={}):
    # 模型訓練
    ridgereg = Ridge(alpha=alpha,normalize=True)
    ridgereg.fit(data[predictors],data['y'])

    # 預測
    y_pred = ridgereg.predict(data[predictors])

    # 選擇alpha值畫圖
    if alpha in models_to_plot:
        plt.subplot(models_to_plot[alpha])
        plt.tight_layout()
        plt.plot(data['x'],y_pred)
        plt.plot(data['x'],data['y'],'.')
        plt.title('Plot for alpha: %.3g'%alpha)

    rss = sum((y_pred-data['y'])**2)
    ret = [rss]
    ret.extend([ridgereg.intercept_])
    ret.extend(ridgereg.coef_)
    return ret


predictors=['x']
predictors.extend(['x_%d'%i for i in range(2,16)])

# 定義alpha值
alpha_ridge = [1e-15, 1e-10, 1e-8, 1e-4, 1e-3,1e-2, 1, 5, 10, 20]

col = ['rss','intercept'] + ['coef_x_%d'%i for i in range(1,16)]
ind = ['alpha_%.2g'%alpha_ridge[i] for i in range(0,10)]
coef_matrix_ridge = pd.DataFrame(index=ind, columns=col)

models_to_plot = {1e-15:231, 1e-10:232, 1e-4:233, 1e-3:234, 1e-2:235, 5:236}
for i in range(10):
    coef_matrix_ridge.iloc[i,] = ridge_regression(data, predictors, alpha_ridge[i], models_to_plot)

這裡寫圖片描述

Lasso（L1-norm）

from sklearn.linear_model import Lasso
def lasso_regression(data, predictors, alpha, models_to_plot={}):
    #Fit the model
    lassoreg = Lasso(alpha=alpha,normalize=True, max_iter=1e5)
    lassoreg.fit(data[predictors],data['y'])
    y_pred = lassoreg.predict(data[predictors])

    #Check if a plot is to be made for the entered alpha
    if alpha in models_to_plot:
        plt.subplot(models_to_plot[alpha])
        plt.tight_layout()
        plt.plot(data['x'],y_pred)
        plt.plot(data['x'],data['y'],'.')
        plt.title('Plot for alpha: %.3g'%alpha)

    #Return the result in pre-defined format
    rss = sum((y_pred-data['y'])**2)
    ret = [rss]
    ret.extend([lassoreg.intercept_])
    ret.extend(lassoreg.coef_)
    return ret

predictors=['x']
predictors.extend(['x_%d'%i for i in range(2,16)])

# 定義alpha值去測試
alpha_lasso = [1e-15, 1e-10, 1e-8, 1e-5,1e-4, 1e-3,1e-2, 1, 5, 10]

col = ['rss','intercept'] + ['coef_x_%d'%i for i in range(1,16)]
ind = ['alpha_%.2g'%alpha_lasso[i] for i in range(0,10)]
coef_matrix_lasso = pd.DataFrame(index=ind, columns=col)

# 定義畫圖的模式
models_to_plot = {1e-10:231, 1e-5:232,1e-4:233, 1e-3:234, 1e-2:235, 1:236}

#迭代10個alpha值:
for i in range(10):
    coef_matrix_lasso.iloc[i,] = lasso_regression(data, predictors, alpha_lasso[i], models_to_plot)

這裡寫圖片描述

【機器學習】交叉驗證、正則化例項Python程式碼實現

前言機器學習常用的資料集網址：資料集執行環境：python3.6（這裡我用的anaconda的jupyter notebook） 1. 對比不同模型的交叉驗證的結果資料集來源：紅酒資料集這份資料集包含來自3種不同起源的葡萄酒的共178條記錄

【機器學習】交叉驗證（cross-validation）

1、什麼是交叉驗證交叉驗證（Cross validation)，交叉驗證用於防止模型過於複雜而引起的過擬合。有時亦稱迴圈估計，是一種統計學上將資料樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析，而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱

【機器學習】交叉驗證，K折交叉驗證的偏差和方差分析

交叉驗證部分參考：模型選擇中的交叉驗證方法綜述,山西大學，範永東（這是一篇碩士論文，原文內容有點囉嗦，存在一些錯誤。本文對其交叉驗證部分校對整理）交叉驗證是一種通過估計模型的泛化誤差，從而進行模型選擇的方法。沒有任何假定前提，具有應用的普遍性，操

【機器學習】交叉熵函式的使用及推導

前言說明：本文只討論Logistic迴歸的交叉熵，對Softmax迴歸的交叉熵類似。 minist手寫數字識別就是用交叉熵作為代價函式。 1.從方差代價函式說起代價函式經常用方差代價函式（即採用均方誤差MSE），比如對於一個神經元（單輸入單輸出，s

【A】機器學習過擬合與正則化

過擬合問題預測房價的模型：第一張圖對該資料做線性迴歸，可以獲得擬合數據的這樣一條直線，實際上這並不是一個很好的模型。很明顯，隨著房子面積增大，住房價格的變化趨於穩定或者說越往右越平緩。因此線性迴歸並沒有很好擬合訓練資料。我們把此類情況稱為欠擬合(un

【機器學習】先驗概率、似然函式、後驗概率、對數似然函式等概念的理解

1）先驗：統計歷史上的經驗而知當下發生的概率； 2）後驗：當下由因及果的概率； 2、網上有個例子說的透徹： 1）先驗——根據若干年的統計（經驗）或者氣候（常識），某地方下雨的概率； 2）似然——看到了某種結果，對產生結果的原因作出假設：是颳風了？還是有烏雲？還是

【通俗易懂】機器學習中 L1 和 L2 正則化的直觀解釋

機器學習中，如果引數過多，模型過於複雜，容易造成過擬合（overfit）。即模型在訓練樣本資料上表現的很好，但在實際測試樣本上表現的較差，不具備良好的泛化能力。為了避免過擬合，最常用的一種方法是使用使用正則化，例如 L1 和 L2 正則化。但是，正則化項是如

【機器學習】先驗概率、後驗概率、貝葉斯公式、似然函式

Original url: http://m.blog.csdn.net/article/details?id=49130173 一、先驗概率、後驗概率、貝葉斯公式、似然函式在機器學習中，這些概念總會涉及到，但從來沒有真正理解透徹他們之間的聯絡。下面打算好好從

【unix學習】檔案處理3—正則表示式和grep命令

unix檔案處理—正則表示式和grep命令正則表示式使用\{\}匹配模式結果出現的次數 pattern\{n\} 用來匹配前面pattern出現次數。n為次數 pattern\{n，\}m 含義同上，但次數最少為n pattern\{n，m

【機器學習】特徵工程多特徵值序列化數值化獨熱編碼處理(LabelEncoder, pd.factorize())

多特徵值序列化數值化獨熱編碼處理當我們在運用某些模型時，比如在Scikit-learn中，它要求資料都得是numberic（數值型），若是文字型別就無法進行訓練。那麼在這種情況下，我們就應該先對資料進行序列化數值化：下面是幾種在Python中數值化的方法： 1

【機器學習】5種距離度量方法詳解+Python實現([]+lambda+np.frompyfunc+向量法等多種方法實現)

介紹的五種距離度量方法是：歐氏距離(Euclidean Distance)，曼哈頓距離(Manhattan Distance)，夾角餘弦(Angle Cosine)，切比雪夫距離(Chebyshev Distance)，漢明距離(Hamming Distance)。1.歐式距

【機器學習】決策樹（上）——從原理到演算法實現

前言：決策樹（Decision Tree）是一種基本的分類與迴歸方法，本文主要討論分類決策樹。決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。相比樸素

【機器學習】LDA線性判別分析原理及例項

1、LDA的基本原理 LDA線性判別分析也是一種經典的降維方法，LDA是一種監督學習的降維技術，也就是說它的資料集的每個樣本是有類別輸出的。這點和PCA不同。PCA是不考慮樣本類別輸出的無監督降維技術。LDA的思想可以用一句話概括，就是“*投影后類內方

機器學習筆記（參考吳恩達機器學習視訊筆記）06_正則化

6 正則化 6.1 過擬合問題通過學習得到的假設可能能夠非常好地適應訓練集（代價函式可能幾乎為 0），但是可能會不能推廣到新的資料。如何處理過擬合問題： 1）丟棄一些不能幫助我們正確預測的特徵。可以是手工選擇保留哪些特徵，或者使用一些模型選擇的演算法來幫忙（例如 PCA）。 2

NG機器學習總結-（五）正則化 Regularization

一、過擬合問題在解釋什麼是過擬合問題之前，首先還是以房價預測為例。假設這裡我們用三種不同的模型去擬合數據集，如下圖三種情況：從第一張圖看，我們發現我們是用一條直線去擬合數據，但是這樣的擬合效果並不好。從資料中，很明顯隨著房子面積的增大，房價的變化趨於穩定或者說越往

機器學習防止過擬合---正則化

機器學習中，過擬合是一件比較頭疼的事情，明明模型在訓練樣本上表現的很好，但在測試樣本上卻表現的較差，泛化能力不好。比如強大的神經網路就常常被過擬合問題困擾。為了避免過擬合，最常用的一種方法是使用正則化，L1正則化和L2正則化可以看做是損失函式的懲罰項，就是對損失函式中的某些引數做一些限制。

機器學習筆記（三）——正則化最小二乘法

一. 模型的泛化與過擬合在上一節中，我們的預測函式為： f(x;ω)=ωTx 其中， x=[x1],ω=[ω1ω0] 上述稱為線性模型，我們也可以將x擴充套件為： x=⎡⎣⎢⎢⎢⎢⎢⎢⎢xn⋮x2x1⎤⎦⎥⎥⎥⎥⎥⎥⎥,ω=⎡⎣⎢⎢⎢⎢⎢⎢⎢ωn⋮

機器學習之決策樹（Decision Tree）及其Python程式碼實現

　　決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物

[吳恩達 DL] CLass2 Week1 Part1 Regularization（正則化）小結+程式碼實現

一 Regularization小結為什麼要使用regularization：主要是因為Deep neural network結構十分靈活，容易造成對資料集的過擬合（尤其在資料集較小時）常用的正則化方法： (1) L1/L2 Regularizai

【機器學習】【線性代數】正交基、標準正交基、正交矩陣，正交變換等數學知識點

1.正交向量組直接給定義：歐式空間V的一組非零向量，如果他們倆倆向量正交，則稱是一個正交向量組。（1）正交向量組是線性無關的（2）n維歐式空間中倆倆正交的非零向量不會超過n個，即n維歐式空間中一個正交向量組最多n個向量2.正交基在n維歐式空間中，由n個非零向量組成的正交向

【機器學習】交叉驗證、正則化例項Python程式碼實現

前言

1. 對比不同模型的交叉驗證的結果

2. 正則化（regularization）

資料準備

LinearRegression(normalize=True) 加入正則化的線性迴歸

Ridge（L2-norm）

Lasso（L1-norm）

相關推薦