17.【進階】模型正則化--欠擬合與過擬合問題

阿新 • • 發佈：2019-01-02

#-*- coding:utf-8 -*-

#學習目標：以“披薩餅價格預測”為例，認識欠擬合和過擬合的問題
#假定只考慮披薩的尺寸和售價的關係,X為尺寸，y代表售價

X_train = [[6],[8],[10],[14],[18]]
y_train = [[7],[9],[13],[17.5],[18]]

#*************************************************************************************
#1.首先以一次線性迴歸函式進行預測

from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train,y_train)

import numpy as np
#在X軸上從0～25均勻取樣100個數據點 

xx = np.linspace(0,26,100)
xx = xx.reshape(xx.shape[0],1)
#以上述100個數據點為基準，預測迴歸直線
yy = lr.predict(xx)

#對迴歸預測到的直線進行作圖
import matplotlib.pyplot as plt
#scatter()功能：繪製散點圖，c='r'表示點的顏色為red,marker表示點的形狀'o'是預設的圓
# b---blue  c---cyan g---green  k----black m---magenta r---red  w---white  y---yellow
plt.scatter(X_train,y_train,c='r' 
,marker='o')
#plot()功能：繪製折線圖，同樣可以設定顏色樣式，color屬性和linestyle屬性
plt1,= plt.plot(xx,yy)
#確定座標範圍：plt.axis([xmin, xmax, ymin, ymax])
#xlim(xmin, xmax)和ylim(ymin, ymax)來調整x,y座標範圍
plt.axis([0,25,0,25])
plt.xlabel('Diameter of Pizza')
plt.ylabel('Price of Pizza')

#注意legend的引數形式，第二個引數，字串放在()裡面，並且當只有一個引數時，要在結尾加上‘,’  

plt.legend([plt1],('Degree=1',),'best')
plt.show()

#輸出線性迴歸模型在<訓練樣本>上的r2-score
print 'The R-squared value of lr is ',lr.score(X_train,y_train)
#The R-squared value of lr is  0.910001596424

#*************************************************************************************
#2.接下來以二次多項式迴歸函式進行預測

#將原特徵升高一個維度，以二次多項式迴歸模型對訓練樣本進行擬合
from sklearn.preprocessing import PolynomialFeatures
poly2 = PolynomialFeatures(degree=2) #映射出二次多項式特徵
X_train_poly2 = poly2.fit_transform(X_train)
lr_poly2 = LinearRegression()
lr_poly2.fit(X_train_poly2,y_train)

#重新映射回歸值，並繪製圖像
#因為訓練的模型lr_poly2針對的是2D的資料，所以此處要將xx也轉成2D的形式，才能預測對應的y值
xx_poly2 = poly2.transform(xx)
yy_poly2 = lr_poly2.predict(xx_poly2)
plt.scatter(X_train,y_train,c='r')

#獲取plot物件的方法：
#line, = plt.plot(x, y, '-')
#這裡的','不可以省略，不然在下面的legend中就會出錯。
plt1,= plt.plot(xx,yy)
#這邊繪圖時，傳的引數就是（xx,yy_poly2）了，不能是xx_poly2,點的座標形式是(x,y)，x應為1維向量
plt2, = plt.plot(xx,yy_poly2)

plt.axis([0,25,0,25])
plt.xlabel('Diameter of Pizza')
plt.ylabel('Price of Pizza')
#legend:新增圖例(對直線的描述)，第一個引數是要顯示的直線的列表[],第二個引數是每條直線的label,第三個引數是顯示的位置
plt.legend([plt1,plt2],('degree=1','degree=2'),'best')
plt.show()

#輸出二次多項式迴歸模型在<訓練樣本>上的r2-score
print 'The R-squared value of poly2 is ',lr_poly2.score(X_train_poly2,y_train)
#The R-squared value of poly2 is  0.98164216396

#*************************************************************************************
#3.最後再以四次多項式迴歸函式進行預測
poly4 = PolynomialFeatures(degree=4)
X_train_poly4 = poly4.fit_transform(X_train)
lr_poly4 = LinearRegression()
lr_poly4.fit(X_train_poly4,y_train)

#重新預測xx_poly4對應的迴歸值，並繪圖
xx_poly4 = poly4.transform(xx)
yy_poly4 = lr_poly4.predict(xx_poly4)
plt.scatter(X_train,y_train,c='r')
plt1, = plt.plot(xx,yy)
plt2, = plt.plot(xx,yy_poly2)
plt3, = plt.plot(xx,yy_poly4)

plt.axis([0,25,0,25])
plt.xlabel('Diameter of Pizza')
plt.ylabel('Price of Pizza')
plt.legend([plt1,plt2,plt3],('degree=1','degree=2','degree=4'),'best')
plt.show()

#輸出四次多項式迴歸模型在<訓練樣本>上的r2-score
print 'The R-squared value of poly4 is ',lr_poly4.score(X_train_poly4,y_train)
#The R-squared value of poly4 is  1.0

#總結：
#在實際生活中，第二個模型是最滿足真實情況的
#第一個模型的複雜度太低，導致了欠擬合
#第三個模型的複雜度太高，導致了過擬合 
#第二個模型，相對來說，泛化能力更好一些
#為了兼顧模型的複雜度和預測準確性，我們採用了模型正則化方法，在下一講進行說明。

17.【進階】模型正則化--欠擬合與過擬合問題

#-*- coding:utf-8 -*- #學習目標：以“披薩餅價格預測”為例，認識欠擬合和過擬合的問題 #假定只考慮披薩的尺寸和售價的關係,X為尺寸，y代表售價 X_train = [[6],[8],[10],[14],[18]] y_train = [

18.【進階】模型正則化--L1&L2範數正則化

#-*- coding:utf-8 -*- #模型正則化：目的是提高模型在未知測試資料上的泛化力，避免參數過擬合 #常用方法：在原模型優化目標的基礎上，增加對引數的懲罰(penalty)項 #拓展一下L0範數、L1範數、L2範數的概念 #L0範數是指向量中非0

L2正則化項為什麼能防止過擬合學習筆記

https://www.cnblogs.com/alexanderkun/p/6922428.html L2 regularization（權重衰減） L2正則化就是在代價函式後面再加上一個正則化項： C0代表原始的代價函式，後面那一項就是L2正則化項，它是這樣來的：所有引數w的平

20.【進階】流行庫模型--NLTK(Nature Language Toolkit)

#-*- coding:utf-8 -*- #如何將下面兩行句子向量化 sentence1 = 'The cat is walking in the bedroom.' sentence2 = 'A dog was running across the kit

23.【進階】流行庫模型--Tensorflow&SKFlow

Tensorflow 用以編寫程式的計算機軟體；計算機軟體開發工具；可用於人工智慧、深度學習、高效能運算、分散式計算、虛擬化和機器學習這些領域；軟體庫可用於通用目的的計算、資料收集的操作、資料變換、輸入輸出、人工智慧等領域的建模和測試軟體可用作應用於

21.【進階】流行庫模型--word2vec

詞的向量化表示 word2vec模型的採用的思想是，n元語法模型(n-gram model)，即假設一個詞只與周圍n個詞有關，而與文字中的其他詞無關首先，我們要明確，句子中的連續詞彙片段，也被稱為上下文context，詞彙之間的聯絡就是通過無數個這樣的上

python進階十_正則表達式(一)

之前 dsm 常見 style ear 單個字符 src ace 例如近期狀態一直不太好，至於原因。怎麽說呢，不好說，總之就是糾結中覆蓋著糾結。心思全然不在點上。希望能夠借助Python的學習以及博客的撰寫來調整回來,有的時候回頭想一想。假設真的是我自己的問題呢，曾經

技術鄰學院直播預告｜【進階】simufact軟件焊接仿真工藝培訓

技術分享教學過程高級工程師力學案例評論代理電子技術鄰學院直播預告【進階】simufact軟件焊接仿真工藝培訓（6月10日）直播信息日期： 2017年6月10日（星期六）20：00--21：30 直播地址：熊貓直播http://pan

Docker極簡教程【進階】

原文連結：https://www.javazhiyin.com/20513.html 1. DockerFile建立映象建立檔案Dockerfile檔案，該檔名不可更改 vi Dockerfile 寫入文字 FROM alpine:latest MAINT

Python進階(十六)-正則表示式

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十六)-正則表示式正則表

python進階（爬蟲正則表示式）

一、正則表示式的基本知識： 1、正則表示式是一種高度專業化的程式語言，並不是只在python語言中存在，而python需要插入 re 模組才能使用正則表示式。 2、正則表示式只能處理字串，用於模糊匹配。 3、正則表示式的區間是閉區間。二、正則表示式組成： &nb

[Xcode10 實際操作]九、實用進階-(5)使用正則表示式判斷格式是否正確

[Xcode10 實際操作]九、實用進階-(5)使用正則表示式判斷格式是否正確. 本文將演示使用正則表示式判斷郵箱的格式是否正確。在專案導航區，開啟檢視控制器的程式碼檔案【ViewController.swift】 1 import UIKit 2 3 //建立一個結構體，用於實現正

【語法12】Python正則表示式

正則表示式正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。 Python 自1.5版本起增加了re 模組，它提供 Perl 風格的正則表示式模式。 re 模組使 Python 語言擁有全部的正則表示式功能。 compile 函式

【連結串列面試題】【進階】

1、查詢倒數第 k 個連結串列題目描述：給定一個單向連結串列 List ，要你設計演算法找出倒數第 K 個結點並列印 struct ListNode { DataType m_Value; ListNode* m_pNext; }; ListNode* FindKt

【GAN ZOO閱讀】模式正則化的生成對抗網路 MODE REGULARIZED GENERATIVE ADVERSARIAL NETWORKS

原文地址： https://arxiv.org/abs/1612.02136 引用之請註明出處。 Tong Che 1，Yanran Li 2 3，Athul Paul Jacob 1，Yoshua Bengio 1，Wenjie Li 2 1 蒙特利爾學習演算法

【進階】RecyclerView原始碼解析(二)——快取機制

引言接著上一篇部落格分析完RecyclerView的繪製流程，其實對RecyclerView已經有了一個大體的瞭解，尤其是RecyclerView和LayoutManager和ItemDecoration的關係。本篇文章將對RecyclerVie

14.【進階】特徵提升之特徵抽取----DictVectorizer

說明：DictVectorizer的處理物件是符號化(非數字化)的但是具有一定結構的特徵資料，如字典等，將符號轉成數字0/1表示。 #-*- coding:utf-8 -*- #學習目標：使用DictVectorizer對使用字典儲存的資料進行特徵抽取和

【進階】從linux到android，程序的方方面面

最近在閱讀《Linux核心設計與實現》，這裡做一下linux中程序相關的知識點整理，以及android中程序的淺析。下面1，2小節整理自《Linux核心設計與實現》第三章《程序管理》和第四章《程序排程》。第3節整理android中程序的知識點。

python-進階教程-使用正則表示式拆分多重分隔符字串

0.摘要字串自帶的.split()方法只能應對單一分隔符的情況，本文介紹正則表示式的方法可以滿足對多重分隔符分離要求，並且能夠處理更為複雜的字串。 1.re.split() split(pattern, string, maxsplit=0, flags=0)：該函式

【進階】RecyclerView原始碼解析(三)——深度解析快取機制

上一篇部落格從原始碼角度分析了RecyclerView讀取快取的步驟，讓我們對於RecyclerView的快取有了一個初步的理解，但對於RecyclerView的快取的原理還是不能理解。本篇部落格將從實際專案角度來理解RecyclerView的快取原理。

17.【進階】模型正則化--欠擬合與過擬合問題

相關推薦