1. 程式人生 > >機器學習之——欠擬合與過擬合

機器學習之——欠擬合與過擬合

我從網上找了很多的資料,但是也沒有很明確的定義,大體上的意思就是:
欠擬合:模型擬合不夠,在訓練集(training set)上表現效果差,沒有充分利用資料,預測的準確率比我們設計的模型遠遠低很多,擬合結果嚴重的不符合預期。
解決辦法:增加模型的複雜度,不要用簡單的線性迴歸,適當的採用二次迴歸,將訓練集合擴大,採集更多的資料。

過擬合:模型過度擬合,在訓練集(training set)上表現好,但是在測試集上效果差,也就是說在已知的資料集合中非常好,在新增一些新的資料進來效果就會差很多,造成這樣的原因是考慮影響因素太多,超出自變數的維度過於多了。
解決辦法:減少模型的複雜度,適當的將訓練集合進行篩選。

首先介紹一下引數學習方法非引數學習方法

引數學習方法::在訓練完成所有資料後得到一系列訓練引數,然後根據訓練引數來預測新樣本的值,這時不再依賴之前的訓練資料了,引數值是確定的。

非引數學習方法:在預測新樣本值時候每次都會重新訓練資料得到新的引數值,也就是說每次預測新樣本都會依賴訓練資料集合,所以每次得到的引數值是不確定的,舉例:區域性加權迴歸。
1.區域性加權迴歸(LWR)
因為最開始預測的時候,我們是根據線性迴歸擬合的,存在欠擬合,為了避免這個問題,我們引入了區域性加權迴歸(LWR),對所需要預測的 x 附近進行預測,因此每次都要做一次擬合,這樣雖然增加了一定的計算量,但是也避免了欠擬合現象。
首先需要引入一個權重函式 w

(i)=exp((x(i)x)22T2),這個權重函式並不是唯一的,只是為了方便我們引入的,也就是說:
如果 |x(i)x|0,那麼取值就是 1
如果 |x(i)x|,那麼取值就是 0 (e0)
所以我們定義的損失函式J(θ)=12mi=1w(i)(hθ(x(i))y(i))2
所以,對於預測 x 來說,離預測樣本資料較近的點權值較大,離預測 x 樣本資料較遠的點權值較小,這樣擬合出來的直線就會更接近預測值。

缺點:當資料規模比較大的時候計算量很大,學習效率很低。並且區域性加權迴歸也不是一定就是避免欠擬合

2.選用誤差函式為平方和的概率解釋
假設線性函式 y

(i)=θx(i)+E(i),前半部分就是我們根據最小二乘法計算出的向量表示式,後半部分是誤差(噪音)。一般來講,誤差滿足平均值為 0 的高斯(正態)分佈,即E(i)~N(0,σ2)
E(i)=y(i)θx(i)
那麼 xy 的條件概率就滿足:P(y(i)|x(i);θ)=12πσexp((y(i)θx(i))22σ2)
{y(i)|x(i);θ}N(θx(i),σ2)
這樣就估計了一條樣本的結果概率,然而我們期待的是模型能夠在全部樣本上預測最準,也就是概率積最大。這個概率積成為極大似然估計。我們希望在最大似然估計得到最大值時確定 θ 。稱L(θ) 為極大似然估計,因為每個 y 都是獨立同分布的,所以對於 m 個樣本就有:
L(θ)=mi=112πσexp((y(i)θx(i))22σ2)
首先我們對其取對數,即:ln(θ)=mi=1log12πσexp((y

相關推薦

機器學習——

我從網上找了很多的資料,但是也沒有很明確的定義,大體上的意思就是: 欠擬合:模型擬合不夠,在訓練集(training set)上表現效果差,沒有充分利用資料,預測的準確率比我們設計的模型遠遠低很多,擬

機器學習筆記2——

區域性加權迴歸 現在思考關於根據實數 x 預測 y 的問題。 上圖中最左側的圖顯示了函式 y=θ0+θ1x 擬合數據集的結果。我們可以看到資料並沒有真的停靠在直線上,所以這種擬合效果並不是非常好。 相反地,如果我們新增額外的特徵 x2,然後用函式擬

機器學習迴歸演算法—效能評估

機器學習中的泛化,泛化即是,模型學習到的概念在它處於學習的過程中時模型沒有遇見過的樣本時候的表現。在機器學習領域中,當我們討論一個機器學習模型學習和泛化的好壞時,我們通常使用術語:過擬合和欠擬合。我們知道模型訓練和測試的時候有兩套資料,訓練集和測試集。在對訓練資料進行擬合時,

機器學習

擬合的基礎概念。首先任何函式都可以用多項式f(x)的方式去趨近,因此我們令f(x) = w0x0+w1x1+...+wnxn.首先,用一個例子來理解什麼是過擬合,假設我們要根據特徵分類{男人X,女人O}

偏差方差,

機器學習的核心在於使用學習演算法建立模型,對已建立模型的質量的評價方法和指標不少,本文以準確率(也稱為精度)或判定係數(Coefficient of Determination)作為效能指標對模型的偏差與方差、欠擬合與過擬合概念進行探討。偏差、方差、欠擬合、過擬合均是對模型(學習器)質量的判

機器學習】線性迴歸演算法的比較

回顧 過擬合與欠擬合 主要介紹了什麼是欠擬合什麼是過擬合 對抗過擬合 主要介紹了線性迴歸中對抗過擬合的方法,主要包括:L1-norm的LASSO迴歸、L2-norm的Ridge迴歸,此外還有一個沒有提到,L1-norm和L2-norm結合的Elasitc Net(彈性網

泛化能力、訓練集、測試集、K折交叉驗證、假設空間、、正則化(L1正則化、L2正則化)、超引數

泛化能力(generalization): 機器學習模型。在先前未觀測到的輸入資料上表現良好的能力叫做泛化能力(generalization)。 訓練集(training set)與訓練錯誤(training error): 訓練機器學習模型使用的資料集稱為訓練集(tr

的區別

欠擬合是指模型在訓練集、驗證集和測試集上均表現不佳的情況 過擬合是指模型在訓練集上表現很好,到了驗證和測試階段就大不如意了,即模型的泛化能力很差 欠擬合和過擬合一直是機器學習訓練中的難題,在進行模型訓練的時候往往要對這二者進行權衡,使得模型不僅在訓練集上表現良好

Stanford機器學習---第三講. 邏輯迴歸和問題的解決 logistic Regression & Regularization

在每次迭代中,按照gradient descent的方法更新引數θ:θ(i)-=gradient(i),其中gradient(i)是J(θ)對θi求導的函式式,在此例中就有gradient(1)=2*(theta(1)-5), gradient(2)=2*(theta(2)-5)。如下面程式碼所示:

17.【進階】模型正則化--問題

#-*- coding:utf-8 -*- #學習目標:以“披薩餅價格預測”為例,認識欠擬合和過擬合的問題 #假定只考慮披薩的尺寸和售價的關係,X為尺寸,y代表售價 X_train = [[6],[8],[10],[14],[18]] y_train = [

【轉載】Stanford機器學習---第三講. 邏輯迴歸和問題的解決 logistic Regression & Regularization

在每次迭代中,按照gradient descent的方法更新引數θ:θ(i)-=gradient(i),其中gradient(i)是J(θ)對θi求導的函式式,在此例中就有gradient(1)=2*(theta(1)-5), gradient(2)=2*(theta(2)-5)。如下面程式碼所示:

機器學習logistic迴歸演算法程式碼實現

                                       Logistic迴歸演算法與程式

機器學習路: python線性回歸 L1L2正則化

擬合 python sco bsp orm AS score 未知數 spa git:https://github.com/linyi0604/MachineLearning 正則化: 提高模型在未知數據上的泛化能力 避免參數過擬合正則化常用的方法: 在目

機器學習

機器學習之過擬合,欠擬合 過擬合現象是指當我們能夠提高訓練集上的表現時,然而測試集的表現很差,例如在深度學習中經常訓練集達到99以上而資料集卻在50,60左右明顯過擬合,此時就要想辦法阻止過擬合,過擬合也成為過配。 過擬合發生的本質原因,是由於監督學習問題的不適定:在高中數學我們知道,從n個

機器學習:偏差、方差

首先,我們先來理解一下偏差與方差的概念。舉個高中數學裡經常出現的例子,兩個射擊選手在射靶。甲射出的子彈很集中在某個區域,但是都偏離了靶心。我們說他的射擊很穩定,但是不夠準,準確性差。也就是說他的方差小(子彈很集中在某個區域),但是他的偏差大(子彈打中的地方距離靶

機器學習(ML)七模型選擇、

訓練誤差和泛化誤差 需要區分訓練誤差(training error)和泛化誤差(generalization error)。前者指模型在訓練資料集上表現出的誤差,後者指模型在任意一個測試資料樣本上表現出的誤差的期望,並常常通過測試資料集上的誤差來近似。計算訓練誤差和泛化誤差可以使用之前介紹過的損失函式,例如線

20171028機器學習線性回歸問題的解決方案

ces 函數 彈性 alpha mach rom 定性 ast cep 在函數中加入一個正則項: 三種方式: 一、Ridge回歸(嶺回歸):   優點:具有較高的準確性、魯棒性以及穩定性   缺點:求解速度慢 二、Lasso回歸:   優點:求解速度快(原理降維計算

吳恩達機器學習問題

一、過擬合問題:———什麼是過度擬合問題? 1.1兩個例子: 例子一:                        模型假設函式 的形式:             一次函式                 二次函式                高階多項式   模型擬合效果:    

機器學習問題

過擬合:當某個模型過度的學習訓練資料中的細節和噪音,以至於模型在新的資料上表現很差,我們稱過擬合發生了,通俗點就是:模型在訓練集中測試的準確度遠遠高於在測試集中的準確度。 過擬合問題通常發生在變數特徵過多的時候。這種情況下訓練出的方程總是能很好的擬合訓練資料,也就是說,我們的代價函式可能非常接近於0或者就為

機器學習

1. 什麼是欠擬合和過擬合 先看三張圖片,這三張圖片是線性迴歸模型 擬合的函式和訓練集的關係 第一張圖片擬合的函式和訓練集誤差較大,我們稱這種情況為 欠擬合 第二張圖片擬合的函式和訓練集誤差較小,我們稱這種情況為 合適擬合 第三張圖片擬合的函式