1. 程式人生 > >機器學習筆記2—— 欠擬合與過擬合

機器學習筆記2—— 欠擬合與過擬合

區域性加權迴歸

現在思考關於根據實數 x 預測 y 的問題。


上圖中最左側的圖顯示了函式 y=θ0+θ1x 擬合數據集的結果。我們可以看到資料並沒有真的停靠在直線上,所以這種擬合效果並不是非常好。
相反地,如果我們新增額外的特徵 x2,然後用函式擬合 y=θ0+θ1x1+θ2x2,我們會得到一個稍微更好的擬合數據的結果(看中間的圖)。看上去我們新增的特徵越多,擬合的效果就越好。然而,新增過多的特徵也有問題。最右側的圖中顯示了包含五個特徵的函式的擬合結果 y=5j=0θjxj。我們可以看到即使擬合的曲線完美的經過了所有的資料點,我們也不會認為這是一個非常好的預測房價的假設。

在沒有正式定義這種現象代表什麼的前提下,我們稱左側圖是欠擬合

的案例,即建立的模型明顯沒有捕獲到資料;稱右側圖中的現象為 過擬合 的例子(這節課之後我們會介紹規定的這些符號的一些理論知識,並且會更小心的定義,對於一個假設來說這究竟意味著是好的還是壞的)。

綜上的案例與討論,我們意識到特徵的選擇對確保一個學習演算法表現良好非常重要(當我們討論到模型選擇時,我們也會了解一些自動選擇良好特徵的演算法)。

在這一小節中,我們要討論關於區域性加權線性迴歸(LWR)演算法,這種演算法在訓練資料足夠的前提下,能削弱特徵選擇的影響。這一過程比較簡短,更多關於LWR演算法的特性需要你們在作業中發現。

在原始的線性迴歸演算法中,為了對一系列輸入值 x 做出預測,我們會:

  1. 調整引數 θ 以最小化 i(yiθTxi)2

2.輸出 θTx

相反的是,區域性加權線性迴歸演算法執行下列步驟:

  1. 調整引數 θ以最小化 iw(i)(y(i)θTx(i))2

2.輸出 θTx

這裡的 w(i) 是非負的權值。可以看出,如果對於特定值i權值w(i)非常大,無論如何取θ,我們都很難讓(y(i)θTx(i))2 減小。如果權值很小,那麼誤差項(y(i)θTx(i))2在擬合過程中會被忽略掉。

對於權值來說一個恰當的選擇是:


要知道權值的大小取決於我們嘗試預測的特定點x。如果 |x(i)x|很小,那麼權值w(i)會趨近於1;相反如果如果 |

x(i)x|很大,權值w(i)會很小,因此,引數θ應該調整為越靠近查詢點 x的訓練樣本權值越高。(要知道盡管權值的表現形式與高斯分佈相似,但權值w(i) 與高斯分佈並沒有直接關係,且權值w(i) 也不是隨機變數、正態分佈或是其他形式的分佈。)隨著訓練樣本與查詢點x距離越遠,引數τ控制權值下降的速度。τ被稱作頻寬引數,這一符號的概念需要你們做作業去了解。

區域性加權線性迴歸是我們瞭解到的第一個非引數演算法的例子。我們之前知道的(未加權)線性迴歸屬於引數學習演算法,因為在擬合數據的過程中,存在需要不斷調整、且數量有限的引數(θi’s)。一旦我們確定並存儲這些引數θi’s,我們不會繼續維持著資料集來做預測。相反,通過區域性加權線性迴歸演算法做預測,需要一直維持著整個資料集。非引數演算法的形式指出了事實:隨著做預測的資料集的規模越大,需要維持的數量級就越多。

概率解釋

當我們面對迴歸問題時,為什麼會認為線性迴歸和最小二乘成本函式J可能是合理的選擇呢?在這一小節,我們會給出一系列的概率解釋,根據最小二乘迴歸推匯出一個非常自然的演算法。

假設目標變數和輸入變數之間的關係由如下等式表示:


等式中的ε(i)代表誤差項,用來捕獲未建模的影響(比如如果有一些與預測房價非常相關的特徵,但我們並沒有選擇)或是隨機噪聲。根據高斯分佈(也叫做正態分佈)的零均值和方差σ2,可以進一步假設ε(i)是獨立同分布的(獨立且相同的分佈)。

疑問:為什麼符合高斯分佈呢?吳恩達的解釋有兩個:1.便於數學處理 2.中心極限定理等眾多理論可以證明,高斯分佈是一個合理的假設。

可以將上述假設寫成ε(i) ~ N(0,σ2),即誤差項ε(i)的概率密度函式如下:


這意味著:


符號 p(y(i)|x(i);θ) 講義中的解讀解釋如下:this is the distribution of y(i

相關推薦

機器學習筆記2——

區域性加權迴歸 現在思考關於根據實數 x 預測 y 的問題。 上圖中最左側的圖顯示了函式 y=θ0+θ1x 擬合數據集的結果。我們可以看到資料並沒有真的停靠在直線上,所以這種擬合效果並不是非常好。 相反地,如果我們新增額外的特徵 x2,然後用函式擬

Bobo老師機器學習筆記第八課-如何防止

問題一、什麼是過擬合和欠擬合? 首先擬合是一個統計學概念,它表示所求函式逼近目標函式的遠近程度。應用的機器學習中,就是我們所求的函式與未知的對映函式之間的相似度。如何求得函式引數與潛在的函式引數越逼近,說明效果越好。  假設我們用上篇部落格中的資料,原始碼可以見上文: 通

Andrew Ng機器學習筆記2——梯度下降法and最小二乘

今天正式開始學習機器學習的演算法,老師首先舉了一個例項:已知某地區的房屋面積與價格的一個數據集,那麼如何預測給定房屋面積的價格呢?我們大部分人可以想到的就是將畫出房屋面積與價格的散點圖,然後擬合出價格關於面積的曲線,那麼對於一個已知的房屋面積,就可以在擬合的曲線上得到預測的

機器學習之——

我從網上找了很多的資料,但是也沒有很明確的定義,大體上的意思就是: 欠擬合:模型擬合不夠,在訓練集(training set)上表現效果差,沒有充分利用資料,預測的準確率比我們設計的模型遠遠低很多,擬

機器學習迴歸演算法—效能評估

機器學習中的泛化,泛化即是,模型學習到的概念在它處於學習的過程中時模型沒有遇見過的樣本時候的表現。在機器學習領域中,當我們討論一個機器學習模型學習和泛化的好壞時,我們通常使用術語:過擬合和欠擬合。我們知道模型訓練和測試的時候有兩套資料,訓練集和測試集。在對訓練資料進行擬合時,

機器學習

擬合的基礎概念。首先任何函式都可以用多項式f(x)的方式去趨近,因此我們令f(x) = w0x0+w1x1+...+wnxn.首先,用一個例子來理解什麼是過擬合,假設我們要根據特徵分類{男人X,女人O}

Jmeter學習筆記2-原件作用域執行順序

校驗 height sse proc tro 有效 收集 技術分享 控制 1.元件的作用域 (1)配置元件(config elements):會影響其作用範圍內的所有元件。 (2)前置處理程序(per-processors):在其作用範圍內的每一個sampler元件之

吳恩達機器學習筆記2-監督學習

word ins problems 一個 should regress ssi pri read 英文; Supervised Learning   In supervised learning, we are given a data set and already kn

偏差方差,

機器學習的核心在於使用學習演算法建立模型,對已建立模型的質量的評價方法和指標不少,本文以準確率(也稱為精度)或判定係數(Coefficient of Determination)作為效能指標對模型的偏差與方差、欠擬合與過擬合概念進行探討。偏差、方差、欠擬合、過擬合均是對模型(學習器)質量的判

深入理解Java虛擬機器讀書筆記2----垃圾收集器記憶體分配策略

二 垃圾收集器與記憶體分配策略 1 JVM中哪些記憶體需要回收?     JVM垃圾回收主要關注的是Java堆和方法區這兩個區域;而程式計數器、虛擬機器棧、本地方法棧這3個區域隨執行緒而生,隨執行緒而滅,隨著方法結束或者執行緒結束記憶體自然

Redis學習筆記(2)-redis的啟動關閉

啟動redis 1. 直接啟動 $ redis-server # 預設埠6379 $ redis-server --port 6380 # 指定埠啟動 2. 通過初始化指令碼啟動 第一種啟動方式,在測試環境中用的比較多,實際在生產環境中,大多數

深入理解Java虛擬機器學習筆記2-JVM中物件佈局

一、物件的記憶體佈局 在Hotspot中,物件在記憶體中儲存佈局可以分為三塊: 物件頭(Header) 、例項資料(Instance Data)、對齊填充(Padding) 二、物件頭 1、物件執行時資料: 雜湊嗎、GC分代年齡、鎖狀態標誌、執行緒持有的鎖、偏向執行緒I

泛化能力、訓練集、測試集、K折交叉驗證、假設空間、、正則化(L1正則化、L2正則化)、超引數

泛化能力(generalization): 機器學習模型。在先前未觀測到的輸入資料上表現良好的能力叫做泛化能力(generalization)。 訓練集(training set)與訓練錯誤(training error): 訓練機器學習模型使用的資料集稱為訓練集(tr

的區別

欠擬合是指模型在訓練集、驗證集和測試集上均表現不佳的情況 過擬合是指模型在訓練集上表現很好,到了驗證和測試階段就大不如意了,即模型的泛化能力很差 欠擬合和過擬合一直是機器學習訓練中的難題,在進行模型訓練的時候往往要對這二者進行權衡,使得模型不僅在訓練集上表現良好

機器學習筆記2:線性迴歸

機器學習筆記2:線性迴歸 Andrew Ng機器學習課程學習筆記2 線性迴歸 引數說明:   θi:parameters,引數   x:input,輸入   y:output,輸出   h:hypothesis,假設   m:資料數量 迴歸方程:   一元線性的迴歸方程的一

17.【進階】模型正則化--問題

#-*- coding:utf-8 -*- #學習目標:以“披薩餅價格預測”為例,認識欠擬合和過擬合的問題 #假定只考慮披薩的尺寸和售價的關係,X為尺寸,y代表售價 X_train = [[6],[8],[10],[14],[18]] y_train = [

機器學習筆記2

樸素貝葉斯法(Naive Bayes)是另一個簡單直觀的分類演算法。顧名思義,它的核心是貝葉斯公式。 我們先看看最基本的貝葉斯公式: P(y|x)=P(x|y)(y)P(x),(1) 對應到分類問題,x 是特徵向量,y 是分類結果。P(y|x) 的直觀含義就是在給定特徵x的情況下,例項的類別是y 的

吳恩達機器學習筆記2-代價函數(cost function)

cost 但是 時也 建模 學習筆記 alt 得到 回歸 技術   我們選擇的參數決定了我們得到的直線相對於我們的訓練集的準確程度,模型所預測的值與訓練集中實際值之間的差距(下圖中藍線所指)就是建模誤差(modeling error)。   我們的目標便是選擇出可以使得建模

吳恩達機器學習筆記2-代價函式(cost function)

  我們選擇的引數決定了我們得到的直線相對於我們的訓練集的準確程度,模型所預測的值與訓練集中實際值之間的差距(下圖中藍線所指)就是建模誤差(modeling error)。   我們的目標便是選擇出可以使得建模誤差的平方和能夠最小的模型引數。 即使得代價函式  最小。   代價函式也被稱作平方

吳恩達機器學習筆記 —— 2 單變數線性迴歸

第一章講述了基本的機器學習的概念以及分類,這裡從單變數的線性迴歸入手,吳恩達講解了機器學習中的幾個重要因素,如模型、損失函式、優化方法等 首先以房價預測入手: 房子的面積 每平米的房價 2104 460 1416 232 1534 315 852 178 其中: m 為