簡單易學的機器學習演算法——嶺迴歸(Ridge Regression)

阿新 • • 發佈：2019-02-11

一、一般線性迴歸遇到的問題

在處理複雜的資料的迴歸問題時，普通的線性迴歸會遇到一些問題，主要表現在：

預測精度：這裡要處理好這樣一對為題，即樣本的數量 $n$ 和特徵的數量 $p$
- $n\gg p$ 時，最小二乘迴歸會有較小的方差
- $n\approx p$ 時，容易產生過擬合
- $n$ 時，最小二乘迴歸得不到有意義的結果
模型的解釋能力：如果模型中的特徵之間有相互關係，這樣會增加模型的複雜程度，並且對整個模型的解釋能力並沒有提高，這時，我們就要進行特徵選擇。

以上的這些問題，主要就是表現在模型的方差和偏差問題上，這樣的關係可以通過下圖說明：

（摘自：機器學習實戰）

方差指的是模型之間的差異，而偏差指的是模型預測值和資料之間的差異。我們需要找到方差和偏差的折中。

二、嶺迴歸的概念

在進行特徵選擇時，一般有三種方式：

子集選擇
收縮方式(Shrinkage method)，又稱為正則化(Regularization)。主要包括嶺迴歸個lasso迴歸。
維數縮減

嶺迴歸(Ridge Regression)是在平方誤差的基礎上增加正則項

$\sum_{i=1}^{n}\left ( y_i-\sum_{j=0}^{p}w_jx_{ij} \right )^2+\lambda \sum_{j=0}^{p}w^2_j$ , $\lambda > 0$

通過確定 $\lambda$ 的值可以使得在方差和偏差之間達到平衡：隨著 $\lambda$ 的增大，模型方差減小而偏差增大。

對 $w$ 求導，結果為

$2X^T\left ( Y-XW \right )-2\lambda W$

令其為0，可求得 $w$ 的值：

$\hat{w}=\left ( X^TX+\lambda I \right )^{-1}X^TY$

三、實驗的過程

我們去探討一下取不同的 $\lambda$ 對整個模型的影響。

MATLAB程式碼

主函式

%% 嶺迴歸(Ridge Regression)

%匯入資料
data = load('abalone.txt');
[m,n] = size(data);

dataX = data(:,1:8);%特徵
dataY = data(:,9);%標籤

%標準化
yMeans = mean(dataY);
for i = 1:m
    yMat(i,:) = dataY(i,:)-yMeans;
end

xMeans = mean(dataX);
xVars = var(dataX);
for i = 1:m
    xMat(i,:) = (dataX(i,:) - xMeans)./xVars;
end

% 運算30次
testNum = 30;
weights = zeros(testNum, n-1);
for i = 1:testNum
    w = ridgeRegression(xMat, yMat, exp(i-10));
    weights(i,:) = w';
end

% 畫出隨著引數lam
hold on
axis([-9 20 -1.0 2.5]);
xlabel log(lam);
ylabel weights;
for i = 1:n-1
    x = -9:20;
    y(1,:) = weights(:,i)';
    plot(x,y);
end

嶺迴歸求迴歸係數的函式

function [ w ] = ridgeRegression( x, y, lam )
    xTx = x'*x;
    [m,n] = size(xTx);
    temp = xTx + eye(m,n)*lam;
    if det(temp) == 0
        disp('This matrix is singular, cannot do inverse');
    end
    w = temp^(-1)*x'*y;
end

簡單易學的機器學習演算法——嶺迴歸(Ridge Regression)

一、一般線性迴歸遇到的問題在處理複雜的資料的迴歸問題時，普通的線性迴歸會遇到一些問題，主要表現在：預測精度：這裡要處理好這樣一對為題，即樣本的數量和特徵的數量時，最小二乘迴歸會有較小的

簡單易學的機器學習演算法——Logistic迴歸

一、Logistic迴歸的概述 Logistic迴歸是一種簡單的分類演算法，提到“迴歸”，很多人可能覺得與分類沒什麼關係，Logistic迴歸通過對資料分類邊界的擬合來實現分類。而“迴歸”也就

簡單易學的機器學習演算法——分類迴歸樹CART

引言分類迴歸樹（Classification and Regression Tree，CART）是一種典型的決策樹演算法，CART演算法不僅可以應用於分類問題，而且可以用於迴歸問題。一、樹迴歸的

機器學習演算法 - 線性迴歸

線性迴歸演算法解決迴歸問題思想簡單，容易實現許多強大的非線性模型的基礎結果具有很好的可解釋性蘊含機器學習中很多重要的思想$$y=ax_i +b$$ 樣本特徵只有一個的線性迴歸問題，為簡單線性迴歸。樣本特徵有多個的線性迴歸問題

機器學習演算法：迴歸分析與工程應用

一、線性迴歸 1.1 定義與定義引入（一）什麼是線性迴歸呢？有監督學習輸出/預測的結果yi為連續值變數需要學習對映f：x->y 假定輸入x和輸出y之間有線性相關關係（二）舉一個例子（單一變數）：（三）多變數的情況

機器學習演算法——邏輯迴歸詳解

簡介邏輯迴歸（Logistic Regression）既是迴歸演算法，也是分類演算法。通常情況下用於解決分類問題。之前線性迴歸中，迴歸函式 y = Wx + b 中，y實際上就是我們要預測的值，如房價的價格預測。而線上性迴歸中，我們實際要求的函式為 p =

機器學習---演算法---邏輯迴歸

轉自：https://blog.csdn.net/ustbbsy/article/details/80423294 1 引言最近做一個專案，準備用邏輯迴歸來把資料壓縮到[-1,1]，但最後的預測卻是和標籤類似（或者一樣）的預測。也就是說它的predict的結果

機器學習筆記之八—— knn-最簡單的機器學習演算法以及KD樹原理

上一節結束了線性迴歸、邏輯迴歸，今天一節來介紹機器學習中最簡單的演算法： K近鄰（KNN，全稱K-nearst Neighbor）概述：判斷一個樣本的label只需要判斷該樣本週圍其他樣本的label。簡言之，朋

機器學習-多元線性迴歸(Multiple Regression)演算法

學習彭亮《深度學習基礎介紹：機器學習》課程與簡單線性迴歸區別簡單線性迴歸：一個自變數(x) 多元線性迴歸：多個自變數(x) 多元迴歸模型 y=β0＋β１x1+β2x2+ … +βpxp+ε 其中：β0，β１，β2… βp是引數

十分鐘掌握經典機器學習演算法-邏輯迴歸

機器學習故事匯-邏輯迴歸【咱們的目標】系列演算法講解旨在用最簡單易懂的故事情節幫助大家掌握晦澀無趣的機器學習，適合對數學很頭疼的同學們，小板凳走起！今天我們要來討論的一個分類演算法-邏輯迴歸（你有沒有搞錯，這不還是迴歸嗎，雖然名字帶上了迴歸其實它是一個非常實用的

機器學習-建立嶺迴歸器

線性迴歸的主要問題是對異常值敏感。在真實世界的資料收集過程中，經常會遇到錯誤的度量結果。而線性迴歸使用的是普通最小二乘法，其目標是使平方誤差最小化。這時，由於異常誤差的絕對值很大，因此破壞整個模型。普通最小二乘法在建模的時候會考慮每個資料點的影響，為了避免這個問題，我們引入

9.機器學習sklearn-----嶺迴歸及其應用例項

1.基本概念對於一般地線性迴歸問題，引數的求解採用的是最小二乘法，其目標函式如下：引數w的求解，也可以使用如下矩陣方法進行：對於矩陣X，若某些列線性相關性較大（即訓練樣本中某些屬性線性相關），就會導致，就會導致XTX的值接近0，在計算(XTX)-1時就會出現不穩

機器學習演算法——logistic迴歸

概念邏輯迴歸就是這樣的一個過程：面對或者分類問題，建立代價函式然後通優化方法迭代求解出最優的模型引數，然後測試驗證我們這個好壞。 Regression常規步驟Ÿ尋找h函式（即預測函式）； Ÿ構造 J函式（損失）；函式（損失）； Ÿ想辦法使得 J函式最小並求得迴歸參（θ）

機器學習之嶺迴歸

看機器學習實戰接觸到這部分，所以總結一下。嶺迴歸應對的是普通的線性迴歸中，矩陣不可逆情況。例如，特徵值過多，而樣本量不夠。回顧一下線性迴歸：迴歸分析中常用的最小二乘法是一種無偏估計。對於一個

簡單易學的機器學習演算法——Softmax Regression

Contents [hide] 1 簡介 2 代價函式 3 Softmax迴歸模型引數化的特點 4&nbs

簡單易學的機器學習演算法——梯度提升決策樹GBDT

梯度提升決策樹（Gradient Boosting Decision Tree，GBDT）演算法是近年來被提及比較多的一個演算法，這主要得益於其演算法的效能，以及該演算法在各類資料探勘以及機器學習比賽中的卓越表現，有很多人對GBDT演算法進行了開原始碼的開發，比較火的是陳

簡單易學的機器學習演算法——AdaBoost

#coding:UTF-8 ''' Created on 2015年6月15日 @author: zhaozhiyong ''' from numpy import * def loadSimpleData(): datMat = mat([[1., 2.1],

【機器學習演算法推導】簡單線性迴歸與多元線性迴歸

線性迴歸，主要用於從資料中擬合出一條直線（或更高維的平面），這條直線能夠很好地體現資料的特徵，比如，它能夠使得平面上的點都均勻地分佈在這條直線上。演算法思想對於簡單線性迴歸和多元線性迴歸，其演算法過程是相同的，不同之處在於簡單線性迴歸只有一個特徵需要擬合，多元線

簡單易學的機器學習演算法——K-近鄰演算法

# coding:UTF-8 import cPickle as pickle import gzip import numpy as np def load_data(data_file): with gzip.open(data_file, 'rb') as f: train_set, vali

簡單易學的機器學習演算法——整合方法(Ensemble Method)

一、整合學習方法的思想前面介紹了一系列的演算法，每個演算法有不同的適用範圍，例如有處理線性可分問題的，有處理線性不可分問題。在現實世界的生活中，常常會因為“集體智慧”使得問題被很容易解決，那麼問題來了，

簡單易學的機器學習演算法——嶺迴歸(Ridge Regression)

一、一般線性迴歸遇到的問題

二、嶺迴歸的概念

三、實驗的過程

相關推薦