1. 程式人生 > >周志華《機器學習》學習筆記——線性迴歸

周志華《機器學習》學習筆記——線性迴歸

前言

  迴歸方法是為了對連續性的資料做出預測,其中最簡單的方法當然就是線性迴歸。顧名思義,線性迴歸就是用線性方程來對已知的線性方程進行擬合,用擬合出的線性方程對未知資料做出預測。線性迴歸的優點就是計算公式簡單,計算結果容易理解;缺點就是對非線性的資料擬合程度不夠好。例如用線性函式f(x)=wx+b去擬合二次函式f(x)=x2,效果都不是太好。為了解決這些問題,出現了區域性加權線性迴歸(locally weighted linear regression)嶺迴歸(ridge regression)LASSO前向逐步線性迴歸(forward stagewise linear regression)

等等。

基本形式

  給定由d個屬性描述的示例x=(x1,x2,...,xd),其中xix在第i個屬性上的取值,線性迴歸試圖學得一個通過屬性的線性組合來進行預測的函式,即

f(x)=w1x1+w2x2+...+wdxd+b
可寫成向量形式f(x)=wTx+b
其中w=(w1,w2,...,wd)wb學得之後,模型也就確定了。
  線性模型形式簡單、易於建模,但是卻蘊含了機器學習中一些重要的基本思想,許多功能強大的非線性模型就是線上性模型的基礎上通過引入層級結構或高維對映得到的。此外,由於w直觀表達了各屬性在預測中的重要性,因此線性模型具有很好的可解釋性,例如在西瓜問題中學得“f
(x)=0.2x+0.5x+0.3x+1
”,則意味著可通過綜合色澤、根蒂和敲聲來判斷瓜好不好,其中根蒂最為重要,而敲聲比色澤重要一些。

模型求解

一元線性迴歸

  給定資料集D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1,xi2,...,xid)yiR。先考慮一種簡單的情況:輸入屬性只有一個,即D={(xi,yi)}mi=1,其中xiR
  線性迴歸試圖學得

f(xi)=wxi+b使f(xi)yi
   如何確定wb呢,關鍵在於如何衡量f(x)y之間的差別。均方誤差是迴歸任務最常用的效能度量,均方誤差也稱平方損失(square loss),因此我們可試圖讓均方誤差最小化,即(
w,b)
=argmin(w,b)i=1m(f(xi)yi)2

相關推薦

機器學習 筆記

第1章 1.4歸納偏好 學習演算法自身的歸納偏好與問題是否相配,往往會起到決定作用。 對於上面這句話:你的輸入資料被怎麼處理,最終得到什麼結果,我認為偏好指的就是這個處理的過程。線性非線性?那些feature忽略掉?怎麼利用這些資料?更具體一些,你用網路處理,還是傳統方法,資料的分佈和你

機器學習》()西瓜書讀書筆記(完結)

《機器學習》(周志華)西瓜書讀書筆記(完結) 閱讀目錄  第1章 緒論 第2章 模型評估與選擇 第3章 線性模型 第4章 決策樹 第5章 神經網路 第6章 支援向量機 第7章

機器學習筆記

http://blog.sina.cn/dpool/blog/s/blog_cfa68e330102ycy9.html?md=gd https://www.cnblogs.com/shiwanghualuo/p/7192678.html 首先的階段由卷積層和池化層組成,卷積的節點組織在特徵對映塊

[機器學習]ID3決策樹 詳細計算流程 機器學習 筆記 原創Excel手算方法

1.用到的主要三條熵公式: 1.1 資訊熵 詳情見夏農資訊理論 概率越平衡 事件所含有的資訊量越大 1.2 條件熵 代表某一屬性下不同分類的資訊熵之和 1.3 資訊增益 等於資訊熵減去條件熵,從數值上,越大的資訊增益在資訊熵一定的情況下,代表條件熵越小,條件熵越

-機器學習-筆記(五)- 強化學習

#### 任務與獎賞 ####   “強化學習”(reinforcement learning)可以講述為在任務過程中不斷摸索,然後總結出較好的完成任務策略。   強化學習任務通常用馬爾可夫決策過程(Markov Decision Process,簡稱M

機器學習筆記(一)

新人一枚,既是機器學習的初學者,也是首次發部落格。謹以此記錄我的學習體會,做一些總結。望與大家共同學習、共同進步。文中若有內容錯誤或有措詞不嚴謹之處,望大家不吝指出。謝謝! 機器學習中的基本概念 基本術語 根據上圖我們可以用一個三維空間來了解以

機器學習版)學習筆記(三)歸納偏好

定義:機器學習演算法在學習過程中對某種型別假設的偏好。 每種演算法必有其歸納偏好,否則它將被假設空間中看似在訓練集上“等效”的假設所迷惑,無法產生確定的學習結果。 例子理解: 編號 色澤 根蒂 敲聲 好瓜 1 青綠 蜷縮 濁響 是

機器學習》()西瓜書讀書筆記

回到頂部 第1章 緒論對於一個學習演算法a,若它在某問題上比學習演算法b好,則必然存在另一些問題,在那裡b比a好.即"沒有免費的午餐"定理(No Free Lunch Theorem,NFL).因此要談論演算法的相對優劣,必須要針對具體的學習問題回到頂部第2章 模型評估與選擇

機器學習--第五章筆記 CNN

Chapter 5 神經網路-機器學習-周志華 5.1神經元模型 神經網路:具有適應性的簡單單元組成的廣泛並行互連的網路,它的組織能夠模擬生物神經系統對真實世界物體所作出的互動反應。 神經元模

機器學習總結

Lecture3 線性模型 基本形式 一般向量形式: 優點: 線性迴歸 廣義線性模型 對數機率迴歸 由對數機率函式確定 $\boldsymbol{\omega}$ 和 $b$

機器學習 效能度量

2.5 效能度量 效能度量(performance measure)是衡量模型泛化能力的評價標準,在對比不同模型的能力時,使用不同的效能度量往往會導致不同的評判結果。本節除2.5.1外,其它主要介紹分類模型的效能度量。 2.5.1 最常見的效能度量 在迴歸任務中,即預測連續值的問題,最常

機器學習

盜用weka 緒論 1.2基本術語 學習任務大致分為兩類: 監督學習:分類、迴歸 無監督學習:聚類 泛化:訓練得到的模型適用於新樣本的能力 機器學習領域最重要的國際學術會議是國際機器學習會議 (ICML)、國

機器學習讀後總結 第10、11章

降維與度量學習 什麼是降維學習 降維是一種分類演算法,它是一種解決維數災難的重要途徑。例如二維資料經過投影變為一維資料從而更好的表徵資料的特徵,然後再進行識別;這就利用了降維的方法。 K鄰近學習 k近鄰學習是一種監督學習演算法,它給定測試樣本,基於某種距離度量找出與訓練集

機器學習讀後總結 第三章

線性模型 基本形式 線性模型試圖學得一個通過屬性的線性組合來進行預測的函式,即f(x)=w1x1+w2x2+…+wdxd+b,w和b學得之後,模型就得以確定,而w直觀表達了各屬性在預測中的重要性。線性迴歸 線性迴歸試圖學得一個線性模型以儘可能準確的預測實值輸出標記。線性迴歸

機器學習讀後總結 第12、13章

計算學習理論 什麼是計算學習理論 計算學習理論是關於機器學習的理論基礎,其目的是分析學習任務的困難本質,為學習演算法提供理論保證,並根據分析結果指導演算法設計。泛化誤差和經驗誤差是計算學習理論的兩個重要概念,現實中我們常用經驗誤差作為泛化誤差的近擬。 PAC學習 PAC學

機器學習筆記 - 線性迴歸

對應於《機器學習》書中3.1與3.2節 1.基本形式 線性模型就是試圖找到一個可以進行預測的線性函式: 其中x是示例的屬性,w是權重,當d>1時的問題叫多變量回歸問題,否則叫單變量回歸問題。 線性模型的優點在於其可解釋性強,因為可以直觀表達每個屬性的重要程度。 &nb

今天閱讀《:深度學習很有用,但過度追捧就有危險了 》

http://mp.weixin.qq.com/s/dHATlb1G2gvNztT_BeWaTw導讀周志華教授是蜚聲國內外的機器學習專家,也是2017屆中國人工智慧大會的主席之一。他的《機器學習》2016年1月出版之後,迅速成為這個領域的一本權威教材,在一年半的時間裡重印十幾

python 實現 機器學習書中 k-means 演算法

hello,all 上節採用python實現了決策樹,本節使用python實現k-means演算法,後一節將會採用map-reduce實現k-means演算法 演算法程式如下: 演算法程式碼如下: # coding=utf-8 import pprint import

python 實現 機器學習書中的決策樹 c3.0

hello,上篇文章實現的是svm 本文實現決策樹演算法。主要是依照周志華那本機器學習的書籍,進行實現。 其中紅色部分我未寫。因為我在選擇屬性劃分的時候,不可能導致資料集為空。所以這部分對我來說沒有必要了 這裡是用字典來儲存樹,開始還準備用list,發現字典要好些,但是我

機器學習學習筆記第三章 線性模型(課後習題)python 實現

線性模型 一、內容 1.基本形式 2.線性迴歸:均方誤差是迴歸任務中最常用的效能度量 3.對數機率迴歸:對數機率函式(logistic function)對率函式是任意階可導的凸函式,這是非常重要的性質。 4.線性判別分析(LDA 是一種降維的方法) 5.多分類學習: