統計學習方法---第一章統計學習方法概論

阿新 • • 發佈：2018-11-23

統計學習的三要素：

（1）模型：所要學習的條件概率分佈或決策函式。

（2）策略：按照什麼樣的準則學習或選擇最優的模型。

（3）演算法：學習模型的具體計算方法。

方法 = 模型 + 策略 + 演算法

統計學習包括：

監督學習，半監督學習，非監督學習，強化學習

監督學習的方法與應用：

分類問題，標註問題，迴歸問題

模型的選擇方法：

正則化，交叉驗證，學習的泛化能力

統計學習的目的：對資料進行預測與分析。

目標：從假設空間中選取最優模型。

物件：資料

迴歸問題：

輸入變數與輸出變數均為連續變數的預測問題。

分類問題：

輸出變數為有限個離散變數的預測問題。

標註問題：

輸入變數與輸出變數均為變數序列的預測問題。

聯合概率分佈：

兩個及以上隨機變數組成的隨機變數的概率分佈。表示為：P（X,Y）

條件概率分佈：

就是由條件的聯合概率分佈。描述輸入與輸出隨機變數之間的對映關係。

假設空間：

模型屬於由輸入空間到輸出空間的對映的集合，這個集合就是假設空間。

監督學習：

利用訓練資料集學習一個模型，再用模型對測試樣本集進行預測。

分為兩個部分：訓練和預測。

風險函式：

度量平均意義下模型預測的好壞。

損失函式：

度量模型一次預測的好壞。記作：L(Y,f(x)).損失函式值越小，模型就越好。

損失函式的期望：

$R_{exp}(f)=E_{p}[L(Y,f(X))]=\int _{x*y}L(y,f(x))P(x,y)dxdy$

期望風險R（exp）是模型關於聯合分佈的期望損失。

經驗風險或經驗損失：模型關於訓練資料集的平均損失。記作R（emp）：

當樣本容量N趨於無窮時，經驗風險趨於期望風險。

經驗風險最小化（ERM）

當模型是條件概率分佈，損失函式是對數損失函式時，經驗風險最小化就等價於極大似然估計。

結構風險最小化（SRM）：為了防止過擬合而提出來的策略。

結構風險最小化等價於正則化。

結構風險最小化就等價於最大後驗概率估計。

過擬合：

所選模型的複雜度往往會比真模型更高。

這一現象對已知資料預測的很好，但對未知資料預測的很差的現象。

正則化：

一般是模型複雜度的單調遞增函式，模型越複雜，正則化值就越大。

一般形式：

第一項是經驗風險，第二項是正則化。

正則化項可以是引數向量的L2範數：

L1範數：

交叉驗證：

訓練集：訓練模型。

驗證集：模型的選擇。

測試集：最終對學習方法的評估。

基本想法：重複地使用資料。

1.簡單的交叉驗證

隨機地將已給資料分為兩部分。

2.S折交叉驗證

隨機地將已給資料分為S個互不相交的大小想同的子集；

然後利用 S-1 個子集的資料訓練模型，利用餘下的子集測試模型。

3.留一交叉驗證

S折交叉驗證的特殊情形是 S = N。

泛化能力：

通過測試誤差來評價學習方法的泛化能力。

泛化誤差就是所學習得到的模型的期望風險

泛化誤差：

泛化誤差上界：

歐式空間：

輸出空間遠遠小於輸入空間。

統計學習方法---第一章統計學習方法概論

統計學習的三要素：（1）模型：所要學習的條件概率分佈或決策函式。（2）策略：按照什麼樣的準則學習或選擇最優的模型。（3）演算法：學習模型的具體計算方法。方法 = 模型 + 策略 + 演算法

模式識別與機器學習（第一章）學習筆記

1.緒論模式識別領域關注的是利用計算機演算法自動發現數據中規律，以及使用這些規律將資料分類。利用機器學習進行模式識別更精確，具體步驟為：選定訓練集，包括輸入的向量X（可能是對原始向量進行過預處理的，比如特徵抽取）和輸出的目標向量t，用於調節模型引數,最終模型輸出向量為y(

機器學習實戰第一章----機器學習基礎小結

機器學習學習基礎一章先介紹了機器學習的概念，講解了機器學習可以幹什麼，遇到實際問題時應該怎麼選擇合適的機器學習演算法，簡單介紹了機器學習應用程式的步驟，介紹了機器學習實戰過程中當前使用最多的語言python和機器學習中常用的函式庫numpy。機器學習是當前I

李航《統計學習方法》第一章機器學習三要素

chapter1 統計學習方法概論統計學習三要素 model 模型假設空間決策函式的集合 f={f|Y=f(X)} 引數空間 /theta strategy 策略： 1）如何選擇模型？考量： i.損失函式 e.g.如果是Squa

第一章統計學習方法概論 —— 第1~3節統計學習及監督學習的簡介、損失函式及風險函式的公式化表達

關於統計學習方法的知識，參考書《統計學習方法》，李航著，清華大學出版社。所有章節的符號表示、公式表示都是統一化的。第一章統計學習方法概論第一節統計學習一、概念所謂統計學習，指的是基於已知資料構建統計模型，從而對未知資料進行預測。二、分類監督學習（super

計算機網路自頂向下方法第一章學習筆記

1、因特網構成端系統通過通訊鏈路和分組交換機連線。傳送端將資料分段，並加上首部位元組，形成的資訊包稱為分組。分組交換機從一條鏈路接收分組，並轉發到另一條鏈路。主要分為路由器和鏈路層交換機兩類。交換機一般用於接入網，路由器通常用於網路核心。端系統、分組交換機和其他因特網部件要執行一系

第一章機器學習方法概論

機器學習方法概論基礎知識 1 機器學習三要素構建一個機器學習方法就是確定具體機器學習三要素的過程機器學習方法=模型+策略+演算法模型:就是所要學習的條件概率分佈或決策函式策略:模型的假設空間包括所有可能的條件概率分佈和決策函式,按照

《算法導論》學習筆記第一章（算法在計算中的作用）

out sep round 第一章 about win knowledge mode owin 　　第一章主要講了一些概念，什麽是算法，為什麽算法值得研究。　　印象比較深的是章節的最後一句，是否具有算法知識與技術的堅實基礎是區分真正熟練的程序員與初學者的一個特征。使用現代

latex學習筆記第一章 LATEX須知

archive 開頭一個文本作者 logs tex 基礎上 nbsp 本學習筆記全部從http://www.latexstudio.net/archives/6058抽取總結而來。第一章 LATEX須知 1.1 概述 1.1.1 TEX 　　TEX是高德納開發的、以

第一章機器學習基本概念

經驗 amp 獨立示例特征向量三維容易如果包含 1.機器學習主要是通過計算機在已有的數據上（經驗）產生相應的模型（學習算法），在面臨新的情況時，模型能給出相應的判斷。所以說機器學習是研究學習算法的學問。 2基本術語 2.1以西瓜是否成熟為例，（色澤=青綠；根蒂=

Java Web 學習筆記第一章，java語言簡介

com 分布式 ron java瀏覽器 family javadoc 全球 intellij jvm 第一章 java語言簡介一、什麽是java？ Java 編程語言：簡單、完全面向對象、分布式、解釋性、健壯、安全與系統無關、可移植、高性能、多線程和動態的編程語言。

數據庫系統概論學習筆記-第一章緒論

缺點一起表示數據操作不能不變抽象 ava 定義數據庫系統概論-第一章緒論寫在前面：寒假來臨，除卻走親戚和同學聚餐，王者榮耀等遊戲上分花銷一點時間之外，自認為要花一點時間學習數據庫和Android，以此來為下學期和共建項目打下一丟丟的基礎。為了鞭策自己，定

Python爬蟲學習==>第一章：Python3+Pip環境配置

sof 環境 pts window https 有時 naconda 步驟管家前置操作軟件名：anaconda 版本：Anaconda3-5.0.1-Windows-x86_64清華鏡像下載鏈接：https://mirrors.tuna.tsinghua.ed

【Weex學習】第一章：環境搭建

下載鏈接 spa 鏈接 java androi tps http nload 第一章 1、安裝Node.js //查看版本node -vnpm -v 2、安裝Java 下載鏈接：https://www.java.com/zh_CN/ 3、安裝Git 下載鏈接：https

python集訓營學習：第一章 python基礎

python基礎1.python介紹python是一門解釋型語言，代碼想運行，必須通過解釋器執行解釋器種類有CPython、IPython、PyPy、Jython、IronPython等2.變量聲明變量name=‘Crab’變量定義規則變量名只能是字母、數字或下劃線的任意組合變量名的第一個字符不能是數字

PRML學習筆記第一章

som 能力 ef7 最大網絡模型乘除數學優雅相互【轉】 PRML筆記 - 1.1介紹模式識別的目標自動從數據中發現潛在規律，以利用這些規律做後續操作，如數據分類等。模型選擇和參數調節類似的一族規律通常可以以一種模型的形式為表達，選擇合適模型的過

Python學習（第一章）

left cccccc tro 告訴 str pad 初始設置所在自動補全 1. Tab鍵可以對命令自動補全 2. 查看Python的內置函數bif ，用help(int)查看內置函數用法 dir(__builtins__) 3. Pycharm拓展： >1

阿裏雲ECS學習（第一章）

fff 成本保護簡單定位遷移 shadow 伸縮每一個第一章：彈性計算服務ECS概要介紹一：掌握雲服務器ECSECS產品介紹：彈性計算服務（Elastic Compute Service,簡稱ECS）:是一種處理能力可彈性伸縮的計算服務。與傳統服務器相比，更加簡

學習Linux 第一章

inux 選中 dvd work 問題 code 直接交換虛擬 1.1 學習之初 1. 給自己定下目標，什麽時候完成學業，工資多少，每天學習復習記筆記。 1.2 約定 1. 系統：CentOS7.3 虛擬機：VMware workstation 1

《機器學習實戰》第一章——機器學習基礎——筆記

1.機器學習的一個主要任務就是分類。 2.學習如何分類需要做演算法訓練，為演算法輸入大量已分類資料作為演算法的訓練集。 3.分類問題中的目標向量稱為類別，並假定分類問題只存在有限個數的類別。 4.訓練資料和測試資料。 5.假定某一個演算法，經過測試滿足精確度要求，已經學會了如何分類，

統計學習方法---第一章統計學習方法概論

相關推薦