《統計學習方法（李航）》統計學習方法概論學習筆記

阿新 • • 發佈：2018-12-25

作者：jliang

https://blog.csdn.net/jliang3

1.重點歸納

1）統計學三要素

（1）模型：就是所要學習的條件概率分佈或決策函式

（2）策略：從假設空間中選取最優模型，需要考慮按照什麼樣的準則學習或選擇最優的模型

（3）演算法：求解最優化問題的演算法

2）損失函式（loss function）或代價函式（cost function）用來度量預測錯誤的程度，損失函式越小越好。常見的損失函式：

0-1損失函式（0-1 loss function）

平方損失函式（quadratic loss function）

絕對損失函式（absolute loss function）

對數損失函式（logarithmic loss funcion）

3）學習的損失函式未必是評估時使用的損失函式。

4）訓練誤差的大小反映了模型對訓練資料學習的好壞，測試誤差反映了學習方法對未知的測試資料集的預測能力。

5）正則化是結構風險最小策略的實現，是在經驗風險上加了一個正則化項或罰項。

L1範數：L1是絕對值最小，趨向於產生少量的特徵，而其它特徵為0。

L2範數：L2是平方最小，會選擇更多的特徵，這些特徵都會接近0。

6）判別式模型與生成式模式

（1）判別式模型（直接判斷是否有判別邊界）

對條件概率P(Y|X)建模。
對所有樣本只構建一個模型，確定總體判別邊界。
觀測到輸入什麼特徵，就預測最優可能的類標。
例子：LR、決策樹、最大熵、條件隨機場

（2）生成式模式

對聯合概率P(X, Y)建模
分類問題中，每種類標都需要進行建模，最終選擇最優概率的類標，沒有判別邊界
例子：樸素貝葉斯、貝葉斯網路、pLSA、LDA和隱馬爾科夫模型

2.統計學習方法

1）統計學習關於資料的基本假設是同類資料具有一定的統計規律性，這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料，例如文章、網頁、DB資料等。

2）由於它們具有統計規律性，所以可以用概率統計方法來處理，例如：

用隨機變數描述資料中的特徵
用概率分佈描述資料的統計規律

3）統計學習的目的是對資料進行預測與分析，特別是對未知新資料進行預測與分析。

4）統計學習方法的三要素：模型的假設空間（模型）、模型選擇準則（策略）以及模型學習的演算法（演算法）。

5）學習方法步驟：

獲取訓練資料集
確定包含所有可能的模型的假設空間（即學習模型的集合）
確定模型選擇的準則（即學習策略）
實現求解最優模型的演算法（即學習的演算法）
通過學習方法選擇最優模型
利用學習的最優模型對新資料進行預測或分析

3.監督學習

1）監督學習的任務是學習一個模型，使模型能夠對任意給定的輸入，對其相應的輸出做出一個好的預測。

2）輸入、輸出的不同型別劃分預測任務：

輸入變數與輸出變數均為連續變數的預測問題為迴歸問題
輸出變數為有限個離散變數的預測問題為分類問題
輸入變數與輸出變數均為變數序列的預測問題為標註問題

標註問題是分類問題的推廣，分類問題只輸出一個值，而標註問題輸出的是一個向量，向量的每個值都屬於一種標記型別。

3）簡單學習的目的在於學習一個由輸入到輸出的對映，這一對映由模型來表示。模型屬於由輸入空間到輸出空間的對映的集合，這個集合就是假設空間。

4.統計學三要素

1）模型

在監督學習過程中，模型就是所要學習的條件概率分佈或決策函式。模型的假設空間包含所有可能的條件概率分佈或決策函式。

決策函式表示模型的非概率模型，決策函式的集合：
由條件概率表示的模型為概率模型，條件概率的集合：

2）策略

（1）統計學習的目標在於從假設空間中選取最優模型，需要考慮按照什麼樣的準則學習或選擇最優的模型。

（2）損失函式（loss function）或代價函式（cost function）用來度量預測錯誤的程度，損失函式越小越好。常見的損失函式：

0-1損失函式（0-1 loss function）

平方損失函式（quadratic loss function）

絕對損失函式（absolute loss function）

對數損失函式（logarithmic loss funcion）

（3）損失函式的期望就是欺負損失或風險函式，學習的目標就是選擇期望風險最小的模型。

模型關於訓練資料集的平均損失稱為經驗風險或經驗損失
期望風險是模型關於聯合分佈的期望損失，經驗風險是模型關於訓練集的平均損失。

（4）根據大數定律，當樣本容量趨於無窮大時，經驗風險趨於期望風險。極大似然估計就是經驗風險最小化的例子。當模型是條件概率分佈，損失函式時對數損失函式時，經驗風險最小化等價於極大似然估計。

（5）當樣本容量很小時，經驗風險最小化學習效果未必很好，會產生過擬合。結構風險最小化是為了防止過擬合而提出的策略，等價於正則化。結構風險在經驗風險上加上表示模型複雜度的正則化項或懲罰項。

3）演算法

演算法是指學習模型的具體計算方法。統計學習問題歸結為最優化問題，統計學習的演算法成為求解最優化問題的演算法。

5.模型評估與模型選擇

1）基於損失函式的模型的訓練誤差和測試誤差是學習方法的評估標準。學習的損失函式未必是評估時使用的損失函式。

2）訓練誤差的大小反映了模型對訓練資料學習的好壞，測試誤差反映了學習方法對未知的測試資料集的預測能力。通常將對未知資料的預測能力成為泛華能力。

3）如果一味追求提高對訓練資料的預測能力，所選模型會過擬合，對訓練資料預測得很好，但對未知資料預測得很差。模型選擇旨在避免過擬合併提高模型的預測能力。

6.正則化

1）正則化是結構風險最小策略的實現，是在經驗風險上加了一個正則化項或罰項。

第1項為經驗風險，第2項為正則化項，λ≥0為調整兩者之間關係的係數。
λ能控制對方差和偏差的影響。當λ上升時，它減少了係數的值，從而降低了方差。直到上升到某值之前，λ的增大很有利，因為它只是減少方差（避免過擬合），而不會丟失資料的任何重要特徵。當λ在某值之後，模型會失去重要的特徵，導致偏差上升產生欠擬合。

2）L1範數

L1是絕對值最小，趨向於產生少量的特徵，而其它特徵為0。

3）L2範數

L2是平方最小，會選擇更多的特徵，這些特徵都會接近0。

4）從貝葉斯角度看，正則化對應於模型的先驗概率，可以假設複雜模型有較小的先驗概率，簡單模型有較大的先驗概率。

5）交叉驗證

（1）樣本數量充足時，可以隨機將資料集劃分成三部分，分別為：訓練集、驗證集合測試集。當資料不足時，為了選擇好的模型，可以採用交叉驗證方法。

（2）簡單交叉驗證

隨機把資料劃分成兩部分，使用訓練資料訓練，使用測試資料測試誤差，選出測試誤差最小的模型。

（3）K折交叉驗證

隨機地把資料切分為K份資料量相同的資料，利用K-1資料進行訓練，利用剩餘的子集作測試，共進行K次訓練和測試。選出K次評測中平均測試誤差最小的模型。

（4）留一交叉驗證

K折交叉驗證的特殊情況，K=N，N為總樣本量。

7.泛化能力

1）泛化能力是指模型對未知資料的預測能力。模型對未知資料的預測誤差就是泛華誤差，泛華誤差就是模型的期望風險。

2）比較兩種學習方法的泛化誤差上界的大小來比較它們的優劣。

8.生產模型與判別模型

1）判別式模型

對條件概率P(Y|X)建模。
對所有樣本只構建一個模型，確定總體判別邊界。
觀測到輸入什麼特徵，就預測最優可能的類標。
優點：對資料量要求沒生成式模型嚴格，速度也快，小資料量小準確率也會好些。
例子：LR、決策樹、最大熵、條件隨機場等

2）生成式模式

對聯合概率P(X, Y)建模
分類問題中，每種類標都需要進行建模，最終選擇最優概率的類標，沒有判別邊界
中間生成聯合分佈，並可生成取樣資料
優缺點
- 所包含的資訊非常齊全，所以不僅可以用於預測label，還可以幹其它事情。
- 需要非常充足的資料量以保證取樣到資料本來的面目。
- 當存在隱變數時仍可以使用。
- 速度比較慢。
例子：樸素貝葉斯、貝葉斯網路、pLSA、LDA和隱馬爾科夫模型

9.分類問題

1）評價分類器效能的指標一般是分類準確率

2）對於不平衡二分類（如正負比例小於等於1:4）需要採用精確率（precision）和召回率（recall）

（1）名詞說明

TP：將正類預測為正類數
FN：將正類預測為負類數
FP：將負類預測為正類數
TN：將負類預測為負類數

（2）精確率（查準率），誤預測為正類的數量預測少，精確率越高

（3）召回率（查全率），漏預測的正類的數量預少，召回率越高

（4）F度量（F-measure），常用β=1，即F1度量。精確率和召回率都高時，F1值也會高。

10.標註問題

1）標註問題是分類問題的一個推廣，標註問題又是更復雜的結構預測問題的簡單形式。標註問題輸入的是一個觀測序列，輸出是一個標記序列或狀態序列。

2）學習系統基於訓練資料集構建一個模型，表示為條件概率分佈：。標註系統按照學習到的條件概率分佈模型，對新輸入觀測序列找到相應的輸出標記序列。

3）評價標註模型的指標與評價分類模型的一樣。

4）標註常用的統計學習方法有：隱馬爾科夫模型、條件隨機場

5）標註問題再資訊抽取、自然語言處理等領域被廣泛應用。

例子：自然語言處理的次性標註：給定一個由單片語成的句子，對這個句子中的每一個單詞進行標註，即對單詞序列預測其對應的詞性標記序列。

11.迴歸問題

1）迴歸問題等價於函式擬合，選擇一條曲線使其很好地擬合已知資料並很好預測未知資料。

2）迴歸學習最常用的損失函式時平方損失函式，在此情況下，迴歸問題可以由最小二乘法求解。

《統計學習方法（李航）》支援向量機學習筆記

作者：jliang https://blog.csdn.net/jliang3 1.重點歸納 1）支援向量機（SVM）是一種二分類模型（1）它的基本模型定義在特徵空間上的間隔最大化的線性分類器，間隔最大使它有別於感知機（感知機的損失函式只判斷是否正確分類）。

《統計學習方法（李航）》講義第04章樸素貝葉斯

ima .cn 效率常用 1-1 估計實現技術 com 樸素貝葉斯(naive Bayes) 法是基於貝葉斯定理與特征條件獨立假設的分類方法。對於給定的訓練數據集，首先基於特征條件獨立假設學習輸入/輸出的聯合概率分布；然後基於此模型，對給定的輸入x，利用貝

《統計學習方法（李航）》講義第05章決策樹

lan 定義 if-then 利用建立 then 統計來源根據決策樹(decision tree) 是一種基本的分類與回歸方法。本章主要討論用於分類的決策樹。決策樹模型呈樹形結構，在分類問題中，表示基於特征對實例進行分類的過程。它可以認為是if-then

統計學習方法（李航）筆記

感知機/k近鄰/貝葉斯/決策樹前言：有時候公式實在不好理解的時候可以看一道例題理解，或者執行程式debug除錯逐步看輸入輸出變化進行理解！第二章感知機感知機概念輸入到輸出空間的對映：f(x) =sign(w*x+b) sign函式如下：感知器是一種線性分類器模型，屬於

統計學習方法（李航）---筆記

第二章感知機感知機概念輸入到輸出空間的對映：f(x) =sign(w*x+b) sign函式如下：感知器是一種線性分類器模型，屬於判別模型。感知機是採用隨機梯度下降，是在所有誤分點中隨機選一個誤差點的梯度下降來跟新其的權重和偏執。感知機學習演算法原始

《統計學習方法（李航）》整合學習（內容有拓展）學習筆記

作者：jliang https://blog.csdn.net/jliang3 1.自助法（Bootstrap） 1）自助法是一種有放回的抽樣方法。核心思想是從原樣本集有放回抽取N個子集，訓練N個分類器，進行整合。 2）Bagging和Boosting都是Bo

《統計學習方法（李航）》邏輯斯蒂迴歸與最大熵模型學習筆記

作者：jliang https://blog.csdn.net/jliang3 1.重點歸納 1）線性迴歸（1）是確定兩種或以上變數間相互依賴的定量關係的一種統計分析方法。（2）模型：y=wx+b （3）誤差函式：（4）常見求解方法最小

《統計學習方法（李航）》決策樹學習方法

作者：jliang https://blog.csdn.net/jliang3 1.重點歸納 1）特徵選擇依據 ID3：資訊增益最大： C4.5：資訊增益比最大：，n為特徵A的取值個數，Di為特徵A第i個取值的集合 CART

《統計學習方法（李航）》樸素貝葉斯學習筆記

作者：jliang https://blog.csdn.net/jliang3 1.重點歸納 1）樸素貝葉斯（naive Bayes）法只能用於分類，先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈，然後對給定的輸入x，利用貝葉斯定理求出後驗概率最大的輸出y。 2

《統計學習方法（李航）》k近鄰學習筆記

作者：jliang https://blog.csdn.net/jliang3 1.重點歸納 1）k近鄰是一種基本分類與迴歸方法，不具有顯式的學習過程。 2）模型由三個基本要素決定：距離度量、k值選擇和分類決策規則。 3）k近鄰法最簡單的實現方法是線性掃描，當

《統計學習方法（李航）》感知機學習筆記

作者：jliang https://blog.csdn.net/jliang3 1.重點歸納 1）感知機是二分類的線性分類模型 2）經驗風險函式/損失函式, M為誤分類點 3）學習策略, M為誤分類點 4）感知機是誤分類驅動的，具體採用隨機梯度下降法求解。 5）感知機存在

《統計學習方法（李航）》統計學習方法概論學習筆記

作者：jliang https://blog.csdn.net/jliang3 1.重點歸納 1）統計學三要素（1）模型：就是所要學習的條件概率分佈或決策函式（2）策略：從假設空間中選取最優模型，需要考慮按照什麼樣的準則學習或選擇最優的模型（

拉格朗日對偶問題（李航《統計學習方法》）

思路具體的公式就不黏貼了，只把大體思路記錄下來，方便本人及有需要的人查閱。具體講解可以去看李航的《統計學習方法》。首先給出一個原始問題，原始問題一般都是帶約束條件的，第一步就是利用拉格朗日乘子將原始問題轉化為無約束最優化問題。將x視作常量，α，β

斯坦福大學公開課機器學習課程（Andrew Ng）四牛頓方法與廣義線性模型

本次課所講主要內容： 1、牛頓方法：對Logistic模型進行擬合 2、指數分佈族 3、廣義線性模型（GLM）：聯絡Logistic迴歸和最小二乘模型一、牛頓方法牛頓方法與梯度下降法的功能一樣，都是對解空間進行搜尋的方法。假設有函

spring 事務處理中，同一個類中:A方法（無事務）調B方法（有事務）,事務不生效問題

public class MyEntry implements IBaseService{ public String A(String jsonStr) throws Exception{ UserInfo user = null; UserDetail userDetail = nul

機器學習實踐（十七）—sklearn之無監督學習-K-means演算法

一、無監督學習概述什麼是無監督學習之所以稱為無監督，是因為模型學習是從無標籤的資料開始學習的。無監督學習包含演算法聚類 K-means(K均值聚類) 降維

機器學習（南京大學周志華的《機器學習》和李航的《統計學習方法》）

機器學習的三種不同方法：一、監督學習（supervised learning）——對未來事件進行預測。使用有類標的資料構建資料模型。然後使用經訓練得到的模型對未來的資料進行預測。主要分為兩類： 1.利用分類對類標進行預測 2.使用迴歸預測連續輸出值二、無監

李航《統計學習方法》CH02

三元由於 nis mir 集合體會 .com 測試 git CH02 感知機前言章節目錄感知機模型感知機學習策略數據集的線性可分性感知機學習策略感知機學習算法感知機學習算法感知機學習算法的原始形式算法的收斂性感知機學習

李航《統計學習方法》CH03

CH03 k近鄰法前言章節目錄 k近鄰演算法 k近鄰模型模型距離度量 k值選擇分類決策規則 k近鄰法的實現: KDTree 構造KDTree 搜尋KDTree 導讀 kNN是一種基本分類與迴歸方法

《統計學習方法》(李航)讀書筆記(完結)超級火爆的總結

閱讀目錄知識點感知機 k近鄰法樸素貝葉斯決策樹 logistic迴歸和最大熵模型支援向量機提升方法 EM演算法隱馬爾可夫模型(HMM) 統計學習方法總結神經網路 K-Means

《統計學習方法（李航）》統計學習方法概論 學習筆記

作者：jliang

相關推薦

《統計學習方法（李航）》統計學習方法概論學習筆記