統計學習：泛化能力、生成模型、判別模型、分類、標註和迴歸問題

阿新 • • 發佈：2019-01-08

宣告：
1.本文章為參考相關書籍和前輩經驗所寫，只為個人學習專用。
2.若有內容錯誤之處請大家留言改進。
3.若有引用不當之處，請告知本人，會進行相關處理。

泛化能力

泛化誤差
學習方法的泛化能力（generalization ability）是指由該方法學習到的模型對未知資料的預測能力，是學習方法本質上重要的性質。現實中採用最多的方法是用測試資料得出的測試誤差來評價學習方法的泛化能力。因為測試資料集是有限的，很可能得到的評價結果是不可靠的。
首先給出泛化誤差的的定義。如果學到的模型是f^,那麼用這個模型對未知數預測的誤差即為泛化誤差（generalization error）

Rexpf^=Ep[L(Y,f^(x))]=∫x∗yL(y,f^(x))P(x,y)dxdy
泛化誤差反映了學習方法的泛化能力，如果一種方法學習的模型比另一種方法學習的模型有更小的泛化誤差，那麼這種方法就更有效。事實上，泛化誤差就是所學習到的模型的期望風險。
泛化誤差上界
學習方法的泛化能力分析往往是通過研究泛化誤差的概率上界進行的，簡稱為泛化誤差上界（generalization error bound）。具體來說，就是通過比較兩種學習方法的的泛化誤差上界的大小來比較它們的優劣。

泛化誤差上界的性質：它是樣本容量的函式，當樣本容量增加時，泛化上界趨於0；它是假設空間容量（capacity）的函式，假設空間容量越大，模型就越難學，泛化誤差上界就越大。

生成模型和判別模型

監督學習的任務就是學習一個模型，應用這一模型，對給定的輸入預測相應的輸出。這個模型的一般形式為決策函式：

Y=f(X)
或者條件概率分佈：
P(Y/X)
監督學習方法又可以分為生成方法（generative approach）和判別方法（discrimination approach）。所學習到的模型分別稱為生成模型（generalization model）和判別模型（discrimination model）

生成方法：由資料學習聯合概率分佈P（X,Y）,然後求出條件概率分佈P（X/Y）作為預測的模型，即生成模型：

P(X/Y)=P(X,Y)P(X)
典型模型

：樸素貝葉斯法和隱馬爾科夫模型
特點：可以還原出聯合概率分佈P(X,Y)，學習收斂速度更快，即當樣本容量增加時，學到的模型可以更快的收斂於真實模型；當存在隱變數時，仍可以用生成方法學習，此時判別方法不能用。

判別方法：由資料直接學習決策函式f(X)或者條件概率分佈P（X/Y）作為預測的模型，判別方法關心的是對給定的輸入X，應該預測什麼樣的輸出Y。
典型模型：K近鄰法、感知機、決策樹、邏輯斯諦迴歸模型、最大熵模型、支援向量機、提升方法和條件隨機場等。
特點：判別方法直接學習的是條件概率P(X,Y)或決策函式f(x),直接面對預測，往往學習的準確率更高；由於直接學習P(X/Y)或f(x),以對資料進行各種程度上的抽象、定義特徵並使用特徵，因此可以簡化學習問題。

分類問題

分類問題包括學習和分類兩個過程。在學習過程中，根據已知的訓練資料集利用有效的學習方法學習一個分類器

統計學習：泛化能力、生成模型、判別模型、分類、標註和迴歸問題

泛化能力

生成模型和判別模型

分類問題

標註問題

迴歸問題

統計學習：泛化能力、生成模型、判別模型、分類、標註和迴歸問題

斯坦福大學公開課機器學習：Neural network-model representation（神經網絡模型及神經單元的理解）

深度學習基礎--從傅立葉分析角度解讀深度學習的泛化能力

從傅立葉分析角度解讀深度學習的泛化能力

統計學習方法樸素貝葉斯法(附簡單模型程式碼)

python3深度學習：TensorFlow資料的生成與讀取（主要針對影象處理）

機器學習引數模型與非引數模型/生成模型與判別模型

深度學習：迴圈神經網路（RNN）的變體LSTM、GRU

ML13生成模型與判別模型

理解生成模型與判別模型

生成方法vs判別方法+生成模型vs判別模型

生成模型與判別模型

生成模型與判別模型的區別

強化學習：Markov Decision Process (基於南大俞揚博士演講的修改和補充）

生成模型 VS 判別模型

mysql查詢最後幾條、生成一條包含多條記錄、插入語句、差值查詢

斯坦福大學-自然語言處理入門筆記第十一課最大熵模型與判別模型（2）

斯坦福大學-自然語言處理入門筆記第八課最大熵模型與判別模型

統計學習方法——模型的選擇與評估（過擬合、泛化能力）

機器學習：模型泛化（L1、L2 和彈性網絡）

統計學習：泛化能力、生成模型、判別模型、分類、標註和迴歸問題

泛化能力

生成模型 和判別模型

分類問題

標註問題

迴歸問題

相關推薦

生成模型和判別模型