統計學習:泛化能力、生成模型、判別模型、分類、標註和迴歸問題
宣告:
1.本文章為參考相關書籍和前輩經驗所寫,只為個人學習專用。
2.若有內容錯誤之處請大家留言改進。
3.若有引用不當之處,請告知本人,會進行相關處理。
泛化能力
泛化誤差
學習方法的泛化能力(generalization ability)是指由該方法學習到的模型對未知資料的預測能力,是學習方法本質上重要的性質。現實中採用最多的方法是用測試資料得出的測試誤差來評價學習方法的泛化能力。因為測試資料集是有限的,很可能得到的評價結果是不可靠的。
首先給出泛化誤差的的定義。如果學到的模型是f^ ,那麼用這個模型對未知數預測的誤差即為泛化誤差(generalization error)
Rexpf^=Ep[L(Y,f^(x))]=∫x∗yL(y,f^(x))P(x,y)dxdy
泛化誤差反映了學習方法的泛化能力,如果一種方法學習的模型比另一種方法學習的模型有更小的泛化誤差,那麼這種方法就更有效。事實上,泛化誤差就是所學習到的模型的期望風險。泛化誤差上界
學習方法的泛化能力分析往往是通過研究泛化誤差的概率上界進行的,簡稱為泛化誤差上界(generalization error bound)。具體來說,就是通過比較兩種學習方法的的泛化誤差上界的大小來比較它們的優劣。
泛化誤差上界的性質:它是樣本容量的函式,當樣本容量增加時,泛化上界趨於0;它是假設空間容量(capacity)的函式,假設空間容量越大,模型就越難學,泛化誤差上界就越大。
生成模型 和判別模型
監督學習的任務就是學習一個模型,應用這一模型,對給定的輸入預測相應的輸出。這個模型的一般形式為決策函式:
或者條件概率分佈:
監督學習方法又可以分為生成方法(generative approach)和判別方法(discrimination approach)。所學習到的模型分別稱為生成模型(generalization model)和判別模型(discrimination model)
生成方法:由資料學習聯合概率分佈P(X,Y),然後求出條件概率分佈P(X/Y)作為預測的模型,即生成模型:
典型模型
特點:可以還原出聯合概率分佈P(X,Y),學習收斂速度更快,即當樣本容量增加時,學到的模型可以更快的收斂於真實模型;當存在隱變數時,仍可以用生成方法學習,此時判別方法不能用。
判別方法:由資料直接學習決策函式f(X)或者條件概率分佈P(X/Y)作為預測的模型,判別方法關心的是對給定的輸入X,應該預測什麼樣的輸出Y。
典型模型:K近鄰法、感知機、決策樹、邏輯斯諦迴歸模型、最大熵模型、支援向量機、提升方法和條件隨機場等。
特點:判別方法直接學習的是條件概率P(X,Y)或決策函式f(x),直接面對預測,往往學習的準確率更高;由於直接學習P(X/Y)或f(x),以對資料進行各種程度上的抽象、定義特徵並使用特徵,因此可以簡化學習問題。
分類問題
分類問題包括學習和分類兩個過程。在學習過程中,根據已知的訓練資料集利用有效的學習方法學習一個分類器