1. 程式人生 > >統計學習方法_李航_筆記

統計學習方法_李航_筆記

統計學習方法_李航

因本人剛開始寫部落格,學識經驗有限,如有不正之處望讀者指正,不勝感激;也望藉此平臺留下學習筆記以溫故而知新。這一篇文章介紹的是李航的統計學習方法一書的第一遍學習筆記。 

統計學習方法概論

 統計學習方法概論

統計學習的物件是資料,從資料出發,提取資料的特徵, 抽象出資料的模型, 發現數據中的知識, 又回到對資料的分析與預測中去。

統計學習的目標是考慮學習什麼樣的模型和如何學習模型,以使模型能對資料進行準確的預測與分析,同時也要考慮儘可能地提高學習效率。

統計學習的組成:監督學習、非監督學習、半監督學習和強化學習等。

統計學習方法的三要素:模型、策略和演算法.

學習或選擇最優模型的預測錯誤的程度度量:通常採用損失函式或代價函式。

統計學習常用的損失函式:損失函式、平方損失函式、絕對損失函式、對數損失函式。

典型的生成模型:樸素貝葉斯法和隱馬爾可夫模型。

典型的判別模型:k近鄰法、感知機、決策樹、邏輯斯諦迴歸模型、最大熵模型、支援向量機、提升方法和條件隨機場等。

生成方法的特點: 生成方法可以還原出聯合概率分佈P(X,Y), 而判別別方法則不能。生成方法的學習收斂速度更快, 即當樣本容量增加的時候, 學到的模型可以更快地收斂於真實模型;當存在隱變數時,仍可以用生成方法學習,此時判別方法就不能用。

判別方法的特點:判別方法直接學習的是條件概率 P(Y|X)或決策函式f(X),直接面對預測,往往學習的準確率更高;由於直接學習P(Y|X)或f(X),可以對資料進行各種程度上的抽象、定義特徵並使用特徵,因此可以簡化學習問題。

實現統計學習方法的步驟如下:
(1)得到一個有限的訓練資料集合;
(2)確定包含所有可能的模型的假設空間,即學習模型的集合;
(3)確定模型選擇的準則,即學習的策略;
(4)實現求解最優模型的演算法,即學習的演算法;
(5)通過學習方法選擇最優模型;
(6)利用學習的最優模型對新數掘進行預測或分析。

監督學習圖示:

 

感知機學習演算法

 

K近鄰

K近鄰模型由三個基本要素距離度量、k值的選擇和分類決策規則決定。

距離度量:

K近鄰法的實現:kd樹

構造kd樹

搜尋kd樹

 

樸素貝葉斯

 

決策樹

決策樹學習過程
• 特徵選擇
• 決策樹生成:遞迴結構 ,對應於模型的區域性最優
• 決策樹剪枝:縮小樹結構規模、緩解過擬合

 ID3基於資訊增益作為屬性選擇的度量

 

C4.5基於資訊增益比作為屬性選擇的度量

 

邏輯迴歸模型

 

支援向量機

 

 

提升方法boosting

核心:多個弱分類器可以組成成為強分類器

 

EM演算法

求期望,再求最大值

 

隱馬爾可夫模型

 

 

 

 

 

 

參考文獻

統計學習方法 李航