1. 程式人生 > >機器學習算法

機器學習算法

機器學習算法


1. 貝葉斯

2. 樸素貝葉斯

http://blog.csdn.net/amds123/article/details/70173402

分類問題可做如下定義:已知集合技術分享技術分享,確定映射規則y = f(x),使得任意技術分享有且僅有一個技術分享,使得技術分享成立


其中C叫做類別集合,其中每一個元素是一個類別,而I叫做項集合(特征集合),其中每一個元素是一個待分類項,f叫做分類器。分類算法的任務就是構造分類器f。

技術分享

為什麽需要假設特征之間相互獨立呢

特征的聯合概率分布總數非常多,現實生活中,往往有非常多的特征,每一個特征的取值也是非常之多

樸素貝葉斯法對條件概率分布做了條件獨立性的假設,這一假設使得樸素貝葉斯法變得簡單,但有時會犧牲一定的分類準確率。

優點:算法邏輯簡單,易於實現分類過程中時空開銷小;算法穩定,對於不同的數據特點其分類性能差別不大,健壯性比較好

缺點:樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好;

效率:

某些領域,與決策樹和神經網絡分類法相媲美;理論上貝葉斯分類具有最小錯誤率,但實踐並非如此(條件獨立

樸素貝葉斯的屬性都是離散的,對於連續值怎麽劃分屬性?如果P(aj/yi)=0怎麽辦?

假定其值是服從高斯分布的,只要計算出樣本中在各個類別中該特征項劃分的各個均值和標準差,帶入公式即可得到其估計值;對於P(aj/yi)=0,引入拉普拉斯校準

如果特征屬性之間是關聯的,怎麽辦

貝葉斯網絡,Seminaive bayesian算法(半樸素貝葉斯算法)

而在屬性相關性較小時,樸素貝葉斯性能最為良好。

改進對於這一點,有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。


3. 決策樹


本文出自 “Sunny” 博客,請務必保留此出處http://1994520.blog.51cto.com/1984520/1950163

機器學習算法