機器學習算法
1. 貝葉斯
2. 樸素貝葉斯
http://blog.csdn.net/amds123/article/details/70173402
分類問題可做如下定義:已知集合和,確定映射規則y = f(x),使得任意有且僅有一個,使得成立
其中C叫做類別集合,其中每一個元素是一個類別,而I叫做項集合(特征集合),其中每一個元素是一個待分類項,f叫做分類器。分類算法的任務就是構造分類器f。
為什麽需要假設特征之間相互獨立呢
特征的聯合概率分布總數非常多,現實生活中,往往有非常多的特征,每一個特征的取值也是非常之多
樸素貝葉斯法對條件概率分布做了條件獨立性的假設,這一假設使得樸素貝葉斯法變得簡單,但有時會犧牲一定的分類準確率。
優點:算法邏輯簡單,易於實現;分類過程中時空開銷小;算法穩定,對於不同的數據特點其分類性能差別不大,健壯性比較好
缺點:樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好;
效率:
某些領域,與決策樹和神經網絡分類法相媲美;理論上貝葉斯分類具有最小錯誤率,但實踐並非如此(條件獨立)
樸素貝葉斯的屬性都是離散的,對於連續值怎麽劃分屬性?如果P(aj/yi)=0怎麽辦?
假定其值是服從高斯分布的,只要計算出樣本中在各個類別中該特征項劃分的各個均值和標準差,帶入公式即可得到其估計值;對於P(aj/yi)=0,引入拉普拉斯校準
如果特征屬性之間是關聯的,怎麽辦
貝葉斯網絡,Seminaive bayesian算法(半樸素貝葉斯算法)
而在屬性相關性較小時,樸素貝葉斯性能最為良好。
改進對於這一點,有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。
3. 決策樹
本文出自 “Sunny” 博客,請務必保留此出處http://1994520.blog.51cto.com/1984520/1950163
機器學習算法