1. 程式人生 > >資料探勘基礎導論學習筆記(五)

資料探勘基礎導論學習筆記(五)

第五章 分類 其他分類
貝葉斯分類器
貝葉斯定理:把類的先驗知識和從資料中收集的新證據相結合的統計原理。
公式:
P(Y|X)=P(X|Y)*P(Y)/P(X)
X是屬性集,Y是類變數
X和Y看成隨機變數,用P(Y|X)以概率的方式捕捉二者之間的關係,這個條件概率又稱為Y的後驗概率
P(Y)稱為Y的先驗概率
樸素貝葉斯分類器:
1 條件獨立性
2 樸素貝葉斯分類器如何工作
3 估計分類屬性的條件概率
4 估計連續屬性的條件概率
5 條件概率的m估計
6 樸素貝葉斯分類器的特徵:
面對孤立的噪聲點,樸素貝葉斯分類器是健壯的,也可以處理屬性值遺漏問題。
面對無關屬性,該分類器是健壯的。
相關屬性可能會降低該分類器的效能,因為對這些屬性,條件獨立的假設已經不成立。
7 貝葉斯誤差率

貝葉斯信念網路(BNN)
1 模型表示
用圖形表示一組隨機變數之間的概率關係。主要有兩部分組成:
(1)一個有向無環圖,表示變數之間的依賴關係。
(2)一個概率表,把各節點和他的直接父結點關聯起來。
如果從X到Y有一條有向弧,則X是Y的父母,Y是X的子女。
如果網路中存在一條從X到Z的有向路徑,則X是Z的祖先。

性質:
條件獨立:貝葉斯網路中的一個結點,如果他的父母結點已知,則他條件獨立於他的所有非後代結點。

每個結點關聯的概率表:
(1)如果結點X沒有父母結點,則表中只包含先驗概率P(X)
(2)如果結點X只有一個父母結點Y,則表中包含條件概率P(X|Y)
(3)如果結點X包含多個父母結點{Y1,Y2…Yk},則表中包含條件概率P(X|Y1,Y2…Yk)。

貝葉斯網路建立模型步驟
(1)建立網格結構
(2)估計每一個結點的概率表中的概率值

BNN特點
(1)BNN提供了一種用圖形模型來捕獲特定領域的先驗知識的方法。網路還可以用來對變數間的因果依賴關係進行編碼。
(2)構造網路可能既費時又費力,然而,一旦網路構建下來,新增新變數就十分容易。
(3)貝葉斯網路很適合處理不完整的資料。對有屬性遺漏值的例項可以通過對該屬性的所有可能取值的概率求和或求積分來加以處理。
(4)該方法對模型的過分擬合問題是非常棒的。