1. 程式人生 > >機器學習-貝葉斯相關知識點

機器學習-貝葉斯相關知識點

貝葉斯判定準則:為最小化總體風險,只需在每個樣本上選擇能使條件風險R(c|x)最小的類別標記: 

/-------------------------------極大似然估計---------------------------------/

估計類的常用策略:先假定其具有某種確定的概率分佈形式,再基於訓練樣本對概率分佈的引數進行估計。即概率模型的訓練過程就是引數估計過程。

引數估計兩大學派:頻率主義學派和貝葉斯學派。

1)頻率主義:引數雖然未知,但卻是客觀存在的固定值,因此,可通過優化似然函式等準則來確定引數值(最大似然)。2)貝葉斯學派:引數是未觀察到的隨機變數,本身也可以有分佈,因此,可假定引數服從一個先驗分佈,然後基於觀察到的資料來計算引數的後驗分佈。

/*-----------------------------樸素貝葉斯------------------------------------*/

樸素貝葉斯:

1)思想:對於給定的待分類項x,通過學習到的模型計算後驗概率分佈,即:在此項出現的條件下各個目標類別出現的概率,將後驗概率最大的類作為x所屬的類別。後驗概率根據貝葉斯定理計算。

2)關鍵:為避免貝葉斯定理求解時面臨的組合爆炸、樣本稀疏問題,引入了條件獨立性假設

3)工作原理: 

 

4)工作流程:1)準備階段:確定特徵屬性,並對每個特徵屬性進行適當劃分,然後由人工對一部分待分類項進行分類,形成訓練樣本。 2)訓練階段:對每個類別計算在樣本中的出現頻率p(y),並且計算每個特徵屬性劃分對每個類別的條件概率p(yi | x); 3)應用階段:使用分類器進行分類,輸入是分類器和待分類樣本,輸出是樣本屬於的分類類別。

採用了屬性條件獨立性假設,

       

d:屬性數目,xi為x在第i個屬性上的取值。

貝葉斯估計:

極大似然估計中,直接用連乘計算出的概率值為0,該樣本的其他屬性值將失效。為了避免其他屬性攜帶的資訊被訓練集中未出現的屬性值“抹去”,在估計概率值需要“平滑”,

優點: 高效、易於訓練。對小規模的資料表現很好,適合多分類任務,適合增量式訓練。

缺點: 分類的效能不一定很高,對輸入資料的表達形式很敏感。(離散、連續,值極大之類的)

Note:為什麼屬性獨立性假設在實際情況中很難成立,但樸素貝葉斯仍能取得較好的效果?

1)對於分類任務來說,只要各類別的條件概率排序正確、無需精準概率值即可導致正確分類;

2)如果屬性間依賴對所有類別影響相同,或依賴關係的影響能相互抵消,則屬性條件獨立性假設在降低計算開銷的同時不會對效能產生負面影響。

/*---------------------------半樸素貝葉斯-----------------------------------*/

提出:現實任務中,條件獨立性假設很難成立,於是,人們對屬性獨立性假設進行一定程度的放鬆。

想法:適當考慮一部分屬性間的相互依賴資訊,從而既不需進行聯合概率計算,又不至於徹底忽略了比較強的屬性依賴關係。

 

/*-----------------------------貝葉斯網------------------------------------*/


/*-------------------------------面試篇---------------------------------*/

1、貝葉斯分類器與貝葉斯學習不同:

前者:通過最大後驗概率進行單點估計;後者:進行分佈估計。

2、後驗概率最大化準則意義?

樸素貝葉斯法將例項分到後驗概率最大化的類中。這等價與期望風險最小化。假設選取的是0-1損失函式,


這是期望風險函式為

其中, 稱為在 時的y的條件期望。

為了使期望風險最小,只需要對每一個

逐個極小化。

根據期望風險最小化準則就得到了後驗概率最大化準則



3、樸素貝葉斯需要注意的地方?

1)給出的特徵向量長度可能不同,這是需要歸一化為通長度的向量(這裡以文字分類為例),比如說是句子單詞的話,則長度為整個詞彙量的長度,對應位置是該單詞出現的次數。

2)計算要點:

4、經典提問:Navie Bayes和Logistic迴歸區別是什麼?

前者是生成式模型,後者是判別式模型,二者的區別就是生成式模型與判別式模型的區別。

1)首先,Navie Bayes通過已知樣本求得先驗概率P(Y), 及條件概率P(X|Y), 對於給定的例項,計算聯合概率,進而求出後驗概率。也就是說,它嘗試去找到底這個資料是怎麼生成的(產生的),然後再進行分類。哪個類別最有可能產生這個訊號,就屬於那個類別。

優點:樣本容量增加時,收斂更快;隱變數存在時也可適用。

缺點:時間長;需要樣本多;浪費計算資源

2)相比之下,Logistic迴歸不關心樣本中類別的比例及類別下出現特徵的概率,它直接給出預測模型的式子。設每個特徵都有一個權重,訓練樣本資料更新權重w,得出最終表示式。梯度法。

優點:直接預測往往準確率更高;簡化問題;可以反應資料的分佈情況,類別的差異特徵;適用於較多類別的識別。

缺點:收斂慢;不適用於有隱變數的情況。