1. 程式人生 > ># 機器學習算法總結-第二天

# 機器學習算法總結-第二天

簡單 算法思路 感知機 之間 正態分布 gen 估計 概率分布 常見

樸素貝葉斯

技術分享圖片
全概率公式:
技術分享圖片
例子參考這裏:https://www.cnblogs.com/panlangen/p/7801054.html

優缺點

優點:
(1) 算法邏輯簡單,易於實現(算法思路很簡單,只要使用貝葉斯公式轉化即可!)
(2)分類過程中時空開銷小(假設特征相互獨立,只會涉及到二維存儲)
缺點:
樸素貝葉斯假設屬性之間相互獨立,這種假設在實際過程中往往是不成立的。在屬性之間相關性越大,分類誤差也就越大。

類型

  1. 高斯分布型:先驗為高斯分布(正態分布)的樸素貝葉斯,假設每個標簽的數據都服從簡單的正態分布
  2. 多項式型:用於離散值模型裏。先驗為多項式分布的樸素貝葉斯(非常適合用於描述出現次數,常用於文本分類)
  3. 伯努利型:最後得到的特征只有0(沒出現)和1(出現過)。

    總結

    技術分享圖片

    詞集模型:Set Of Words,單詞構成的集合,集合自然每個元素都只有一個,也即詞集中的每個單詞都只有一個.
    詞袋模型:Bag Of Words,如果一個單詞在文檔中出現不止一次,並統計其出現的次數(頻數)

    面試常問的

    1、 樸素貝葉斯與LR的區別?

    樸素貝葉斯是生成模型,根據已有樣本進行貝葉斯估計學習出先驗概率P(Y)和條件概率P(X|Y),進而求出聯合分布概率P(XY),最後利用貝葉斯定理求解P(Y|X), 而LR是判別模型,根據極大化對數似然函數直接求出條件概率P(Y|X);樸素貝葉斯是基於很強的條件獨立假設(在已知分類Y的條件下,各個特征變量取值是相互獨立的),而LR則對此沒有要求;樸素貝葉斯適用於數據集少的情景,而LR適用於大規模數據集。

2、 在估計條件概率P(X|Y)時出現概率為0的情況怎麽辦?

引入λ,當λ=1時稱為拉普拉斯平滑。

3、太多小的數相乘,最後會四舍五入得到0.出現下溢出怎麽辦?

乘積取自然對數

生成模式和判別模式的區別:
生成模式:由數據學得聯合概率分布,求出條件概率分布P(Y|X)的預測模型;
常見的生成模型有:樸素貝葉斯、隱馬爾可夫模型、高斯混合模型、文檔主題生成模型(LDA)、限制玻爾茲曼機
判別模式:由數據學得決策函數或條件概率分布作為預測模型
常見的判別模型有:K近鄰、SVM、決策樹、感知機、線性判別分析(LDA)、線性回歸、傳統的神經網絡、邏輯斯蒂回歸、boosting、條件隨機場

邏輯回歸

pdf下載在這裏:http://www.peixun.net/view/1278.html
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
視頻參考鏈接:https://www.bilibili.com/video/av36837923/?spm_id_from=333.788.videocard.2

# 機器學習算法總結-第二天