機器學習學習筆記第十五章貝葉斯演算法

阿新 • • 發佈：2018-12-13

貝葉斯演算法

貝葉斯要解決的問題
1. 正向概率
2. 逆向概率
  - 舉例：一個班級中，男生 60%，女生 40%，男生總是穿長褲，女生則一半穿長褲一半穿裙子
  - 正向概率：隨機選取一個學生，他（她）穿長褲的概率和穿裙子的概率是多
  - 逆向概率：迎面走來一個穿長褲的學生，你只看得見他（她）穿的是否長褲，而無法確定他（她）的性別，你能夠推斷出他（她）是女生的概率是多大嗎？
  - 假設班級中總人數 U $穿長褲的男生：U\times P(Boy) \times P(Pants|Boy)$
  - $P(Boy)=60%$
  - $P(Pants|Boy)$ 是條件概率，即在 Boy 這個條件下，穿長褲的概率，這裡為 $100\%$ $穿長褲的女生：U\times P(Girl)\times P(Pants|Gilr)$
貝葉斯公式
$\color{red}{P(A|B)=\frac{P(B|A)P(A)}{P(B)}}$
- 舉個例子
  - 使用者實際輸入的單詞 D，即觀測資料
    - 猜測 1： $P(h1|D)$ , 猜測 2： $P(h2|D)$ , 猜測 3： $P(h1|D)$ ,…
    - 利用貝葉斯公式可以得出結論： $P(h|D)=\frac{P(h)P(D|h)}{P(D)}$
    - 在應用中，我們認為 $P(D)$ 是一樣的，所以可以直接約掉
    - 因此得到以下公式： $P(h|D)\propto P(h)P(D|h)$
    - 一般來說 $P(h)$ 可以通過分析大量的文字獲得，而 $P(D|h)$ 則可以分析正確與錯誤的單詞之間的距離來獲得
      - $P(h)$ 是特定猜測的先驗概率
      - 比如使用者輸入tlp ，那到底是top還是 tip？這個時候，當最大似然不能作出決定性的判斷時，先驗概率就可以插手進來給出指示—— “既然你無法決定，那麼我告訴你，一般來說top出現的概率要高許多，所以更可能他想打的是 top ”
- 模型比較理論
  - 最大似然：最符合觀測資料的（即 $P(D|h)$ ）最有優勢
  - 奧卡姆剃刀：認為 $P(h)$ 較大的模型有較大優勢
    - 擲一個硬幣，觀察到的是“正”，根據最大似然估計的精神，我們應該猜測這枚硬幣擲出“正”的概率是 1，因為這個才是能最大化 $P(D|h)$ 的那個猜測
    剃刀原則不是一個理論而是一個原理，它的目的是為了精簡抽象實體。它不能被證明也不能被證偽，因為它是一個規範性的思考原則。大部分情況下，應用奧卡姆剃刀原理是合適的；但是這不代表奧卡姆剃刀就是正確的。（知乎）總結一下，剃刀原則並不是一種定理（在數學上有推導，數學之美——劉未鵬），而是一種思維方式，可用於指導我們的工作，比如我們可以用A和B達到同樣的效果，但B更簡單，於是我們選擇B。同時，也有人說可能因為能力不足，於是我們選擇更簡單的方式來處理問題，這也是剃刀的原則的一種應用吧。舉個貼切的例子，做決策樹分析的時候，採用9個屬性的預測效能和5個屬性的預測效能是相似的，那麼我們就會選擇5個屬性來預測。在實際中，越常見的東西越好。
- 垃圾郵件過濾例項：
  - 問題：給定一封郵件，判定它是否屬於垃圾郵件 D 來表示這封郵件，注意 D 由 N 個單片語成。我們用 h+ 來表示垃圾郵件，h- 表示正常郵件
    1. 根據貝葉斯公式： $P(h+|D)=\frac{P(h+)P(D|h+)}{P(D)}$ $P(h-|D)=\frac{P(h-)P(D|h-)}{P(D)}$
    2. 先驗概率 $P(h+)$ 和 $P(h-)$ 很容易求出來，只需要計算一個郵件庫裡面垃圾郵件和正常郵件的比例就行了。
    3. $D$ 裡面含有N個單詞 $d1, d2, d3，P(D|h+) = P(d1,d2,..,dn|h+) P(d1,d2,..,dn|h+)$ 就是說在垃圾郵件當中出現跟我們目前這封郵件一模一樣的一封郵件的概率是多大！
      - 實際上這個不好求，或者說求出來概率太低了
      - 利用條件概率的相乘方法： $P(d1,d2,..,dn|h+)擴充套件為：P(d1|h+)\times P(d2|d1, h+)\times P(d3|d2,d1, h+)\times ...$
      - $P(d1|h+)\times P(d2|d1, h+)\times P(d3|d2,d1, h+)\times ...$ 這裡我們可以認為 $d_i,d_(i-1)...$ 是條件無關的，因此上式可以簡化為 $P(d1|h+)\times P(d2|h+)\times P(d3|h+) \times ...$
    4. 對於 $P(d1|h+)\times P(d2|h+)\times P(d3|h+) \times ...$ ，我們只需要統計 $d_i$ 這個詞在垃圾郵件中出現的概率即可

下面我們嘗試利用貝葉斯的先驗概率來進行拼寫檢查器

import re, collections

def words(text):#此處將傳進來的文章進行單詞的提取，將無用的標點符號等都去掉，並把英文字母都變為小寫
    return re.findall('[a-z]+', text.lower())

def train(features):#將文字傳進來並進行詞頻統計
    model = collections.defaultdict(lambda:1)#使用dict時，如果引用的Key不存在，就會丟擲KeyError。如果希望key不存在時，返回一個預設值，就可以用defaultdict
    for f in features:
        model[f] += 1#相應單詞的value加一
    return model

NWORDS = train(words(open('big.txt').read()))

此時已經將文字傳進來並且解析成字典統計好結果了

接下來就開始計算編輯距離

也就是輸入一個單詞，則與它相差一個或兩個單詞的詞有啥，比如know變成knov，knox等
在這裡我們算出編輯距離為1和為2的所有可能性

alphabet = 'abcdefghijklmnopqrstuvwxyz'#字母表
def edits(word):
    n = len(word)
    return set([word[0:i]+word[i+1:] for i in range(n)]+   #隨機去掉一個字母
              [word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)]+  #相鄰兩個單詞互換了
              [word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet]+#隨機有一個單詞替換掉
              [word[0:i]+c+word[i:] for i in range(n+1) for c in alphabet]) #隨機插入一個字母
#注意，其實以上情況考慮到了首字母與末字母替換或插入的情況，因為word[0:0]=''

def edits2(word):
    return set(e2 for e1 in edits(word) for e2 in edits(e1) if e2 in NWORDS)

這句比較繞，我們試著理解一下

首先是for e1 in edits(word)會返回e1 然後e1會傳入for e2 in edits(e1)中，算出所有的e2，此時其實已經可以返回集合，但是我們發現集合太大了，就拿something來說就有11w個，總量細思極恐
因此我們再加一句if e2 in NWORDS，這樣限制了所有的e2都在原有的詞彙集合裡面，大大縮減可能數量，也非常貼合我們程式的目的

def known(words):
    return set(w for w in words if w in NWORDS)
#這句話是將計算出來的所有詞中存在於原語料庫中的詞返回

def correct(word):
    candidates = known([word]) or known(edits(word)) or known(edits2(word)) or [word] #將所有候選詞挑出來
    #根據python的特性，其實假如第一個條件滿足了，則會停止後面運算
    #其實這裡我們默認了拼錯一個字的可能性比拼錯兩個字的可能性高，為了簡單處理~
    return max(candidates, key=lambda w:NWORDS[w])
#最後一句是一個匿名函式，相當於將候選詞傳入lambda w:NWORDS[w]的w中，並以返回結果作為排序的依據
#lambda w:NWORDS[w]相當於一個函式，以w為引數，返回冒號後的內容，即返回NWORDS
#假設w=‘something’， 則返回NWORDS('something')的值，也即此處為684,因為總共出現了684次

correct('somethina')#進行嘗試，一開始我試了hella，本以為返回hello，結果返回hell了，用NWORDS['hell']查了一下，原來hell出現的概率比hello還高

'something'

NWORDS['something']

對唐宇迪老師的機器學習教程進行筆記整理編輯日期：2018-10-6 小白一枚，請大家多多指教

機器學習學習筆記第十五章貝葉斯演算法

貝葉斯演算法貝葉斯要解決的問題正向概率逆向概率舉例：一個班級中，男生 60%，女生 40%，男生總是穿長褲，女生則一半穿長褲一半穿裙子正向概率：隨機選取一個學生，他（她）穿長褲的概率和穿

學習筆記第十五章 JavaScript基礎

continue 分隔符全部 scrip 允許非循環元素當前避免第15章 JavaScript基礎【學習重點】了解JavaScript基礎知識熟悉常量和變量能夠使用表達式和運算符正確使用語句能夠掌握數據類型和轉換的基本方法正確使用函數、對象、

《機器學習實戰》第十五章 MapReduce

在學習這一章中又遇到了python2 和python3的不同之處導致的錯誤。具體修改如下： print 在python2中是語句，在python3中是函式；print >> 這個用法在

深度學習花書學習筆記第十五章表示學習

本章的表示學習主要就是通過無監督訓練學習特徵的意思。這種沒有具體的演算法，就是介紹表示學習的應用和大概的分支，至於如何進行表示學習，沒有詳細介紹。感覺可以直接跳過。。貪心逐層無監督預訓練貪心演算法在無監督訓練中的應用，每層只關心當前，進行訓練。無監督指低層訓練

C++Primer Plus筆記——第十五章友元、異常和其他總結及程式清單

目錄本章小結程式清單友元類巢狀類異常本章小結友元使得能夠為類開發更靈活的介面。類可以將其他函式、其他類和其他類的成員函式作為友元。在某些情況下，可能需要使用前向宣告，需要特別注意類和方法宣告的順序

C++Primer Plus筆記——第十五章友元、異常和其他課後程式設計練習答案

課後程式設計練習答案習題1 習題2 習題3 習題4 習題1 //tv.h #ifndef TV_H_ #define TV_H_ #include <iostream> u

java程式設計思想讀書筆記第十五章泛型（匿名內部類和擦除）

1.匿名內部類泛型還可以應用於內部類以及匿名內部類。下面的例子使用匿名內部類實現了Generator介面： public class Customer { private static long counter = 1; private f

機器學習讀書筆記（四）樸素貝葉斯基礎篇之網站賬號分類

pan 技巧 nbsp 增強就是使用分類問題預測結果一、條件概率在學習計算p1和p2概率之前，我們需要了解什麽是條件概率，就是指在事件B發生的情況下，事件A發生的概率，用P(A|B)來表示。根據文氏圖，可以很清楚地看到在事件B發生的情況下，事件A發

機器學習數學原理（4）——樸素貝葉斯演算法

機器學習數學原理（4）——樸素貝葉斯模型樸素貝葉斯模型（Naive Bayes Model），是一種基於貝葉斯定理與特徵條件獨立假設的分類方法，與決策樹模型（Decision Tree Model）同為目前使用最廣泛的分類模型之一，在各個領域都有廣泛的應用，例如我們經常會用到的垃圾

機器學習實戰（三）——NaiveBayes樸素貝葉斯演算法郵件分類

樸素貝葉斯分類的原理是條件概率的計算：在已知先驗概率的條件下，計算後驗概率，後驗概率即是在當前資料條件下屬於分類1或者分類2 的概率，取概率較大的一個為輸出。貝葉斯準則很熟悉了，不解釋了，但在這個演算法中引入了一個很重要的思想：將文字等資料物件轉化為向量

吳恩達機器學習（第十五章）---降維PCA

一、目標 1.資料壓縮在機器學習中，會用到大量資料進行學習訓練，當資料量很大，維度高時，對電腦記憶體的壓力會很大，並且學習的速度也會很慢。 2.視覺化我們將一些高維的資料降維到1維，2維，3維的話，就可以進行視覺化，將資料以圖表的方式展示出來。二、主成分分析方法主成分

《機器學習》周志華學習筆記第十四章概率圖模型（課後習題）python實現

一、基本內容 1.隱馬爾可夫模型 1.1. 假定所有關心的變數集合為Y,可觀測變數集合為O,其他變數集合為R, 生成式模型考慮聯合分佈P(Y,R,O),判別式模型考慮條件分佈P(Y,R|O)，給定一組觀測變數值，推斷就是要由P(Y,R,O)或者P(Y,R|O)得到條件概率分佈P(Y,

機器學習學習筆記第十六章基於貝葉斯的新聞分類

利用貝葉斯分類器進行文字分類考慮情況 1 對於文字分析，首先我們應該先利用停用詞語料庫對部分大量出現的停用詞進行遮蔽，可以百度直接搜停用詞進行下載我們對於經常出現的詞，有可能是一個不太重要的詞，比

機器學習學習筆記第十七章支援向量機

支援向量機(Support Vector Machine) 以前非常厲害的一個演算法，不過後來遇到了對手——神經網路這個也是面試的時候經常會問到的非常重要的一個演算法 SVM要解決的問題：什麼樣的決

機器學習學習筆記第十九章聚類演算法-K-MEANS

聚類演算法聚類的概念：主要用來處理無監督問題，因為我們手上沒有標籤了，靠電腦自己進行分類聚類是指把相似的東西分到一組難點如何評估呢（因為沒有了標籤，難以對比正確與否，很多評估方法失效了）

機器學習學習筆記第十八章 SVM調參並觀察

支援向量機（SVM） SVM調參 %matplotlib inline import numpy as np import matplotlib.pyplot as plt from scipy imp

機器學習(周志華) 參考答案第十五章規則學習

機器學習(周志華西瓜書) 參考答案總目錄好忙啊好忙啊好忙啊，這章和我的研究方向關係不大，暫時先偷工減料一下下。 1.對西瓜資料集2.0，允許使用否定形式的文字，試基於自頂向下的策略學出命題規則集。 1，2題共同的問題是，如

學習筆記第十四章使用CSS3動畫

進行 delay 簡單的 angle 新版 chrome tor 3.0 :focus 第14章使用CSS3動畫【學習重點】設計2D動畫設計3D動畫設計過渡動畫設計幀動畫能夠使用CSS3動畫功能設計頁面特效樣式 14.1 設計2D動畫 CSS2D T

CLR via C#學習筆記-第十二章-泛型

vat message 靜態定義泛型接口 void 失敗 internal 運行時泛型是CLR和編程語言提供的一種特殊機制，他支持另一種形式的代碼重用，即算法重用。 CLR允許創建泛型引用類型和泛型值類型，但不允許創建泛型枚舉類型。此外CLR還允許創建泛型接口和泛型

CLR via C#學習筆記-第十二章-泛型基礎結構

12.2 泛型基礎結構 12.2.1 開放型別和封閉型別具有泛型型別引數的型別仍然是型別，CLR同樣會為他建立內部的型別物件。然而具有泛型型別引數的型別稱為開放型別，CLR禁制構造開放型別的任何例項。類似於CLR禁止構造介面型別的例項。程式碼引用泛型類時可指定一組泛型型別實參。為所有型

機器學習學習筆記 第十五章 貝葉斯演算法

貝葉斯演算法

貝葉斯公式

模型比較理論

垃圾郵件過濾例項：

下面我們嘗試利用貝葉斯的先驗概率來進行拼寫檢查器

此時已經將文字傳進來並且解析成字典統計好結果了

接下來就開始計算編輯距離

這句比較繞，我們試著理解一下

相關推薦

機器學習學習筆記第十五章貝葉斯演算法