scikit-learn機器學習（五）--條件概率，全概率和貝葉斯定理及python實現

阿新 • • 發佈：2019-02-12

在理解貝葉斯之前需要先了解一下條件概率和全概率，這樣才能更好地理解貝葉斯定理

一丶條件概率

條件概率定義：已知事件A發生的條件下，另一個事件B發生的概率成為條件概率，即為P(B|A)
這裡寫圖片描述
如圖A∩B那一部分的發生的概率即為P(AB),

P(AB)=發生A的概率*發生A之後發生B的概率=發生B的概率*發生B之後發生A的概率

即：

P(AB)=P(A)*P(B|A)=P(B)*P(A|B)

所以條件概率公式：

P(B|A)=P(AB)/P(A)=P(B)*P(A|B)/P(A)

二丶全概率公式

全概率公式就是在樣本空間E中，有一個事件A，而樣本空間被劃分為多個子空間B1,B2,B3…….，對於每一個子空間Bi，發生A事件的概率為：

P(A)=P(Bi)*P(A|Bi)   i=1,2,3......n
也就是：發生Bi的概率*Bi中發生A的概率

那麼整個樣本空間E中發生A的概率即為：每一個樣本子空間中發生A的概率的總和：

P(A)=P(B1)*P(A|B1)+P(B2)*P(A|B2)+.............+P(Bn)*P(A|Bn)

以上就是全概率公式，也可以寫作：
這裡寫圖片描述

全概率公式就是求一個事件在整個樣本中發生的概率

三丶貝葉斯定理

貝葉斯定理不同的是，他是已知一個事件在整個樣本中發生的概率之後，然後求另一個時間發生的概率

比如在A時間發生的情況下，它屬於Bi子樣本空間的概率P(Bi|A)，那麼我們就可以根據條件概率公式

來求

發生a事件概率*發生a事件且a時間發生在Bi子樣本的概率=發生Bi的概率*發生Bi之後發生a的概率
即為：**P(Bi|A)*P(A)=P(Bi)*P(A|Bi)**

然後根據全概率公式：
這裡寫圖片描述
所以:

P(Bi/A)=P(Bi)*P(A|Bi)/P(A)

把P(A)帶入上面的式子，可得貝葉斯公式：
這裡寫圖片描述

下面我們舉個例子：
在這一系列資料中計算出在第三個子資料集中發生1事件的概率：

python實現：

#建立一個虛擬的資料
def c_data():
    dataset=[
        [1,2,3,5,1],#資料中包含四個子資料
        [1,2,1,1 
,8,8],
        [1,7,2,3,5],
        [4,8,9,1,1,8,9,3]
    ]
    return dataset

#計算某一事件A發生的全概率
def compute_prob(dataset,event):
    #發生的概率
    prob_event=0.0
    for sub_dataset in dataset:
        prob_sub=1/len(dataset)#該子集發生的概率
        num=len(sub_dataset)#子集的資料個數
        data_dict = {}#建立一個字典
        for data in sub_dataset:
            prob=0.0
            if data in data_dict:
                data_dict[data]+=1
            else:
                data_dict[data]=1
        if event in data_dict:
            prob+=data_dict[event]/num#事件在該子集中的出現概率
            data_dict.clear()#清空字典用於下一個子集
        else:
            print("沒有該事件")
        prob_event+=prob*prob_sub #子集發生概率*自己中事件發生概率

    return prob_event#返回事件的全概率

#計算事件A發生條件下第幾個子空間sub_dataset發生的概率
def comnpute_prob_sub_dataset(dataset,sub_dataset_id,event):
    prob_sub_dataset=1/len(dataset)#發生在該子空間的概率
    print("發生在該子空間中的概率：%f"%prob_sub_dataset)
    event_num=dataset[sub_dataset_id].count(event)#該事件在子空間中出現的次數
    prob_sub_dataset_event=event_num/len(dataset[sub_dataset_id])#事件在子空間中發生的概率
    print("在改子空間中發生事件的概率：%f"%prob_sub_dataset_event)
    prob_event=compute_prob(dataset,event=event)
    print("整個樣本發生事件的概率：%f"%prob_event)
    prob_sub_dataset=(prob_sub_dataset*prob_sub_dataset_event)/prob_event#事件發生在某一子集中的概率
    print("概率為：%f"%prob_sub_dataset)
    return prob_sub_dataset

dataset=c_data()
comnpute_prob_sub_dataset(dataset,sub_dataset_id=2,event=1)#1出現在第三個子集中的概率

結果：
這裡寫圖片描述

這只是一個簡單的例子，可以筆算試一下看看是不是這個結果。程式碼還能優化，自己才疏學淺，也是個渣

scikit-learn機器學習（五）--條件概率，全概率和貝葉斯定理及python實現

在理解貝葉斯之前需要先了解一下條件概率和全概率，這樣才能更好地理解貝葉斯定理一丶條件概率條件概率定義：已知事件A發生的條件下，另一個事件B發生的概率成為條件概率，即為P(B|A) 如圖A∩B那一部分的發生的概率即為P(AB), P(AB)=發

scikit-learn機器學習（二）--嶺迴歸，Lasso迴歸和ElasticNet迴歸

多元線性迴歸模型中，為了是均方差誤差最小化，常見的做法是引入正則化，正則化就是給對模型的引數或者說是係數新增一些先驗假設，控制模型的空間，使模型的複雜度較小。正則化目的：防止過擬合正則化本質：約束要優化的引數正則化會保留樣本的所有特徵向量，但是會

機器學習（五） Logistic Regression 分類器

前言上一篇文章我們談了談基於概率論的分類，這篇我們繼續談論分類問題，這篇講述的是一種最優化問題，即通過簡單計算並不能得出來最終結果，需要一步步來優化求最優值，這種分類方法應用廣泛，也是我們必須要熟練掌握的分類

Python教程：進擊機器學習（五）--Scipy

Python教程：進擊機器學習（五）--Scipy 2017年08月05日 21:22:32 Whytin-Vicky 閱讀數：39876 Scipy簡介檔案輸入和輸出scipyio 線性代數操作scipylinalg 快速傅立

演算法工程師修仙之路：吳恩達機器學習（五）

吳恩達機器學習筆記及作業程式碼實現中文版第四章 Logistic迴歸簡化代價函式與梯度下降邏輯迴歸的代價函式： C

機器學習與深度學習系列連載：第一部分機器學習（五）生成概率模型（Generative Model）

生成概率模型（Generative Model） 1.概率分佈我們還是從分類問題說起：當我們把問題問題看做是一個迴歸問題，分類是class 1 的時候結果是1 分類為class 2的時候結果是-1；測試的時候，結果接近1的是class1

吳恩達機器學習（五）正則化（解決過擬合問題）

目錄 0. 前言學習完吳恩達老師機器學習課程的正則化，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。 0. 前言在分類或者回歸時，通常存在兩個問題，“過擬合”（overfitting）和“欠擬合”（underfitting）. 過擬

機器學習（五）降維技術---主成分分析、因子分析

機器學習（五）降維技術---主成分分析、因子分析降維（處理線性問題為主）一提到降維這個詞，大家可能就會覺得非常高大上，到底是什麼東西呢？降維通俗來講就是把原先多個指標的計算降維為少量幾個經過優化指標的計算，可能大家還是不理解，舉個例子就是本來拿來參加建模的特徵有100個

機器學習（五）——GBDT演算法

1.GBDT概述 GBDT也是整合學習Boosting家族的成員，GBDT也是迭代，使用了前向分佈演算法，但是弱學習器限定了只能使用CART迴歸樹模型。在GBDT的迭代中，假設我們前一輪迭代得到的強學習器是 f t-1(x)，損失函式是L（y，ft-1(x)），我們本輪迭代的目標是找到一個CAR

Python與機器學習（五）樸素貝葉斯分類

1.安裝中文分詞器由於本文是對中文文字進行分類，故需要用到中文分詞器，而結巴分詞則是Python支援較好的一款分詞器。使用命令安裝： pip3 install jieba3k 或者下載結巴分詞檔案【下載】結巴分詞測試：結巴分詞支援三種分詞模式：精確模式，也是結巴

機器學習（五）--- FTRL一路走來，從LR -> SGD -> TG -> FOBOS -> RDA -> FTRL

本文會嘗試總結FTRL的發展由來，總結從LR -> SGD -> TG -> FOBOS -> RDA -> FTRL 的發展歷程。本文的主要目錄如下：一、反思魏則西事件。二、 LR模型三、 SG

機器學習（五）PCA資料降維

PCA資料降維作者：hjimce 一、PCA相關理論 PCA演算法又稱主成分分析，是一種分析、簡化資料集的技術。主成分分析經常用於減少資料集的維數，同時保持資料集中的對方差貢獻最大的特徵。PCA的

機器學習（五）--------正則化(Regularization)

技術分享應用 regular 邏輯 ima 好的 parameter 大小機器學習過擬合(over-fitting) 欠擬合正好過擬合怎麽解決 1.丟棄一些不能幫助我們正確預測的特征。可以是手工選擇保留哪些特征，或者使用一些模型選擇的算法來幫忙（例如 PC

前置機器學習（五）：30分鐘掌握常用Matplotlib用法

> Matplotlib 是建立在NumPy基礎之上的Python繪相簿，是在機器學習中用於資料視覺化的工具。我們在前面的文章講過[NumPy的用法](http://blog.caiyongji.com/2020/12/06/pre-ml-numpy-3.html)，這裡我們就不展開討論NumPy

機器學習筆記（一）：極大似然估計與貝葉斯估計的區別

似然函式：樣本資料的分佈和在引數為下的概率分佈的相似程度極大似然估計：只要求出符合樣本資料分佈的最優引數即可，不需要考慮先驗。貝葉斯估計 MAP（最大後驗估計）

WebGPU學習（五）: 現代圖形API技術要點和WebGPU支援情況調研

大家好，本文整理了現代圖形API的技術要點，重點研究了並行和GPU Driven Render Pipeline相關的知識點，調查了WebGPU的相關支援情況。另外，本文對實時光線追蹤也進行了簡要的分析。這是我非常感興趣的技術方向，也是圖形學的發展方向之一。本系列後續文章會圍繞這個方向進行更多的研究和實現相

聯合概率與聯合分佈、條件概率與條件分佈、邊緣概率與邊緣分佈、貝葉斯定理、生成模型（Generative Model）和判別模型（Discriminative Model）的區別

在看生成模型和判別模型之前，我們必須先了解聯合概率與聯合分佈、條件概率與條件分佈、邊緣概率與邊緣分佈、貝葉斯定理的概念。聯合概率與聯合概率分佈：假設有隨機變數X與Y, 此時，P(X=a,Y=b)用於表示X=a且Y=b的概率。這類包含多個條件且所有條件同時成立的概率稱為聯合概率。聯合概

框架學習（1）——service層，dao層和service實現類進行資料庫操作

最近也是比較忙，也只能忙裡偷閒地抓緊時間接著學習一下技術，自從上次學習了maven之後，越來越對框架產生了興趣，下了好多的spring視屏，聽著老師的建議，最近也萌生了看別人的程式碼進行學習的想法，然後就上了知乎搜了搜優秀的java框架，發現了一個比較感興趣的，

概率論與數理統計（一）：教你一步步推貝葉斯公式

參考資料：《概率論與數理統計》陳希孺 2000.3/2016.8 1，概率是什麼？概率是表示某種情況出現的可能性大小的一種數量指標，它介於0和1之間。概

聯合概率及其分佈、邊緣概率及其分佈、條件概率及其分佈和貝葉斯定理

文章目錄聯合概率及其分佈、邊緣概率及其分佈、條件概率及其分佈聯合概率與聯合概率分佈邊緣概率與邊緣概率分佈條件概率與條件概率分佈聯合概率、邊緣概率、條件概率之間的關係離散型分佈的情況連

scikit-learn機器學習（五）--條件概率，全概率和貝葉斯定理及python實現

一丶條件概率

二丶全概率公式

三丶貝葉斯定理

相關推薦