1. 程式人生 > >Bayesian 6 days 學習筆記---day1

Bayesian 6 days 學習筆記---day1

貝葉斯框架

條件和邊緣分佈 

條件分佈 = 聯合/邊緣         

產品規則:任何聯合分佈都可以表示為一維條件分佈的乘積

求和規則:通過整合不必要的變數,可以從聯合分佈中獲得任何邊際分佈

Arbitrary conditioning 任意調節

  • 假設我們有三組變數p(X,Y,Z)的聯合分佈
  • 我們觀察Z並且對預測X感興趣
  • Y的值是未知的,與我們無關
  • 如何從p(X,Y,Z)估計p(X|Z)? 

 

求和規則允許至少在理論上構建任意條件分佈

貝葉斯定理

條件反轉(遵循產品規則): 

貝葉斯定理(遵循條件反演和求和規則)

貝葉斯定理定義了新資訊到來時不確定性轉換的規則

posterior 後驗

Statistical inference統計推斷

考慮統計推斷的標準問題。 鑑於i.i.d. 資料X =(x1,... Xn)來自分佈p(x |θ),需要估計θ 

最大似然估計(MLE):

貝葉斯推理:用分佈p(θ)編碼關於θ的不確定性並應用貝葉斯推理

Bayesian framework

  • 根據分佈編碼無知
  • 使用貝葉斯定理

  • 後驗可以作為新的先驗,即可以組合多種型號!
  • BigData:我們可以在更新和忘記的基礎上處理資料流
  • 支援分散式處理

貝葉斯推斷

  • 考慮盲人wisdomers誰試圖估計使用他們的觸覺測量大象的重量。 
  • 他們從關於動物典型質量p(θ)的常識開始
  • 第一wisdomer觸控尾

  • 第二wisdomer觸控腿,並使用P(θ| X1)作為他的先驗

  • 最後它們形成了尖銳的分佈P(θ| x1,... xm)

Training Bayesian models

  • 假設我們得到訓練資料(Xtr,Ttr)和判別模型p(T,W | X)
  • 在訓練階段,我們對W執行貝葉斯推理:

 

  • 從而獲得演算法集合而不是單個演算法
  • 在測試階段,新資料x到達,我們需要計算其隱藏值t的預測分佈
  • 為此,我們執行w.r.t. 在重量W後面

  • 整合確實有助於並優於模型中的單個最佳演算法
  • 後驗p(W | Xtr,Ttr)包含有關模型可以提取的X和T之間的依賴關係的所有資訊
  • 如果新的標記資料(X'tr, T'tr)到達,我們可以跳過舊的訓練資料並僅使用p(W | Xtr,Ttr)作為新的先驗資料在新資料上更新我們的演算法

共軛分佈

  • 分佈p(y)和y)是共軛的iff p(ylx)屬於與p(y)相同的引數族,即

  • 在這種情況下,貝葉斯推斷可以以封閉的形式完成
  • 我們不需要估計歸一化常數,因為A中的任何分佈都是歸一化的
  • 我們所要做的就是計算α'

示例:Beta-Bernoulli模型

 

  • 簡化的概率建模
  • 具有δ函式δ的近似後驗p(W | Xtr,Ttr)(W - Wmp)
  • 對應於W的點估計:

 

推理更簡單

貝葉斯框架的優點

  • 正則
  • 潛變數建模(講座2)
  • 可延伸性
  • 可擴充套件性(講座5) 

正則

  • 通過在權重θ上建立先驗,我們可以規範最大似然估計 

  • 防止過度擬合
  • 我們可以通過執行貝葉斯模型選擇自動設定最佳先驗

潛變數建模

  • 我們可以構建具有在訓練階段未知的潛在變數的模型
  • 允許處理丟失的資料
  • 允許構建和訓練更復雜的混合模型 

 

可擴充套件性

  • 貝葉斯方法傳統上被認為是計算上昂貴的
    最近情況發生了巨大變化
    用於可擴充套件變分近似和MCMC演算法的新數學工具(講座3,4,14,15)
    現在適用於大型資料集和高維度

 

結論

  • 貝葉斯框架是構建概率模型的另一種方法
  • 與傳統模型相比,貝葉斯ML具有多個優勢
  • 它不會與頻率框架相矛盾或否定 - 這只是資料科學家的另一個工具