1. 程式人生 > >概率統計與機器學習:極大後驗概率以及正則化項

概率統計與機器學習:極大後驗概率以及正則化項

先驗概率

  • 概念:本質上就是古典概型,是利用當前狀態對求解狀態的一種概率估計,可以理解為“由 因求果”中“因”出現的概率。
  • 條件:
    • (1)實驗所有的可能結果是有限的;
    • (2) 每一種出現的結果的概率是等可能的
  • 舉例:假設有一個根據身高H和衣服顏色飽和度S兩個引數的模型來估計一個人是男的還是女的性別識別系統
    • 模型:y=w1H+w2S+by>0為男生,y<0為女生。其中b 為偏置項(這裡需要注意,其實這個模型本身就是一個估計,而不是我們定好的,這模型好不好我們這時候是不知道的)
    • 經驗:在觀測到訓練樣本之前,我們可以憑藉經驗得知模型w1,w2,b的一些相關資訊,比如:一般男生都高,性格原因所以大部分的衣服飽和度比較低;而女生個子低,而喜歡美所以衣服顏色飽和度高。那麼我們可以感覺的出,這裡的w
      1
      是正的,而w2是負數,這樣更合理一些就是經驗了。
    • 特殊情況:然而有些時候我們選擇的模型會表現的非常的差勁,比如:這有一批女籃球隊員的資料,或者是女裝大佬的資料,那麼這個模型就會變得非常的差勁至於為什麼就不用我解釋了吧。這樣的模型一點泛化性都沒有,誰敢用哇,畫女硬說男只存在於二次元的!
  • 思考:既然我們選擇了一個模型,用這個模型去預估觀測值來得到的最大似然權值,那麼又有什麼手段來評估我們這個模型選擇的好壞

後驗概率

  • 概念:與“先驗概率”剛好相反,後驗概率是用“結果”來估計“因”,它是以先驗概率為基礎的。哲學的講,“先驗概率”是主觀信念,即憑我的經驗我感覺它如何;而“後驗概率”是客觀事實,即有大量的證據表明事情如此。
  • 貝葉斯公式:p(w|D)=p(D|w)p(w)p(D)
  • p(w|D) , p(w|D),p(w),p(D)
  • 解讀公式:先看右邊的公式,已知觀測序列下而預估模型引數w 的極大似然估計乘以選擇這個模型的概率其實就是選擇這個模型的基礎上去找最有可能觀測到該組資料的那個模型概率除以本身可以觀測到這組觀測值的概率(這裡需要注意這組觀測值的概率是已知的,是常數),而左式表明在我們有了觀測值的基礎上去選擇該模型的概率。
  • 意義:貝葉斯公式反映了它對我們經驗所作出的選擇而進行的一種評估。
  • 推導化簡:(目的是極大化後延估計)
    • 我們前面已經提到了P(D)
      是常數,我們為了求最大是可以省略到此數的
    • P(D|w)項實際可拿極大似然估計L(D|w)來代替
    • w=argmaxwP(w|D)=argmaxwL(D|w)P(w)
    • w=argminwNi=1lnp(xi|w)lnp(w)(極小化就是負對數似然+負對數先驗)
  • 正則化項:我們已知最終的結果 w=argminwNi=1lnp(xi|w)lnp(w) , 與極大似然估計不同,後面多出的這一項先驗概率要如何處理
    • 我們假設w服從正態分佈(期望為0,方差為1),則p(w)exp(w222σ2) , 我們讓λ=12σ2 , 按照上式求得的結果去負對數,則 lnp(w)λw22
    • 意義:這就是正則化項,通過後驗概率對我們的模型進行約束,權重衰減
    • 引申:我們已知它服從的分佈性質,舉例有二維權重(w1,w2),首先它是獨立同分布且期望為0,方差為1的正態分佈,因此可知E(w1w2)=E[(w1E[w1])(w2E[w2])]=0,則可知當前權值是不相關的,而不相關情況下協方差矩陣為對角陣,方差為1則為單位陣,因此可以得知:協方差矩陣為單位陣的時候可以畫個圓形(推廣到三維就是球體,N維就是超平面球)
    • 圖示:
    • 結論:根據高斯分佈的影象可以得知(不是上圖,上圖只是解釋協方差矩陣的),我們的w越靠近0處概率越大,越遠則概率越小

嶺迴歸

  • 定義:是一種變相的最小二乘迴歸,放棄了精度加入了正則項來提高對噪點的處理,雖然擬合情況略低於普通的最小二乘迴歸,但是對於帶有噪音的資料而言有更強的處理能力
  • 公式:minEw=Ni=1(yi

    相關推薦

    概率統計機器學習極大概率以及

    先驗概率 概念:本質上就是古典概型,是利用當前狀態對求解狀態的一種概率估計,可以理解為“由 因求果”中“因”出現的概率。 條件: (1)實驗所有的可能結果是有限的; (2) 每一種出現

    概率統計機器學習獨立同分布,極大似然估計,線性最小二乘迴歸

    獨立同分布 獨立性 概念:事件A,B發生互不影響 公式:P(XY)=P(X)P(Y) , 即事件的概率等於各自事件概率的乘積 舉例: 正例:兩個人同時向上拋硬幣,兩個硬幣均為正面的概率 反例:獅子在某地區出現的概率為X,老虎出現概率為Y,同時出現

    概率統計機器學習常見分布性質總結

    常見 測量 大小 為什麽 就是 由於 csdn article nbsp 參考:https://blog.csdn.net/qq_33638791/article/details/74926573 常見分布:高斯分布 來源:中心極限定理 定義:大量獨立的隨機變量之和趨向於正

    概率統計機器學習期望,方差,數學期望,樣本均值,樣本方差之間的區別

    1.樣本均值:我們有n個樣本,每個樣本的觀測值為Xi,那麼樣本均值指的是 1/n * ∑x(i),求n個觀測值的平均值 2.數學期望:就是樣本均值,是隨機變數,即樣本數其實並不是確定的 PS:從概率

    吳恩達《機器學習》課程總結(7)

    額外 分享 哪些 TP 回歸 分享圖片 表現 例子 兩個 7.1過擬合的問題 訓練集表現良好,測試集表現差。魯棒性差。以下是兩個例子(一個是回歸問題,一個是分類問題) 解決辦法: (1)丟棄一些不能幫助我們正確預測的特征。可以使用工選擇保留哪些特征,或者使用一些模型選擇

    吳恩達機器學習邏輯迴歸python實現(未)[對應ex2-ex2data2.txt資料集]

    寫在前面: ​ 1.筆記重點是python程式碼實現,不敘述如何推導。參考本篇筆記前,要有邏輯迴歸的基礎(熟悉代價函式、梯度下降、矩陣運算和python等知識),沒有基礎的同學可通過網易雲課堂上吳恩達老師的機器學習課程學習。網上也有一些對吳恩達老師課後作業的python實現,大多數都是用

    python機器學習庫sklearn——Lasso迴歸(L1

    Lasso The Lasso 是估計稀疏係數的線性模型。 它在一些情況下是有用的,因為它傾向於使用具有較少引數值的情況,有效地減少給定解決方案所依賴變數的數量。 因此,Lasso 及其變體是壓縮感知領域的基礎。 在一定條件下,它可以恢復一組非零權重的

    Stanford機器學習---第三週.邏輯迴歸、

    第三週 邏輯迴歸與正則化 學完前三週簡要做個總結,梳理下知識框架: 第一講 邏輯迴歸Logistic Regression 1.分類問題Classification Problem for e

    機器學習演算法實現02-非線性邏輯迴歸

       對於非線性邏輯迴歸問題,你選擇的函式可能是多項式函式,指數函式,或冪函式等等。本篇博文主要闡述非線性邏輯迴歸問題的處理過程,並使用正則化技術。詳細理論請參閱我的機器學習理論系列博文。    如圖所示,對上圖進行邏輯迴歸處理,很明顯選擇多項式函式是個不錯的主意,當然對於

    神經網路深度學習 筆記5 過度擬合和

    1.過擬合 模型複雜而訓練樣本不足,過度訓練,會導致過度擬合。 訓練資料集上的代價表現是越來越好的,測試集上的代價越來越差。訓練資料上的分類準確率一直在提升接近 100%,而測試準確率僅僅能夠達到 82.27%。 網路幾乎是在單純記憶訓練集合,而沒有對數字本質進行理解能

    機器學習極大似然估計

    一、問題描述 二、演算法核心思想分析 三、程式碼及執行結果 a.py import xlrd import numpy as np # 讀取資料 def read_d

    貝葉斯學習--極大概率假設和極大似然假設

    在機器學習中,通常我們感興趣的是在給定訓練資料D時,確定假設空間H中的最佳假設。 所謂最佳假設,一種辦法是把它定義為在給定資料D以及H中不同假設的先驗概率的有關知識條件下的最可能(most probable)假設。 貝葉斯理論提供了計算這種可能性的一種直接的方法。更精確地講

    機器學習筆記

    在機器學習演算法中如果只使用經驗風險最小化去優化損失函式則很可能造成過擬合的問題,通常我們要在損失函式中加入一些描述模型複雜程度的正則化項,使得模型在擁有較好的預測能力的同時不會因為模型過於複雜而產生過擬合現象,即結構風險最小化 正則化項一般是模型複雜程度的單調

    [白話解析] 深入淺出 極大似然估計 & 極大概率估計

    [白話解析] 深入淺出極大似然估計 & 極大後驗概率估計 0x00 摘要 本文在少用數學公式的情況下,儘量僅依靠感性直覺的思考來講解 極大似然估計 & 極大後驗概率估計,並且從名著中找了幾個例項給大家看看這兩種估計如何應用 & 其非常有趣的特點。 0x01 背景知識 1. 概率 vs

    機器學習】--線性回歸中L1和L2

    last clas nbsp post pan red font 推廣 http 一、前述 L1正則,L2正則的出現原因是為了推廣模型的泛化能力。相當於一個懲罰系數。 二、原理 L1正則:Lasso Regression L2正則:Ridge Regression

    [work*] 機器學習L1和L2的直觀理解

    正則化(Regularization) 機器學習中幾乎都可以看到損失函式後面會新增一個額外項,常用的額外項一般有兩種,一般英文稱作-norm和-norm,中文稱作L1正則化和L2正則化,或者L1範數和L2範數。 L1正則化和L2正則化可以看做是損失函式的懲罰項。所謂『懲罰

    機器學習L1和L2的直觀理解

    正則化(Regularization) 機器學習中幾乎都可以看到損失函式後面會新增一個額外項,常用的額外項一般有兩種,一般英文稱作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文稱作L1正則化和L2正則化,或者L1範數和L2範數。 L1正則化和L2正則化可以看做

    L2為什麼能防止過擬合學習筆記

    https://www.cnblogs.com/alexanderkun/p/6922428.html L2 regularization(權重衰減) L2正則化就是在代價函式後面再加上一個正則化項: C0代表原始的代價函式,後面那一項就是L2正則化項,它是這樣來的:所有引數w的平

    TensorFlow北大公開課學習筆記4.4-神經網路優化----損失函式)

     今天學習了正則化,主要內容是:通過程式碼比較正則化與不正則化的區別。 什麼叫過擬合?           神經網路模型在訓練資料集上的準確率較高,在新的資料進行預測或分類時準確率較低, 說明模型的泛化能力差 什麼叫正則化:?           在損失函式中給每個引數

    機器學習概念最大概率估計最大似然估計 (Maximum posterior probability and maximum likelihood estimation)

    joey 周琦 假設有引數 θ \theta, 觀測 x \mathbf{x}, 設 f(x|θ) f(x|\theta)是變數 x x的取樣分佈, θ \th