1. 程式人生 > >數學與程式設計——概率論與數理統計

數學與程式設計——概率論與數理統計

  • D(x)=E{[xE(x)]2}:相對於平均數差距的平方的期望;
  • 數理統計一詞的理解:mathematical stats,也即用數學的觀點審視統計,為什麼沒有數理概率,因為概率本身即為數學,而對於統計,random variable 的性質並不全然瞭解,所以數理統計在一些書裡又被稱作:stats in inference(統計推論,已知 ⇒ 未知)
    • 概率與統計的中心問題,都是random variable,

PMF與PDF

PMF:probability mass function,概率質量函式,是離散型隨機變數在各特定取值上的概率。與概率密度函式(PDF:probability density function)的不同之處在於:概率質量函式是對離散型隨機變數定義的,本身代表該值的概率

;概率密度函式是針對連續型隨機變數定義的,本身不是概率(連續型隨機變數單點測度為0),只有在對連續隨機變數的pdf在某一給定的區間內進行積分才是概率。

notation

假設X是一個定義在可數樣本空間S上的離散型隨機變數SR,則其概率質量函式PMF為:

fX(x)={Pr(X=x),0,xSxRS

注意這在所有實數上,包括那些X不可能等於的實數值上,都定義了pmf,只不過在這些X不可能取的實數值上,fX(x)取值為0(xRS,Pr(X=x)=0)。

離散型隨機變數概率質量函式(pmf)的不連續性決定了其累積分佈函式(cdf)也不連續。

共軛先驗(conjugate prior)

所謂共軛(conjugate),描述刻畫的是兩者之間的關係,單獨的事物不構成共軛,舉個通俗的例子,兄弟這一概念,只能是兩者才能構成兄弟。所以,我們講這兩個人是兄弟關係,A是B的兄弟這兩個分佈成共軛分佈關係,A是B的共軛分佈

p(θ|X)=p(θ)p(X|θ)p(x)
  • p(X|θ):似然(likelihood)

  • p(θ):先驗(prior)

  • p(X):歸一化常數(normalizing constant)

我們定義:如果先驗分佈(p(θ))和似然函式(p(X|θ))可以使得先驗分佈(p(θ))和後驗分佈(p(θ|X))有相同的形式(如,Beta(a+k, b+n-k)=Beta(a, b)*binom(n, k)),那麼就稱先驗分佈與似然函式是共軛的

(成Beta分佈與二項分佈是共軛的)。

幾個常見的先驗分佈與其共軛分佈

先驗分佈 共軛分佈
伯努利分佈 beta distribution
Multinomial Dirichlet Distribution
Gaussian, Given variance, mean unknown Gaussian Distribution
Gaussian, Given mean, variance unknown Gamma Distribution
Gaussian, both mean and variance unknown Gaussian-Gamma Distribution

最大似然估計(MLE)

首先來看,大名鼎鼎的貝葉斯公式:

p(θ|X)=p(θ)p(X|θ)p(X)

可將θ看成欲估計的分佈的引數,X表示樣本,p(X|θ)則表示似然。

現給定樣本集\mathcal{D}=\{x_1,x_2,\ldots,x_N\}D={x1,x2,,xN},似然函式為:
p(\mathcal{D}|\theta)=\prod_{n=1}^Np(x_n|\theta)

p(D|θ)=n=1Np(xn|θ)
為便於計算,再將其轉換為對數似然函式形式:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)lnp(D|θ)=n=1Nlnp(xn|θ)

我們不妨以伯努利分佈為例,利用最大似然估計的方式計算其分佈的引數(pp),伯努利分佈其概率密度函式(pdf)為:
f_X(x)=p^x(1-p)^{1-x}=\left \{ \begin{array}{ll} p,&\mathrm{x=1},\\ q\equiv1-p ,&\mathrm{x=0},\\ 0,&\mathrm{otherwise} \end{array} \right.

fX(x)=px(1p)1x=p,q1p,0,x=1,x=0,otherwise

整個樣本集的對數似然函式為:
\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)=\sum_{n=1}^N\ln (\theta^{x_n}(1-\theta)^{1-x_n})=\sum_{n=1}^Nx_n\ln\theta+(1-x_n)\ln(1-\theta)

lnp(D|θ)=n=1Nlnp(xn|θ)=n=1Nln(θ

相關推薦

數學程式設計——概率論數理統計

D(x)=E{[x−E(x)]2}:相對於平均數差距的平方的期望; 數理統計一詞的理解:mathematical stats,也即用數學的觀點審視統計,為什麼沒有數理概率,因為概率本身即為數學,而對於統計,random variable 的性質並不全然瞭解,所

人工智慧必備數學基礎:概率論數理統計(1)

如果需要小編其他數學基礎部落格,請移步小編的GitHub地址   傳送門:請點選我   如果點選有誤:https://github.com/LeBron-Jian/DeepLearningNote    這裡我打算再補充一下關於概率論與數理統計的基礎。   (注意:目前自己補充到的所有知識點,均按照

人工智慧必備數學基礎:概率論數理統計(2)

如果需要小編其他數學基礎部落格,請移步小編的GitHub地址   傳送門:請點選我   如果點選有誤:https://github.com/LeBron-Jian/DeepLearningNote    這裡我打算再補充一下關於常見概率分佈,似然函式,後驗概率估計和一些距離公式的基礎。   (注意:

R語言中的概率論數理統計

前言 1.大部分參考張丹(Conan)的R的極客理想系列文章《概率基礎和R語言》,對此表示感謝。 (http://blog.fens.me/r-probability/) 2.補充、解釋和學習,記錄並便於今後的查詢。 目錄

搞學術離不開的那些數學概率論數理統計

概率論與數理統計 宣告:本部落格僅作為學習、複習所用,該部落格參考的教材為高等教育出版社出版的 浙江大學 第四版《概率論與數理統計》教材,並參考了四川大學 徐小湛老師的講課視屏(再次宣告本部落格僅做參考使用)。 本部落格隨後也將在不斷的學習中,將自己在學術研究中對概率論與數

搞學術離不開的那些數學概率論數理統計)—第一章概率論基本概念

第一章 概率論基本概念 宣告:本部落格圖片來源於四川大學 徐小湛老師講義,僅做學習使用,請勿擅自轉載,如有轉載請聯絡博主,謝謝!! 1 隨機試驗 為了引出隨機試驗的概念,首先,我們需要了解什麼是隨機現象? 隨機現象:就是在個別試驗中其結果呈現不

深度學習數學基礎介紹(二)概率數理統計

特征 數字特征 抽樣分布 第5章 最大 中心 3.4 獨立 知識 第1章 隨機事件與概率§1.1 隨機事件§1.2 隨機事件的概率§1.3 古典概型與幾何概型§1.4 條件概率§1.5 事件的獨立性 第2章 隨機變量的分布與數字特征§2.1 隨機變量及其分布§2.2 隨機變

概率論數理統計】小結2 - 隨機變量概述

-a img 有時 內容 區間 sample padding 個數 平均值 註:對隨機變量及其取值規律的研究是概率論的核心內容。在上一個小結中,總結了隨機變量的概念以及隨機變量與事件的聯系。這個小結會更加深入的討論隨機變量。 隨機變量與事件 隨機變

概率論數理統計

png sta src orm you 頻率 -1 ef6 fab 第一節 頻率   1.非負性  2.Fn(Ω)=1  3.頻率的可加性 概率 第二節    樣本點 樣本空間 事件  樣本點的某個集合 必然事件  Ω 不可能事件 ?     

概率論數理統計復習3

理想 極限 一個 期望值 統計 中位數 數字特征 特征 相關性 (感嘆一下,陳希孺先生這本書真的講的好。) CH3 隨機變量的數字特征 數學期望也常成為“均值”,即“隨機變量取值的平均值”之意,這個平均是指以概率為權的加權平均。 各種分布的數學期望和方差。 如果說條件分布是

概率論數理統計復習4

表達 有時 水平 復習 -1 似然 數學 統計 集合 參數估計 總體是指與所研究的問題有關的對象(個體)的全體構成的集合。總體是一個概率分布。當總體分布為指數分布時,稱為指數分布總體;當總體分布為正態分布時,稱為正態分布總體。兩個總體,即使其所含個體的性質根本不同,只要有同

概率論數理統計】小結6 - 大數定理中心極限定理

tween 每次 研究 1-1 var 1.2 displays 一個 alt 註:這兩個定理可以說是概率論中最重要的兩個定理。也是由於中心極限定理的存在,使得正態分布從其他眾多分布中脫穎而出,成為應用最為廣泛的分布。這兩個定理在概率論的歷史上非常重要,因此對於它們的研究也

概率論數理統計筆記 第一章 概率論的基本概念

討論 公式 mooc set 滿足 log lin let 關閉 概率論與數理統計筆記 第一章 概率論的基本概念 概率論與數理統計筆記(計算機專業) 作者: CATPUB 課程:中國大學MOOC浙江大學概率論與數理統計 部分平臺可能無法顯示公式,若公式顯示不正常可以前往CS

概率論數理統計筆記 第二章 隨機變量及其概率分布

href 時間 無法 lam 中文 per set sub pub 概率論與數理統計筆記 第二章 隨機變量及其概率分布 概率論與數理統計筆記(計算機專業) 作者: CATPUB 新浪微博:@catpub 課程:中國大學MOOC浙江大學概率論與數理統計 部分平臺可能無法顯示公

概率論數理統計】小結7 - 統計基礎概念

mooc 基本概念 其他 信息 相等 們的 哈工大 參數 子集 註:概率論方面就暫時告一段落,終於可以說說統計方面的事情了。如果說概率論中主要是研究隨機變量的方法學和理論模型,那麽統計學就是利用概率論這一強大的工具來研究具有隨機性的現象(結果的不確定性)。而研究這些隨機現象

概率論數理統計】小結9 - 參數估計概述

div 有時 with src for 依賴 sigma edi sim 註:在統計學的應用中,參數估計和假設檢驗是最重要的兩個方面。參數估計是利用樣本的信息,對總體的未知參數做估計。是典型的“以偏概全”。 0. 參數及參數的估計 參數

概率論數理統計——正態分布

函數 分布 bsp media 取值 png 遵從 mod 以及 正態分布的概率密度函數為: 第一參數μ是遵從正態分布的隨機變量的均值,第二個參數σ^2是此隨機變量的方差,所以正態分布記作N(μ,σ^2 )。(方差的平方根就是標準差,標準差的平方就是方差)。 均數μ

概率論數理統計基礎<1>:隨機事件隨機變量

array 我們 存在 表示 樣本 穩定 \n 根據 連續函數 Part1. 隨機事件 1-1.隨機試驗 隨機試驗:可以在相同條件下重復進行,每次試驗的結果不止一個,事先知道所有可能的結果但不確定是哪一個的試驗。 舉例:重復的拋出一枚均勻的硬幣就是一個隨機試驗,事先知道它的

概率論數理統計】小結10-1 - 假設檢驗概述

sqrt htm get 依據 事件 http 例如 style 科學 註:終於寫到最激動人心的部分了。假設檢驗應該是統計學中應用最廣泛的數據分析方法,其中像"P值"、"t檢驗"、"F檢驗"這些如雷貫耳的名詞都來自假設檢驗這一部分。我自己剛開進入生物信息學領域,用的最多的就

概率論數理統計(第二版)嚴繼高版(2)

http 分享圖片 概率 info 概率論 第二版 mage 數理統計 nbsp 概率論與數理統計(第二版)嚴繼高版(2)