1. 程式人生 > >概率分佈和概率分佈函式

概率分佈和概率分佈函式

今天在面試小米演算法工程師的時候,遇到這麼一個面試問題,給定一個x取值範圍屬於[a,b],

它的概率密度函式為f(x),求如何生成一系列隨機數,滿足這個概率分佈。

這個問題首先要明白概率密度函式表達的是什麼意思

先說均勻分佈:

    均勻分佈的概率密度函式:f(x)=1/(b-a)

    直接:np.random.random()*(b-a) + a

              或者Math.random()*(b-a) + a 

這個分散式個性化的所以。直接上圖。


所以如果圖中的條形框分佈的足夠的細膩,其實就變成了對應的取值了,取f(x)然後找對應的f(x)所對應的x,

即可以取樣得到滿足概率分佈的資料

離散型概率分佈:把離散的值所有的值列出來,然後分別計算取值的概率。

離散型的概率分佈函式:看定義,F(x)=P(X<x),F(x)會取X<=x的概率的取值累加和,所以也叫做累加概率。

連續型函式的概率分佈,換了一個名字叫概率密度函式。說白了,概率密度函式f(x),其實就是 x取某一點的概率,

                                所以作為概率密度函式應該有下面三個性質

                                ①  ;                                ②  ;                                ③ 

連續型概率分佈函式,F(X)其實就是從負無窮到x的積分值

                                    

下面給出其他網友的關於概率分佈(概率密度函式),概率分佈函式

大學的時候,我的《概率論和數理統計》這門課一共掛過3次,而且我記得最後一次考過的時候剛剛及格,只有60分。你可以想象我的《概率論》這門課學的是有多差了。後來,我工作以後,在學習資料分析技能時,又重新把《概率論》這本書學了一遍。原來之前一直沒學好這門課的很重要一個原因就是,這門課涉及很多基礎的概念,而我當初就是對這些概念非常不理解。

今天我就講講應該如何理解概率分佈函式和概率密度函式的問題。是不是乍一看特別像,容易迷糊。如果你感到迷糊,恭喜你找到我當年的感覺了。

先從離散型隨機變數和連續性隨機變數說起

對於如何分辨離散型隨機變數和連續性隨機變數,我這裡先給大家舉幾個例子:

1、一批電子元件的次品數目。

2、同樣是一批電子元件,他們的壽命情況。

在第一個例子中,電子元件的次數是一個在現實中可以區分的值,我們用肉眼就能看出,這一堆元件裡,次品的個數。但是在第二個例子中,這個壽命它是一個你無法用肉眼數的過來的數字,它需要你用筆記下來,變成一個數字你才能感受它。在這兩個例子中,第一例子涉及的隨機變數就是離散型隨機變數,第二個涉及的變數就是連續型隨機變數。

在賈俊平老師的《統計學》教材中,給出了這樣的區分:

如果隨機變數的值可以都可以逐個列舉出來,則為離散型隨機變數。如果隨機變數X的取值無法逐個列舉則為連續型變數。

我始終覺得,賈老師這麼說,對於我們這些腦子笨又愛鑽牛角尖的學生來說,還是不太好理解。所以我就告訴大家一個不一定非常嚴謹,但是絕對好區分的辦法。

只要是能夠用我們日常使用的量詞可以度量的取值,比如次數,個數,塊數等都是離散型隨機變數。只要無法用這些量詞度量,且取值可以取到小數點2位,3位甚至無限多位的時候,那麼這個變數就是連續型隨機變數!

對了,如果你連隨機變數這個概念還不理解的話,我送你一句賈俊平老師的話:

如果微積分是研究變數的數學,那麼概率論與數理統計是研究隨機變數的數學。

再來理解離散型隨機變數的概率分佈,概率函式和分佈函式

在理解概率分佈函式和概率密度函式之前,我們先來看看概率分佈和概率函式是咋回事。一下子又冒出來兩個長得差不多的概念!沒事,他們長得差不多,實際代表的含義其實也差不多!

在講概率函式和概率分佈之前,我想先講講為什麼我們花這麼大的力氣去研究這個概念。因為它實在太重要了,為什麼呢?在這裡,我直接引用陳希孺老師在他所著的《概率論與數理統計》這本書中說的:

研究一個隨機變數,不只是要看它能取哪些值,更重要的是它取各種值的概率如何!

這句是本文的核心內容,你要牢牢記得,我們這篇文章裡的所有概念都在是描述一件東西,那就是概率!概率!概率!什麼概率密度啦,概率分佈啦,概率函式啦,都是在描述概率!

概率分佈和概率函式這兩個概念,我想先從概率函式開始講。概率函式,就是用函式的形式來表達概率。

pi=P(X=ai)(i=1,2,3,4,5,6)

在這個函式裡,自變數(X)是隨機變數的取值,因變數(pi)是取值的概率。這就叫啥,這叫用數學語言來表示自然現象!它就代表了每個取值的概率,所以順理成章的它就叫做了X的概率函式。從公式上來看,概率函式一次只能表示一個取值的概率。比如P(X=1)=1/6,這代表用概率函式的形式來表示,當隨機變數取值為1的概率為1/6,一次只能代表一個隨機變數的取值。

接下來講概率分佈,顧名思義就是概率的分佈,這個概率分佈還是講概率的。我認為在理解這個概念時,關鍵不在於“概率”兩個字,而在於“分佈”這兩個字。為了理解“分佈”這個詞,我們來看一張圖。

離散型隨機變數的值和概率的分佈列表

在很多教材中,這樣的列表都被叫做離散型隨機變數的“概率分佈”。其實嚴格來說,它應該叫“離散型隨機變數的值分佈和值的概率分佈列表”,這個名字雖然比“概率分佈”長了點,但是對於我們這些笨學生來說,肯定好理解了很多。因為這個列表,上面是值,下面是這個取值相應取到的概率,而且這個列表把所有可能出現的情況全部都列出來了!

舉個例子吧,一顆6面的骰子,有1,2,3,4,5,6這6個取值,每個取值取到的概率都為1/6。那麼你說這個列表是不是這個骰子取值的”概率分佈“?

長得挺像的,上面是取值,下面是概率,這應該就是骰子取值的“概率分佈”了吧!大錯特錯!少了一個最重要的條件!對於一顆骰子的取值來說,它列出的不是全部的取值,把6漏掉了!

這麼一說你就應該明白概率分佈是個什麼鬼了吧。說完概率分佈,就該說說分佈函數了。這個分佈函式又是個簡化版的東西!我真的很討厭我們的教材中老是故弄玄虛,賣弄概念!你就老老實實的寫成”概率分佈函式“,讓我們這些笨學生好理解一些不行嗎?

看看下圖中的分佈律!這又是一個不統一叫法的醜惡典型!這裡的分佈律明明就是我們剛剛講的“概率函式”,完全就是一個東西嘛!但是我知道很多教材就是叫分佈律的。

概率分佈函式就是把概率函式累加

我們來看看圖上的公式,其中的F(x)就代表概率分佈函式啦。這個符號的右邊是一個長的很像概率函式的公式,但是其中的等號變成了大於等於號的公式。你再往右看看,這是一個一個的概率函式的累加!發現概率分佈函式的祕密了嗎?它其實根本不是個新事物,它就是概率函式取值的累加結果!所以它又叫累積概率函式!其實,我覺得叫它累積概率函式還更好理解!!

概率函式和概率分佈函式就像是一個硬幣的兩面,它們都只是描述概率的不同手段!

連續型隨機變數也有“概率函式”和“概率分佈函式”嗎?

有!連續型隨機變數也有它的“概率函式”和“概率分佈函式”,但是連續型隨機變數的“概率函式”換了一個名字,叫做“概率密度函式”!為啥要這麼叫呢?我們還是借用大師的話來告訴你,在陳希孺老師所著的《概率論與數理統計》這本書中,

如果這麼解析你還是不太懂的話,看看下面的這個公式:

概率密度函式用數學公式表示就是一個定積分的函式,定積分在數學中是用來求面積的,而在這裡,你就把概率表示為面積即可!

左邊是F(x)連續型隨機變數分佈函式畫出的圖形,右邊是f(x)連續型隨機變數的概率密度函式畫出的影象,它們之間的關係就是,概率密度函式是分佈函式的導函式。

兩張圖一對比,你就會發現,如果用右圖中的面積來表示概率,利用圖形就能很清楚的看出,哪些取值的概率更大!這樣看起來是不是特別直觀,特別爽!!所以,我們在表示連續型隨機變數的概率時,用f(x)概率密度函式來表示,是非常好的!

這篇文章只是我個人對於這些概念的一些比較取巧的理解,如果你想更加深刻,精確的理解這些概念,我推薦大家讀一下陳希孺老師的《概率論與數理統計》這本書,這本書對於這些概念的理解非常有幫助!