1. 程式人生 > >第六週:統計學

第六週:統計學

當拿到一份資料的時候,首先會怎麼做?----描述性統計學,概率推斷統計。

描述性統計學

數值資料:計算

分類資料:不能進行計算,例如,男1 女0 代表一個類別

數值資料和分類資料可以進行互相轉換

一般描述統計的方式方法:

1.分類資料的描述性統計:單純計數就可以

2.資料描述統計:

3.統計度量:平均數--資料分佈比較均勻的情況下進行,中位數,眾數,分位數(4分位、10分位、百分位)

4.圖形:

5.權重預估(分位數)

6.資料分佈(波動情況,標準差,方差)

7.資料標準化:

在實際用用的時候,有很多情況量綱不一致(即資料單位不一樣)導致差異很大無法進行比較

用資料標準化將資料進行一定範圍的壓縮,得到的結果與資料業務意義無關,純粹是資料上的波動達到可進行對比。

xi:資料的具體值

u:平均值

σ:標準差

標準化之後一般都是在0上下直接按波動的數字,就可以反應原始資料的典型特徵進行分析。

例項演示:時間趨勢下訂單的變化

單純的時間只是一種屬性,隱含的一種關係。很多銷量是跟時間有關係,但是時間的背後是根據使用者行為或者一系列因素相關。而不是單純連續日期幾號的簡單關係。所以將案例資料需要進行初步整理(坦誠講~這個細節是比較吸引我的,因為在此之前一直是像上面所說,對日期進行簡單連續日期進行趨勢分析,得到的結果的確不盡人意)新增週數和星期,將其轉化成日曆形式進行觀察。

顯然,標準化之後的趨勢顯得更加明顯清晰了,將趨勢擴張到肉眼辨識度提高的形態。

在後期處理的時候,建議用標準化的資料進行預估,因為標準化後已經將正負收斂到0的附近,並且可以方便增加其他關係參加預估。

切比雪夫定理,可以幫助在知道標準差和平均數的情況下,基本就知道資料的分佈情況。

另一種作用則通常用於異常值的檢測。

在資料越多的情況下,資料越收斂,推算的能力就會越精準。

描述統計的視覺化:

1.箱線圖:描述一組資料的分佈,同時反應分位數

用2016版本以上的Excel可以直接利用資料作圖,如低版本的則需要利用輔助線來進行(之前視覺化內容的標靶圖方法)繪製。

箱線圖相對比其他柱形圖更有對資料的分析解讀性。

操作舉例:

上下邊緣線外部分散的點,可視分析情況視為異常值處理,如果想要分析的結果更精準,可視情況將這部分異常值資料剔除。


可新增類別進行細緻分析。

2.直方圖:特殊的柱形圖,把條形圖下面的類別換成資料的柱形圖。

直方圖一般的是等距劃分,每一個等距的距離不能重複。

直方圖的形狀有以下幾種:

標準型:分佈均勻較理想

陡壁型:比較容易出現在收費領域

鋸齒型:說明資料不夠穩定

孤島型:要研究分析孤島產生的原因

偏峰型:銷售資料一般會產生偏鋒,一般會出現長尾(或左或右)

雙峰型:兩者資料混合一般會形成雙峰

由直方圖引出一個統計學指標-

-偏度

---正太分佈

正太分佈的特殊應用:

描述性統計的計算值,可通過Excel裡面的資料--資料分析---描述性統計直接通過介面勾選需要內容進行計算。

概率推斷統計

推斷統計,描述一件事情發生的可能性

例如:拋硬幣的遊戲

事件:正面、反面

概率:50%


在B發生的概率下,A發生的概率是多少

當A與B之間無關聯的時候,則P(A|B)=P(A)

條件概率的關鍵點

貝葉斯定理


看到題目的時候與最後分析的結果相差巨大的原因是因為上題目中,有多重誘因所導致。

事件發生會有很多原因,我們單純只知道結果的情況下去反推原因是不太好的。

貝葉斯公式:

P(A1):真實患者的概率

P(A2):實際為健康人群的概率

P(B):代表試紙查出患者的概率

P(B|A1):為真實患者條件下試紙查出患者的概率,即99%

P(B|A2):為健康人群的條件下試紙查出患者的概率,即5%

P(A1)為真實患者的概率0.1%,P(A2)為健康率99.9%

i:為特定場景下

貝葉斯特點:知道結果A已經發生了,想要推匯出各種原因發生的可能性有多大。(結果----->發生因素的概率)

對於貝葉斯多傾向用於機器演算法。網路上也有很多關於貝葉斯的解釋可供參考學習。

概率分佈

離散分佈

連續變數分佈

1.二項分佈:

是一種離散型的概率分佈。二項代表他有兩種可能的結果,把一種稱為成功,另外一種稱為失敗。

每次成功和失敗的概率都是相同的,每次實驗相互獨立(拋硬幣是一個典型的二項分佈)

Excel計算概率示例:

概率密度=BINOM.DIST(3,10,0,1,FALSE)

抽3次以上,限制10次,中間概率是10%(示例需求詳見見課程)

2.泊松分佈:

主要用於預估某事件在特定的事件或者空間中發生的次數。比如一天內中獎的個數,一個月內機器損壞的次數等。

在任意一個單位區間、時間內發生的概率是相同的(知道平均發生的概率)。

每次事件相互獨立

x:想要知道具體發生的概率值

μ:平均概率值平均期望值

e:自然對數、常數

Excel計算概率示例:

=POISSON.DIST(x事件出現的次數,Mean期望值,邏輯值)

需求:想要知道在之前平均幾天中獎5次(前幾天每天中獎5次),下一時間段中獎概率是7次的概率是多少?

方法:=POISSON.DIST(7,5,TRUE)

TRUE是計算統計公式的概率累加值,同二項分佈公式中的FALSE一樣,FALSE是指單次,就是說剛好恰好發生7次的概率。

現實場景中,不能滿足任意一個特定事件內或者空間內發生的次數概率是相同的,所以應用於現實場景中需要考慮實際條件。

一般現實生活中二項分佈會比較常用。

3.正態分佈

連續變數分佈是一個隨機變數在其區間內能夠取任何數值所具有的分佈。正態分佈是一種連續型的隨機變數分佈。

世界上絕大多數分佈都屬於正態分佈。正態分佈的形狀是一條鍾型曲線。以均值為中心左右對稱,形狀和均值μ以及方差有關。

切比雪夫定義,可以幫助快速的估約資料。

正態分佈公式:

標準正態分佈:

均值為0,方差為1的正態分佈。

概率密度函式和累計分佈函式(在更多的應用場景中,更多的看累計分佈函式)

應用示例:

要求:標準正態分佈中,z小於等於1的概率?z在區間-1~1.25的概率?z大於2的概率?

方法:Excel計算概率示例

=NORM.DIST(X函式值的區間點1,算數平均數0,分佈的標準方差1,邏輯值TRUE累計分佈值)

求出的是小於等於某一個值

在一定區間的,求解方法相當於兩個區間的概率相減求面積。

求解大於的,1-前一段的面積。

用Excel可不用轉成標準正態分佈進行運算,可直接進行運算。

現實工作場景中,很少會遇見滿足正態分佈的情況,更多的是密率分佈,某個獎品隨機積分,質量檢測等滿足正態分佈的情況下使用。

【假設檢驗】
思想是反正法,如果一件事情發生的概率很小,但是它發生了,我們就把這件事情的原始結論推翻。

個案的發生,不能去證明某一個結論,但是可以去否定它。

例如:某個工廠的產品合格率是99.9999%,但我們拿出100個樣本的時候,發現有2個不合格,這個時候就能去否定這個合格率了。

原假設H0:為了驗證某一個假設是否發生,而去檢驗它。

備選假設H1:原假設不成立,則選擇備選假設,包含一切讓原假設不成立的概率。

原假設一般是小概率的事件,如果它發生了,我們就要懷疑並拒絕它。如果沒發生,則接受它。

一般在做假設檢驗的時候,一般都是為了把它否定掉。所以在設立原假設的時候一般設立的場景是比較寬泛,或是看上去比較常規正常個,看上去更像是可能發生的,然後用小概率把它否定掉。

1.A&B測試:原理就是假設檢驗

通常採用抽樣方式將資料劃分成兩組,通過一組控制一組對照的方式進行觀察。

原假設為測試沒有效果,分析師的目的是去否定它,當B組的資料和A組的資料有顯著差異時,則能否定它。

2.Z檢驗

因為AB測試的資料都比較大(較大的資料基礎容易把一些誤差淡化掉,波動不明顯),所以常用Z檢驗的方式進行驗證,核心方法是當標準差已知時,驗證A組合B組分均值是否相等。

Z檢驗公式:

示範案例:(具體詳見課程91課時)

用Excel可計算Z值:=SDTR

根號=SQRT()

算出z值後轉成正態分佈,利用正態分佈公式,把z值帶入因為是標準正態分佈,取值為均值為0,方差為1帶入

得出概率是1%,可以把原始假設拒絕掉

當基礎資料變小的時候(基礎資料變小,波動則明顯)概率會發生變化(變大),這樣得出結論則發生變化。

樣本量、閾值(轉化率標準差),決定假設概率的變化。

3.置信區間

它的作用是不輕易拒絕原假設,而是給一個可靠的範圍。一般來說用95%作為可靠度。

在A&B測試中,我們可以定義為,使用者購買轉化率,有95%的可能性是在23%~27%之間,另外5%是小概率了。

在實際業務中,當樣本量足夠時,轉化率的計算可以越過Z檢驗的計算過程,直接看轉化結果,因為樣本量越大,對置信區間會越嚴格。

轉化率在資料型別上是0和1的集合。除此,還有數值型的計算,比如消費額度、消費頻次等。

A&B測試用於產品設計和運營是比較好的方法,對於資料分析來講,是一個很好的思維。

返回總目錄

轉自:https://ask.hellobi.com/blog/cbdingchebao/11782