資料的比較分析(三):假設性檢驗在資料比較分析中的應用
產品小白專屬,10周線上特訓,測、練、實戰,22位導師全程帶班,11項求職服務,保障就業! 瞭解詳情
釋放雙眼,帶上耳機,聽聽看~!
00:00
00:00
資料分析是一個不斷驗證的過程,本文將通過案例分析來帶領大家瞭解“假設性檢驗”的應用。
上兩節中我講到基於基準的對比,和基於不同版本之間的對比;可以訂閱我專欄看回我以前的文章。
這章節我要分享一下假設性檢驗在其中的一些應用,“假設性檢驗”的應用範圍確實非常之廣,現在最常用在一些AB測試當中,現在網際網路產品的AB測試很多時候都是在流量非常充足的情況下進行的,誤差幅度相對比較小,但是當在做使用者的可用性測試的時候,樣本的數量收到很多方面的因素限制的時候,我們就需要如何用有限的樣本來做資料的分析工作。
資料的分析其實就是一個不斷反覆驗證的過程,“假設性檢驗”其實就是基於反正法來的;接下來我通過一個例子來慢慢深入講解“假設性檢驗”。
從一個案例說起
案例:一款原版本的CRM系統,找14個使用者去測試使用,計算出該14個使用者平均任務時長是33秒,標準差是22秒;對該系統進行改版之後,另外選13個使用者去測試使用,計算出該13名使用者平均任務時長是18秒,標準差是10秒。
我們這個時候可以提出假設:新版本比原版本快15秒?
第一步:使用t檢驗的方法,先計算t值
第二步:通過t值去計算出p-value值
為了求得事實上並不構成實質差異的差異值有多大,我們在t表中查詢2.3,來看2.3標準差上面和下面的區域百分比是多少。所需要的另外一個變數就是自由度,其值大概為樣本量大小減去2(13-2=11)。使用Excel公式=TDIST(2.3,11,2),我們得到0.04,也稱為p值。
第三步:對p-value值進行分析
p-value值為0.04表示差一步顯著的情況下,只有4%的差異會大於15秒。也就是說2.3個標準誤佔了t分佈中96%的面積(1-0.04)。換個說法,依照概率,在100次中,只有4次出現這種情況。
當然有可能的情況是兩個樣本取自的總體之間沒有差異(既均值差異為0),但是更有可能的是均值差異為5、10或15秒。按照慣例,當p-value值小於0.05時,有充足的證據說明差異並不是由概率造成的。換句話說,我們可以得出結論兩個版本的CRM系統存在顯著差異。
要記住,雖然統計的結論是其中一個CRM應用設計會更快,但是我們尚未完全證明它是更快的。我們只是說兩個觀察到的均值存在差異的樣本,其各自總體的均值差異為零(既觀察到的15秒的差異是由概率造成的)不太可能。
從假設性檢驗的邏輯去分析上述案例
均值檢驗得到的p-value值告訴我們的是兩個均值無差異的概率有多大。無差異的假設就是指零假設。p值針對的零假設的可信度。p值小說明零假設可信度低,不太可能為真。如果零假設不太可能為真,那意味著我們的研究假設為真——具體地說,是存在差異的。
在兩個CRM設計中,任務時長均值差異為15秒。我們已經評估這麼大的差異發生的概率只有4%,所以零假設為真的概率為4%。看上去似乎擇備假設——既我們的設計確存在顯著差異——為真的可能性更大。
使用零假設,只需要充足的證據(而非定義性的證明)來說明兩個均值直接差異為零食不太可能的 ,至少你可以證明一些差異的真實性。差異量的大小,當然也是重要的,對於任何的顯著性統計,你都需要計算差異的置信區間,來為實際的顯著性統計提供一個參考。
在《資料的比較分析(二)》中有相關的計演算法方法,在這個例子中,95%的置信度是1.3到28.7秒。換句話說,我們有95%的資訊說差異至少為1.3秒,也就是說任務時長的縮短量在輕微的4%(1.3/33)到跟容易引起注意的87%(28.7/33)之間。
假設性檢驗的兩類錯誤
類形一錯誤:我們可能會說兩者之間存在差異,而事實上並不存在。
型別二錯誤:我們得出的結論說兩者之間不存在差異,而事實上存在。
p-value值是告訴我們犯型別一錯位的概率,當見到p-value值等於0.05時,我們將其解讀為當實際差異為零時,得到一個這麼大或者比其他更大的觀測差異的概率為5%
總結
產品的打磨也像是科學研究一樣,都是在不斷的假設、實驗、驗證,且不斷的推倒重來的過程,每一步都需要不斷去論證。
本文由 @平遙抒雪 原創釋出於人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基於CC0協議