Udacity資料分析（入門）-分析 A/B 測試結果

阿新 • • 發佈：2018-11-19

分析A/B測試結果

然而，問題的難點在於，一個頁面被認為比另一頁頁面的效果好得多的時候你就要停止檢驗嗎？還是需要在一定時間內持續發生？你需要將檢驗執行多長時間來決定哪個頁面比另一個頁面更好？
1. 現在，你要考慮的是，你需要根據提供的所有資料做出決定。如果你想假定舊的頁面效果更好，除非新的頁面在型別I錯誤率為5％的情況下才能證明效果更好，那麼，你的零假設和備擇假設是什麼？你可以根據單詞或舊頁面與新頁面的轉化率 $p_{old}$ 與 $p_{new}$ 來陳述你的假設。

零假設： $p_{new}$ - $p_{old}$ <=0

備擇假設： $p_{new}$ - $p_{old}$ >0

2. 假定在零假設中，不管是新頁面還是舊頁面， $p_{new}$ and $p_{old}$ 都具有等於轉化成功率的“真”成功率，也就是說， $p_{new}$ 與 $p_{old}$ 是相等的。此外，假設它們都等於ab_data.csv 中的轉化率，新舊頁面都是如此。

每個頁面的樣本大小要與 ab_data.csv 中的頁面大小相同。

執行兩次頁面之間轉化差異的抽樣分佈，計算零假設中10000次迭代計算的估計值。

使用下面的單元格提供這個模擬的必要內容。如果現在還沒有完整的意義，不要擔心，你將通過下面的問題來解決這個問題。

a. 在零假設中， $p_{new}$ 的 convert rate（轉化率） 是多少？

p_new=df2.converted.mean()
p_new

0.11959708724499628

b. 在零假設中， $p_{old}$ 的 convert rate（轉化率） 是多少？

p_old=df2.converted.mean()
p_old

0.11959708724499628

c. $n_{new}$ 是多少？

n_new=df2.query('landing_page=="new_page"').shape[0]
n_new

145310

d. $n_{old}$ ?是多少？

n_old=df2.query('landing_page=="old_page"').shape[0]
n_old

145274

e. 在零假設中，使用 $p_{new}$ 轉化率模擬 $n_{new}$ 交易，並將這些 $n_{new}$ 1’s 與 0’s 儲存在 new_page_converted 中。

random.seed(42)
new_page_converted=np.random.choice(2,size=n_new,p=[1-p_new,p_new])
new_page_converted

array([0, 0, 0, ..., 0, 0, 1], dtype=int64)

f. 在零假設中，使用 $p_{old}$ 轉化率模擬 $n_{old}$ 交易，並將這些 $n_{old}$ 1’s 與 0’s 儲存在 old_page_converted 中。

random.seed(42)
old_page_converted=np.random.choice(2,size=n_old,p=[1-p_old,p_old])
old_page_converted

array([0, 0, 0, ..., 1, 0, 0], dtype=int64)

g. 在 (e) 與 (f)中找到 $p_{new}$ - $p_{old}$ 模擬值。

diff=new_page_converted.mean()-old_page_converted.mean()
diff

0.0004797582554228047

h. 使用**a. 到 g. ** 中的計算方法來模擬 10,000個 $p_{new}$ - $p_{old}$ 值，並將這 10,000 個值儲存在 p_diffs 中。

p_diffs=[]
for i in range(10000):
    p_new_diff = np.random.choice(2,size=n_new,p=[1-p_new,p_new]).mean()
    p_old_diff = np.random.choice(2,size=n_old,p=[1-p_old,p_old]).mean()
    p_diffs.append(p_new_diff - p_old_diff)

i. 繪製一個 p_diffs 直方圖。這個直方圖看起來像你所期望的嗎？

p_diffs = np.array(p_diffs)
plt.hist(p_diffs)

在這裡插入圖片描述
j. 在p_diffs列表的數值中，有多大比例大於 ab_data.csv 中觀察到的實際差值？

obs_diff=df2.query('landing_page=="new_page"')['converted'].mean()-df2.query('landing_page=="old_page"')['converted'].mean()
obs_diff

-0.0015782389853555567

(p_diffs>obs_diff).mean()

0.9079

k. 用文字解釋一下你剛才在 **j.**中計算出來的結果。在科學研究中，這個值是什麼？根據這個數值，新舊頁面的轉化率是否有區別呢？

p-value，p值等於0.9079較大，我們無法拒絕零假設

l. 我們也可以使用一個內建程式（built-in）來實現類似的結果。儘管使用內建程式可能更易於編寫程式碼，但上面的內容是對正確思考統計顯著性至關重要的思想的一個預排。填寫下面的內容來計算每個頁面的轉化次數，以及每個頁面的訪問人數。使用 n_old 與 n_new 分別引證與舊頁面和新頁面關聯的行數。

import statsmodels.api as sm

convert_old = df2.query('group=="control" & converted==1').shape[0]
convert_new = df2.query('group=="treatment" & converted==1').shape[0]
n_old = df2.query('group=="control"').shape[0]
n_new = df2.query('group=="treatment"').shape[0]

m. 現在使用 stats.proportions_ztest 來計算你的檢驗統計量與 p-值。這裡是使用內建程式的一個有用連結。

z_score,p_value=sm.stats.proportions_ztest([convert_old, convert_new], [n_old, n_new],alternative='smaller')
z_score,p_value

(1.3109241984234394, 0.9050583127590245)

from scipy.stats import norm
norm.cdf(z_score),norm.ppf(1-(0.05))

(0.9050583127590245, 1.6448536269514722)

n. 根據上題算出的 z-score 和 p-value，我們認為新舊頁面的轉化率是否有區別？它們與 j. 與 k. 中的結果一致嗎？

由於z-score為1.3109小於1.64485，則我們無法拒絕零假設，這與之前的結果一致。

III - 迴歸分析法之一

1. 在最後一部分中，你會看到，你在之前的A / B測試中獲得的結果也可以通過執行迴歸來獲取。

a. 既然每行的值是轉化或不轉化，那麼在這種情況下，我們應該執行哪種型別的迴歸？

邏輯迴歸
b. 目標是使用 statsmodels 來擬合你在 a. 中指定的迴歸

Udacity資料分析（入門）-分析 A/B 測試結果

分析A/B測試結果

目錄

簡介

I - 概率

截止目前並沒有證據可以證明某一頁面可以帶來更多的轉化率

II - A/B 測試

III - 迴歸分析法之一

Udacity資料分析（入門）-分析 A/B 測試結果

Linux入侵分析（二）分析SSH登錄日誌

DC學院資料分析師（入門）學習筆記----高階爬蟲技巧

HD-ACM算法專攻系列（10）——大明A+B

20172309_《程式設計與資料結構（下）》_課堂測試修改報告。

藍綠部署、金絲雀釋出（灰度釋出）、A/B測試的準確定義

PAT乙級真題及訓練集 PAT (Basic Level) Practise （中文）1011. A+B和C

PAT刷題集（乙級）1011 A+B和C (15)（15 分）

PAT (Basic Level) Practice （中文）1011 A+B 和 C （15 分）（C++）（兩種方案）

【PAT】（乙級）1011. A+B和C (15)

誰說菜鳥不會資料分析（入門篇）----- 學習筆記6（資料分析報告）

誰說菜鳥不會資料分析（入門篇）----- 學習筆記5（資料展現：圖表）

誰說菜鳥不會資料分析（入門篇）----- 學習筆記4（資料分析方法）

誰說菜鳥不會資料分析（入門篇）----- 學習筆記2（結構為王：確定分析思路 4P 5W2H ）

資料分析（入門篇）-第一章-資料分析那些事兒

產品讀書《誰說菜鳥不會資料分析（入門篇）》

入門Python資料分析最好的實戰專案（一）分析篇

Kaggle 入門級題目titanic資料分析（EDA）嘗試

生物資訊學入門使用 GEO基因晶片資料進行差異表達分析（DEG）——Limma 演算法資料程式碼結果解讀

兄弟連區塊鏈入門教程eth源碼分析p2p-udp.go源碼分析（二）

Udacity資料分析（入門）-分析 A/B 測試結果

分析A/B測試結果

目錄

簡介

I - 概率

截止目前並沒有證據可以證明某一頁面可以帶來更多的轉化率

II - A/B 測試

III - 迴歸分析法之一

相關推薦