1. 程式人生 > >one-way ANOVA(analysis of variance) 單向方差分析

one-way ANOVA(analysis of variance) 單向方差分析

問題描述:在比較兩組獨立正態分佈樣本的均值時用t test,那麼比較多組樣本的均值呢?要用one-way ANOVA。
Note: 使用ANOVA時,要假定k個組的方差相同。如果k個組的方差並不相同,就不應該使用ANOVA,要分別對兩組間用t檢驗。

當我們看到這種要同時比較多組樣本的均值時,首先就要想到one-way ANOVA,然後再想想用此檢驗方法是否真的合適。比如下面的例子:

研究肺功能與吸菸的關係,以“用力中期撥出量(FEF)”作為指標,統計結果如下,

組號 組名 mean(FEF) SD(FEF) n
1 NS(非吸菸者) 3.78 0.79 200
2 PS(被動吸菸者) 3.30 0.77 200
3 NI(非吸入吸菸者) 3.32 0.86 50
4 LS(輕度吸菸者) 3.23 0.78 200
5 MS(中度吸菸者) 2.73 0.81 200
6 HS(重度吸菸者) 2.59 0.82 200

思考過程:
1,首先,6組的方差接近,沒有理由認為6組方差不等,可以使用one-way ANOVA;
2,建立零假設:6組的平均值都相同;
備擇假設:6組中至少有兩組均值不等。
3,計算組間平方和(組間波動)、組內平方和(組內波動)。組間平方和越大,預示著不同組的差別越大,越傾向於備擇假設成立;反之,p-value就越大,傾向於零假設成立。
Within SS =

i = 1 k j = 1 n i ( y i j y i ˉ ) 2 y i j i j y i ˉ i \sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}-\bar{y_{i}})^{2},其中y_{ij}為第i組的第j個元素、\bar{y_{i}}為第i組的平均值
容易計算Within SS = i = 1 k ( n i 1 ) s i 2 \sum_{i=1}^{k}(n_{i}-1)s_{i}^2
Between SS = i = 1 k j = 1 n i ( y i ˉ y ˉ ˉ ) 2 y i ˉ i y ˉ ˉ \sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\bar{y_{i}}-\bar{\bar{y}})^2,其中\bar{y_{i}}為第i組的平均、\bar{\bar{y}}為全部的平均
容易計算Between SS = i = 1 k n i y i ˉ 2 n y ˉ ˉ 2 \sum_{i=1}^{k}n_{i}\bar{y_{i}}^2-n\bar{\bar{y}}^2
4,構建檢驗統計量,書上說Between MS/Within MS服從F分佈(Between MS = Between SS/(k-1),即Between SS除以對應自由度;Within MS = Within SS/(n-k),即Within SS除以剩下的自由度,總自由度為n-1)。
F統計量 = Between MS/Within MS(服從 F k 1 , n k F_{k-1,n-k} 分佈)
5,進行統計推斷。
精確p值為p = Pr( F k 1 , n k > F F_{k-1,n-k} > F )

對上述例子進行計算:

Within MS = 184.38/5 = 36.875
Between MS = 663.87/1044 = 0.636
F = Between MS/Within MS = 58 ~ F 5 , 1044 F_{5, 1044}

結論:p < 0.001,所以應該要拒絕原假設,即至少有兩組的平均肺功能不同。

上面的例子到這裡還沒有完,很多情況下會關注到底哪些組之間有顯著差別,有以下幾種方式:

1,指定兩組間比較的t檢驗(least significant difference, 即LSD法),此方法跟分別對兩組間用t檢驗的區別是要用總體的標準差(即Within MS)代替兩組的標準差進行t統計量的計算。

2,預先選取 l 1 l_{1} 個組和 l 2 l_{2} 個組進行比較。例如要比較吸入抽菸者和非抽菸者的肺功能,將上表三組抽菸者合併成一組去與非抽菸者比較。遇到的問題是在人群中輕度、中度和重度抽菸者的比例不是表中的1:1:1,而是1:7:2,此時要用到線性約束的估計和檢驗。

一個線性約束是值對某些組的均值做線性組合,而線性組合中的係數之和為0: L = i = 1 k c i y ˉ i = 1 k c i = 0 L = \sum_{i=1}^{k}c_{i}\bar{y},要求\sum_{i=1}^{k}c_{i} = 0

2.1 用線性約束表示非抽菸者和吸入式抽菸者為: L = y 1 ˉ 0.1 y 2 ˉ 0.7 y 3 ˉ 0.2 y 4 ˉ L = \bar{y_{1}} -0.1\bar{y_{2}}-0.7\bar{y_{3}}-0.2\bar{y_{4}}
2.2 設 μ L L \mu_{L}為線性約束L的理論均值,則建立的假設檢驗如下:
H 0 : μ L = 0 H 1 : μ L 0 H_{0}: \mu_{L} = 0對H_{1}: \mu_{L} \neq 0

相關推薦

one-way ANOVA(analysis of variance) 單向分析

問題描述:在比較兩組獨立正態分佈樣本的均值時用t test,那麼比較多組樣本的均值呢?要用one-way ANOVA。 Note: 使用ANOVA時,要假定k個組的方差相同。如果k個組的方差並不相同,就不應該使用ANOVA,要分別對兩組間用t檢驗。 當我們看到這種要同時比較多組樣本的

Java呼叫基於 R 的 One-Way ANOVA檢測

本文主要說下面三點: 1. R 的 ANOVA 測試預設是基於 Type I Sum of Squares,而 SPSS 預設則是 Type III 平方和的,所以需要對 R 做修改; 2. 普通應用上,都是準備好一個 excel 檔案,裡面包含一個二維矩陣作為 SPSS /

variance, 協covariance, 協矩陣covariance matrix

總結 一起 計算 矩陣 獨立 var 隨機 度量 誤差 參考: 如何通俗易懂地解釋「協方差」與「相關系數」的概念?(非常通俗易懂) 淺談協方差矩陣 方差(variance) 集合中各個數據與平均數之差的平方的平均數。在概率論與數理統計中,方差(Variance)用來度量隨機

ANOVA | 分析

href IE .com pap 現在 tps www 問題 使用 老早就看見過ANOVA這個單詞了,也沒去查是什麽意思,今天要用了,一百度居然是方差分析。 統計學基礎: 假設檢驗可以用於比較單組、兩組之間的均值和方差的差異,那到三組及以上怎麽辦?那就是方差分析了,最最

理解Bias(偏差),Error(誤差),和Variance)的區別和聯系?

不同的 Y軸 統計學 精準 是我 container 復雜度 數據 ner 內容導讀 最近聽機器學習課程時聽到這三個概念一開始有點模糊。感覺沒理解透,所以自己又查了點資料,消化了一下,然後做了個筆記。Bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準度,

R語言分析ANOVA

自己整理編寫的R語言常用資料分析模型的模板,原檔案為Rmd格式,直接複製貼上過來,作為個人學習筆記儲存和分享。部分參考薛毅的《統計建模與R軟體》和《R語言實戰》 I. 單因素方差分析 #用data frame的格式輸入資料 medicine <-

Covariance 協分析

images var .cn htm baidu ima tps 分析 ges PDF文檔 https://wenku.baidu.com/view/1ad38cacc850ad02df80415d.html Covariance 協方差分析

分析

分析法 tar 需要 strong tlab tla 不同類 工程 tro 前言 工程實現的過程中需要對提取的特征指標進行有效性分析,評價各個特征指標與不同類別的顯著性關系,篩選出對不同類別判別貢獻率最佳的指標,為設計分類器等提供支持。 本文主要針對單因子方差分析法。 實現

R語言-分析

評估 car 方差 bsp rac 一個 grey pla span 方差分析指的是不同變量之間互相影響從而導致結果的變化 1.單因素方差分析:   案例:50名患者接受降低膽固醇治療的藥物,其中三種治療條件使用藥物相同(20mg一天一次,10mg一天兩次,5mg一天四次)

SPSS-分析

沒有 差異 基本概念 控制 src 研究 color ima 檢驗 方差分析(單因素方差分析、多因素方差分析、協方差分析) 基本概念:進行兩組以上均數的比較,檢驗兩個或兩個以上樣本均數差別的顯著性(T檢驗主要是檢驗兩個樣本均數差別的顯著性

SPSS協分析

1、分析原理 協方差分析是迴歸分析與方差分析的結合。在作兩組和多組均數之間的比較前,用直線迴歸的方法找出各組因變數Y與協變數X之間的數量關係,求得在假定X相等時的修正均數,然後用方差分析比較修正均數之間的差別。 要求X與Y的線性關係在各組均成立,且在各組間迴歸係數近似相等,即迴歸直線平行;X的取

SPSS-多元分析

SPSS之多變數方差分析 軟體:SPSS 23 單因素方差分析:如果方差不齊,就看Brown-Forsythe和Welch修正值 Analyze→General linear model→multivariate 多因素方差分析的其他

使用spss做分析

還記得上學那會老師專門敲了黑板,強調方差分析很重要。。單因素方差分析(Analysis of Variance, ANOVA),如果變數多,就是多因素方差分析,還需要考慮到多重共線性, 也就是線性代數裡的那些知識了。 現在寫paper,基本上要用兩種不同的方法做資料分析相互驗證。比如用R和SPSS或者SA

R教材7 分析

方差分析:組間差別分析aov(formula,data),將組別因子加入到函式 雙因素方差分析中,若不同的分組中組內觀測數不同則模型的順序具有唯一性;ANOVA模型的順序很重要,模型Y~A+B+A:B,其中Y為因變數,A,B為分組量 序貫型:後面對線出現的效應做調整,A

奇怪的分析結果:三方互動的pvalue 1

我執行一個三路互動,預測“判斷”從“factor_1”(主題,兩個水平),“factor_2”(主題,兩個水平)和factor_3(主題內,兩個級別)。 我有120名參與者在每個級別的factor_1和factor_2(30) model <- aov(judgment ~ factor_1facto

分析

ats 方式 col 選擇 因子 多個 學院 方差 方案 方差分析是研究一種或多種因素的變化對試驗結果的觀測值是否有顯著影響,從而找出較優的試驗條件或生產條件的一種數理統計方法。 方差分析按 影響分析指標 的因素(自變量)個數的多少 ,分為單因素、多因素方差分析

R語言開發之協分析瞭解下

我們通常使用迴歸分析來建立描述預測變數變數對響應變數的影響的模型,有時,如果我們有類似於是/否或男/女等值的分類變數,簡單迴歸分析為分類變數的每個值提供多個結果。在這種情況下,我們可以通過使用分類變數和預測變數來研究分類變數的影響,並比較分類變數的每個級別的迴歸線。 這樣的分

分析中均值比較的方法

轉載:http://blog.sina.com.cn/s/blog_5de124240101q55q.html 最近看文獻時,多數實驗結果用到方差分析,但選的方法不同,主要有LSD,SNK-q,TukeyHSD法等,從百度廣庫裡找了一篇文章,大概介紹這幾種方法,具體公式不列了,軟體都可以計算。這幾種方法主要

python做單因素分析

方差分析的主要功能就是驗證兩組樣本,或者兩組以上的樣本均值是否有顯著性差異,即均值是否一樣。 這裡有兩個大點需要注意:①方差分析的原假設是:樣本不存在顯著性差異(即,均值完全相等);②兩樣本資料無互動作用(即,樣本資料獨立)這一點在雙因素方差分析中判斷兩因素是否獨立時用。 原理: 方差分析的原理就一個方程:S

資料探勘之分析實驗

本部落格根據非常好的excel資料而編寫,使用python語言操作,預計使用一週的時間更新完成。需要《非常好的excel資料》word文件,歡迎發郵件給[email protected],免費發放。這篇部落格對應《非常好的excel資料》裡的第5章節。 1.1 單因素方差分析