1. 程式人生 > >科學研究設計五:實驗設計

科學研究設計五:實驗設計

說明

這是Bangor University 2007年School of Sport Health & Exercise Sciences的教學講義,大家可以在這裡檢視原課程的講義

課程目錄

為什麼要看這個?

這個在我看來,適合大學生或者剛入學的研究生學習,主要為了提高科學素養、培養科學研究的思維以及一些研究設計中要考慮的很多細節問題。雖然裡面沒有很多高超的方法,而且課程也是十年前的,但是裡面對於科學的理解以及思考問題的思維方式確實值得剛進入科研這條不歸路的人學習。

格式說明

  1. 標題格式都按照markdown排版的,但是標題之間的關係可能沒有排好,主要是參考了原課程網站的標題設計
  2. 書中一些專有名詞或者大牛們說的話都沒有翻譯,以防止因為我的問題導致誤解
  3. 名人名言和我自己的理解都是用引言格式標註的,不同的是,大牛們的話是英文,我自己的理解是中文
  4. 因為課程中有問答環節,問題我會用加粗來標識,問題的答案一般會用斜體來標識

最後一句話

因為本人英文水平有限,有些話翻譯得可能很彆扭,有能力的話建議大家去看原網址。

這裡寫圖片描述

實驗是什麼 What is an experiment?

“實驗”這個術語經常被用來描述包括收集資料的任何情況。我經常聽到學生,甚至更有經驗的研究人員,把各種不同的研究情況描述為“實驗性”,而事實上他們不應該這樣做。例如,研究人員可以使用一組參與者的兩種新型有氧健康測試來收集生理資料,然後將這兩個時間點的得分關聯起來,以確定新程式的重測信度。這不是一個實驗。再舉一個例子。假設你想從一些不同的動機測量來預測對鍛鍊計劃的依從性。您可以讓參與者在計劃開始時完成對動機變數的問卷調查,然後使用迴歸分析來確定其對日後遵守計劃的影響。這也不是一個實驗。本課將告訴你為什麼。

設計與分析 Design and analysis

從一開始就認識到,雖然在你的學位課程的第二年,我們分別教授研究設計和統計,但實際上它們是同一枚硬幣的兩面。 即使設計良好的研究,您也需要分析資料以確定任何變化、差異或關係在統計上是否顯著。 相反,世界上所有的統計都不能幫助你從一個設計不好的研究中得出有效的結論。 在規劃和設計一項研究時,要牢記如何分析獲得的資料是至關重要的。 我忘記了最後一年的專案學生來幫我分析他們的資料的次數,只是失望地發現他們不能回答他們打算的問題,因為這個研究沒有被正確設計。 設計和分析之間的關係也將在本課中進行說明。

因果關係 Causation

首先,我們來考慮一下實驗的目的。回想一下關於科學本質的前一課。我們在那裡瞭解到,科學的一個主要目標(許多人會認為最終的目標)是確定什麼導致了什麼。如果我們知道什麼原因會發生,那麼我們可以介入(或者不會發生,如果這是我們想要的)。例如,如果我們知道什麼原因導致肌肉浪費在類風溼關節炎患者身上,我們可以進行干預來預防它;如果我們知道什麼原因導致運動員對競爭情況更有信心,我們可以實施一個培訓計劃來幫助他們保持信心,等等。

所以我們要做的就是評估這個簡單的命題:If X, then Y

換句話說,如果給予這個治療(X),那麼這個結果(Y)應該發生。然而,只通過實施治療之後的結果變化是不足以證明X實際上導致Y的。除治療外,可能還有許多其他原因導致Y的變化。假設我們想知道一個心理訓練計劃是否導致運動員競爭狀態焦慮的減少。我們派出一批運動員參加該專案,並在訓練期間和之後的比賽中評估他們的焦慮情緒。我們觀察到的任何焦慮減輕可能是由於其他因素造成的。參與者可能只是習慣於通過在培訓期間參加的活動中獲得的經驗來應對競爭壓力。

為了確定它確實是X導致Y而不是別的,我們必須同時測試兩個命題:

If X, then Y 和 If not X, then not Y

因此,如果我們有兩組運動員,其中一組接受了心理訓練,另一組則沒有,我們發現只有訓練組的成員表現出焦慮減少(或者比沒有治療組減少更多)那麼我們可以得出這樣的結論,那就是這個計劃導致了這些結果上的差異。這樣可以嗎?假設我們的心理訓練組的運動員在訓練期間有很多比賽,而沒有處理的運動員只有幾個。這可能仍然是比賽的經驗,導致焦慮減少,而不是培訓計劃。或者,假設我們已經將更多的經驗豐富的運動員分配給了訓練組,而沒有經驗的運動員分配給了未處理組。開始的時候,更有經驗的運動員可能已經具備了更多的精神技能,並且不太擔心競爭事件。因此,為了得出治療(X)導致結果(Y)的結論,我們還必須確保在該專案過程之前或過程中對Y的操作沒有其他影響。我們必須把X的影響與其他潛在的影響分離開來。

那麼,我們如何確定X實際上導致了Y?那麼,為了確定因果關係,必須滿足三個條件。我把這三個步驟稱為因果關係:

這裡寫圖片描述

第一步是證明因果關係的一個必要但不充分的條件。 如果X導致Y那麼顯然他們必須是相關的。 如果吸菸導致癌症,那麼吸菸必須與癌症有關。 但是,僅僅因為兩件事情是相關的,所以並不意味著一件事導致另一件事。 你應該已經在統計中遇到了這個想法。 統計上,我們可以通過關聯來確定兩件事是否相關。 但是,相關性本身不能確定因果關係。 如果X和Y是相關的,那麼X可能會導致Y,但是同樣的,Y可能導致X.或者,X和Y只是相互關聯的,因為它們都是由別的東西(Z)引起的。 這被稱為虛假關聯(spurious correlation):

這裡寫圖片描述

例如,鞋子大小(X)和語言技能(Y)在兒童中高度相關。 這並不意味著大腳會導致孩子更熟練。 兩者都是由相同的因素造成的,我們可以稱之為成熟(Z)。

第二步也是證明因果關係的一個必要但不充分的條件。在我們對宇宙的正常經驗中,我們並不期望效應在其原因之前出現。如果我們發現X在時間Y之前,至少我們可以排除Y引起X的另一種假設。所以雖然這個步驟不能確定因果關係,但它確實使我們更接近於確定X引起Y.為此在兩個時間點收集資料的縱向設計的原因通常比橫截面設計更強,在這種設計中,所有資料都是在同一時間點收集的。

因果關係的最後一步涉及實驗。我們操縱(或改變)X,以便看看我們是否在Y中得到了一個改變。通過你的統計訓練,你將知道在這種情況下,X被稱為自變數,Y被稱為因變數(因為值Y的水平取決於X的水平)。

實驗操作 Experimental manipulation

術語“實驗”可以定義如下:

An experiment is a study in which at least one variable is manipulated and units are randomly assigned to the different levels of the manipulated variable(s). Pedhazur & Schmelkin (1991)

從這個定義中,我們可以看到有兩個重要的條件必須滿足,才能把研究稱為實驗。 第一個條件是我們必須操縱至少一個獨立變數來建立不同的情境。 正如在上面的心理訓練例子中,我們可以給參與者分配兩個條件之一:一個接受該程式的治療組和一個沒有接受該程式的無治療(控制)組。 因此,獨立變數(治療)通過建立兩個情境來操縱:接受治療而不接受治療。

隨機分配 Random assignment

其次,我們必須確保這些群組之間沒有系統的差異,否則可能導致治療的結果發生變化。 換言之,我們希望這兩個群體對於結果的任何影響,除了他們是否接受治療之外,都是等同的。 通過這樣做,我們可以將治療的效果與其他任何潛在的影響結果隔離開來。 這樣的其他影響被稱為潛在的獨立變數,因為它們是可能導致結果變化的因素。 這種“滋擾”變數的另一個術語是混淆變數( confounding variables),因為它們混淆了研究中的結論。

我們通常通過隨機分配參與者(上述定義中的 units)到不同的治療條件(自變數)來實現組的等價。 我們的運動員樣本必然會在很多方面發生變化:一些運動員會比其他運動員更有經驗,有些運動員會參加更多的比賽,自然而然地不易焦慮,更聰明,有更好的輔導支援等等。 所有這些因素都可能影響結果。 通過隨機分配運動員到兩組,我們可以確保他們在這些因素方面上基本等同。

請注意,我只是說“基本等同”。事實上,隨機分配到不同組的兩個(或更多)個人組在所有方面不可能都是完全相同的。當隨機分配時,我們依賴於由於概率規律的假設,個體之間的任何差異將是均勻的。因此,通過隨機分配獲得的組被稱為概率等價(probabilistically equivalent)。換句話說,他們在概率上是相似的。團隊的相似和隨機化過程相當。當然,在小樣本情況下,這可能是純粹偶然的,兩組之間有區別的可能性更大。因此,只要有可能,使用隨機化來分配組是一個好主意。你可以通過測量這些變數來進行測試,然後測試一下這些組是否與它們有顯著不同。例如,假設年齡在一項研究中可能是一個混雜的變數。你可以很容易地檢查研究組的平均年齡有沒有顯著差異。

然後,操縱自變數和隨機分配組是實驗的關鍵特徵。 沒有這兩個特徵的研究都不是一個實驗。 在本課第一段給出的例子中,沒有操作變數,也沒有隨機分配給組。 這就是為什麼這些研究不是實驗。

一個真正的實驗涉及操縱自變數,同時保持所有其他潛在的自變數不變,並隨機分配到自變數的不同組。

任何其他型別的研究不是一個實驗!

回想一下之前的抽樣課程,我們需要區分隨機分配到組和樣本的隨機選擇。 對群體進行隨機化並不意味著你有一個代表你感興趣的人群的樣本。為了對群體做出有效的推斷,你仍然需要獲得一個有代表性的樣本。

準實驗 Quasi-experiments

雖然真正的實驗是確定因果關係的標準方法,但不幸的是,直接操縱自變數或隨機分配參與者到不同的群組並不總是可能的。 沒有人進行真正的實驗來證明吸菸會導致人類癌症。 原因很明顯, 你不能隨意指定人吸菸二十年,然後看看你的吸菸組是否有較高的癌症發病率。 同樣,人的一些屬性是固定的,不能被操縱。 如果我們對性別對某些結果的影響,我們不能隨意分配個人為男性或女性。

這並不意味著我們不能解決這些問題。 我們仍然可以通過使用所謂的準實驗設計來將真實實驗的原理應用於這些情況:

A quasi-experiment has all the elements of an experiment, except that subjects are not randomly assigned to groups. Pedhazur & Schmelkin (1991)

在一個準實驗中,自變數不是由調查者直接操縱的。 相反,自變數在某種程度上是自然發生的,或者已經通過一些超出研究者控制的過程而發生了變化。 例如,假設我們研究不同性別的肌肉損傷的差異。 儘管我們不能隨機分配男性和女性的參與者,但我們仍然可以比較男性和女性對肌肉損傷的反應。 這被稱為非等組設計,並且被廣泛使用。 這個設計的主要問題在於,由於這些群體是非等價的,除了自變數之外,它們在很多方面都會有所不同。 因此,在因變數中觀察到的任何差異都可能是由於這些其他潛在的自變數。 我們可以儘量減少,但不能完全消除此問題。

另一個常見的準實驗設計被稱為斷點回歸(regression-discontinuity) 設計,或者更簡單地說是截斷設計。這涉及根據他們在預處理變數上的分數給參與者分組。例如,您可能想要比較治療對個體焦慮高或低的影響。您首先要測量他們的特質焦慮,然後根據預定的截止點將參與者分配到高和低組。通常使用中值分割程式。首先計算截止變數上總樣本的中位數。然後,將所有那些得分低於中位數的參與者分配給“低”組,將那些得分高於中位數的得分分配給“高”組。問題在於,如果分數正常分佈(應該是這樣),大多數人都會在中位數附近得分。所以,你只是把那些剛剛高於中值“高”的那些和那些剛剛低於中值“低”的那些稱作實際上相當平均的那些。另一種方法是採取更多的極端截斷,分數分佈的頂部和底部三分之一,並從研究中消除中間的分數。那麼問題是,你必須丟棄大量的資料,你會收集相當大的麻煩。

對於斷點回歸,這裡有個講解更透徹的例子:如果我們想知道上“一本”是否對學生未來工資有影響,使用RD方法,就是觀察那些在一本線上下2分的學生,看“上一本”和“沒上一本”的學生的未來工資差異。這個想法的天才之處在於,高考的上下5分,實在是一件隨機性非常大的事情。讓這批學生重新考一次,不少學生的情況可能就要逆轉。對於這5分割槽間內的學生來說,一條一本線,就像一個天然的分割線,將兩組人隨機分開了。

設計符號 Design notation

坎貝爾和斯坦利(Campbell and Stanley,1963)引入了一個簡單的符號系統來描述不同型別的設計,我們將在下一節中使用。

觀察 Observations

觀察或測量由O表示。下標用於表示特定的測量時機(例如O1,O2)

操縱變數 Treatments

自變數(治療,操作,干預,訓練程式或任何你要操縱的事情)都由X表示。在同一研究中的不同治療由下標表示(例如X1, X2)。 一個沒有治療的條件空白表所示。

群組 Groups

不同小組在不同的行。 連續的X和O適用於同一組。 例如,有兩組,將會有兩行。

分配組 Assignment to groups

隨機分配由R表示。非等價組由N表示;;截止分配的組由C表示

時間 Time

從左到右的維度表示時間順序。 例如,O1 X O2表示觀察,治療,然後是第二次觀察。

設計型別 Types of design

基本上有三類設計:實驗,準實驗和預實驗(有時稱為非實驗)。 以下決策樹可以幫助您確定在研究中使用哪種型別的設計:

這裡寫圖片描述

現在我們來看看這些不同設計分類的一些具體例子。 這些設計代表了基本應用; 他們有更復雜的變化。 我們將在下一課中繼續研究主要設計的具體優缺點。

預實驗設計 Pre-experimental designs

1. 案例研究 One shot case study (posttest only design)

所有的最簡單的設計,案例研究可以用我們的符號系統來描述:

XO

我們只有一組參與者,給他們一個治療(操縱自變數),然後測量其(所謂的)效果。 例如,我們可能會給一些群體增加體力活動的動機,然後衡量他們的鍛鍊量。 這種設計在證明治療的因果效應方面的弱點應該是顯而易見的。 由於我們沒有衡量參與者在治療前做了多少鍛鍊,我們怎麼能說出治療是否導致了改變? 而且,如果他們沒有接受治療,我們不知道他們可能做了多少活動。

這並不是說這樣的設計毫無用處。 假設你對英格蘭退出世界盃決賽對人們情緒狀態的影響感興趣。 事件發生後,通過訪問個人可以獲得有關人們情緒的有用資訊。 但是你不能從資料中得出任何的因果影響。 你不能確定這是英格蘭退出,而不是其他因素,決定了樣本的情緒狀態。

2.單組,前測,後測 Single group, pretest, posttest design

O1XO2

有了這個設計,我們可以確定治療和因變數一起變化。 但是,我們仍然不知道是不是治療導致了變化,為什麼不是其他因素,因為我們不知道沒有治療,效果是否會改變。 在這裡,我們正在測試最早提出命題,如果X那麼Y,而不是另一半:如果不是X,那麼不是Y。

3. 靜態組比較 Static group comparison

NXO1NXO2

這是一個沒有重複措施的準實驗,非等價組設計的例子。 經歷過治療(或事件)的組與未接受治療的組相比較。 例如,在英格蘭退出世界盃之後,我們可以將對足球感興趣的人的情緒狀態與對足球不感興趣的人的情況進行比較,推斷這種情況只會影響喜歡足球的人的情緒。 但是,如果沒有預先測試,我們無法知道在沒有發生事件(或治療)的情況下他們是否會有所不同。

真正的實驗設計 True experimental designs

4.隨機前測 - 後測對照組設計 The randomised pretest-posttest control group design

RO1XO2RO3XO4

也常被稱為隨機控制試驗(RCT:randomised controlled trial),特別是在醫學研究中,這是原型實驗設計。因此,我們將花費大量的時間來了解它和它的一些變化。在其基本應用中,參與者被隨機分配到治療或對照條件,並且在基線(即在治療實驗組之前)和之後處理兩組中測量因變數。通過這個設計,我們可以確定我們的基本命題的兩個方面:如果X,那麼Y,如果不是X,那麼不是Y.它的優點在於我們可以:

(a)確定這些組在基線是否相等(至少就測量的因變數而言)。

(b)確定是否是治療導致實驗組的變化,而未應用治療時的對照組未觀察到的因變數的變化,或治療導致因變數的變化比沒有治療的變化更大。

這個設計有很多變型。 例如,您可以進行進一步的後續觀察,以便日後可以看到在治療後因變數的任何變化:

RO1XO2O3RO4O5O6

除了控制條件外,您還可以有兩個以上的實驗條件或組。 例如,您可能想要比較兩種不同型別的有氧訓練計劃的效果,或比較強化的訓練計劃與不密集的計劃的效果:

RO1X1O2RO3X2O4RO5O6

此外,前測後測設計通常作為準實驗設計應用,沒有隨機分配條件。 例如,可以通過比較男性和女性,經驗多少d的運動員,或根據某些標準的高分和低分建立小組。 在這種情況下,很明顯,我們就會遇到非對稱的問題。 我們將在下一課中更深入地討論這個問題的後果。

5.後測只控制組設計 The posttest only control group design

在這個設計中,參與者被隨機分配到組,但都沒有得到預先測試:

RXO1RO2

在這裡,我們假設隨機化在預測試中將這些組等同起來。 設計看起來可能比以前更弱,但事實上它有兩個明顯的優勢。 一方面,實施成本更低,耗時更少,因為只有一半資料需要收集。 它還具有設計優勢,我們將在下一課中進行討論。 當然,這個缺點是我們沒有檢查這些組在預測試中因變數是否一樣。

6.所羅門四組設計 The Solomon four group design

這種設計是以前設計的組合:

RO1XO2R