一、問(wèn)題與數(shù)據(jù)
研究者想驗(yàn)證一種新型運(yùn)動(dòng)飲料配方是否有助于提高人們的跑步距離。傳統(tǒng)飲料配方為純碳水化合物,而新型飲料為碳水化合物-蛋白質(zhì)混合物。
為了比較兩種運(yùn)動(dòng)飲料對(duì)人們跑步距離的影響差異,研究者招募了20名受試者,每人進(jìn)行2項(xiàng)實(shí)驗(yàn),每項(xiàng)實(shí)驗(yàn)受試者均在跑步機(jī)上運(yùn)動(dòng)2小時(shí)。2項(xiàng)試驗(yàn)中,同意受試者跑步前分別喝含純碳水化合物和碳水化合物-蛋白質(zhì)混合飲料。同時(shí),均衡所有受試者進(jìn)行2項(xiàng)試驗(yàn)的先后順序,使一半人先喝純碳水化合物,另一半人先喝碳水化合物-蛋白質(zhì)混合飲料,分別記錄其跑步距離。
碳水化合物飲料組的跑步距離記為carb變量,碳水化合物-蛋白質(zhì)飲料組的跑步距離記為carb_protein變量。研究者想知道,是否2組的跑步距離有差異,即2種運(yùn)動(dòng)飲料對(duì)人們跑步距離的影響不同。從變量層面上,也就是看是否carb變量和carb_protein變量的均數(shù)存在差異(部分?jǐn)?shù)據(jù)如下圖)。
二、對(duì)問(wèn)題分析
研究者想探索是否2個(gè)相關(guān)(配對(duì))組別間的因變量均數(shù)存在差異,可以使用配對(duì)樣本t檢驗(yàn)。使用配對(duì)樣本t檢驗(yàn)時(shí),需要考慮4個(gè)假設(shè):
- 假設(shè)1:因變量為連續(xù)變量;
- 假設(shè)2:自變量包含2個(gè)分類、且相關(guān)(配對(duì))非獨(dú)立的組別;
- 假設(shè)3:2個(gè)相關(guān)(配對(duì))組別間的因變量差值沒(méi)有明顯異常值;
- 假設(shè)4:2個(gè)相關(guān)(配對(duì))組別間的因變量差值近似服從正態(tài)分布。
那么進(jìn)行配對(duì)樣本t檢驗(yàn)時(shí),如何考慮和處理這4個(gè)假設(shè)呢?

三、假設(shè)判斷
假設(shè)1:因變量為連續(xù)變量;假設(shè)2:自變量包含2個(gè)分類、且相關(guān)(配對(duì))非獨(dú)立的組別和研究設(shè)計(jì)有關(guān),需要根據(jù)實(shí)際情況進(jìn)行判斷。
假設(shè)3:2個(gè)相關(guān)(配對(duì))組別間的因變量差值沒(méi)有明顯異常值,對(duì)于配對(duì)樣本t檢驗(yàn),異常值和正態(tài)性的假設(shè)檢驗(yàn)都是基于2組間配對(duì)數(shù)值的差值進(jìn)行的,因此,我們首先需要計(jì)算2組因變量的差值,并把它作為一個(gè)新變量?jī)?chǔ)存,變量名為difference,具體操作如下:
1.在主菜單欄中點(diǎn)擊Transform > Compute Variable...:

出現(xiàn)Compute Variable對(duì)話框:

2.在Target Variable:模塊中輸入difference,即為新創(chuàng)建的變量名;在Numeric Expression:模塊中輸入carb_protein – carb,即為2個(gè)配對(duì)組別間的因變量差值(也可以直接從左側(cè)中部變量框中挑選變量進(jìn)入Numeric Expression:模塊,并選擇中間的運(yùn)算符號(hào)和數(shù)字進(jìn)行運(yùn)算):

本例為用carb_protein變量值減去carb變量值,此順序與研究設(shè)計(jì)和研究目的有關(guān),通常用實(shí)驗(yàn)組的數(shù)值減去對(duì)照組的數(shù)值。本例關(guān)心的是新型運(yùn)動(dòng)飲料相比于傳統(tǒng)運(yùn)動(dòng)飲料,是否可以提高跑步距離,因此傳統(tǒng)碳水化合物飲料組應(yīng)該作為對(duì)照組。如果2組差值為正數(shù),則可以反映新型飲料有助于提高人們的跑步距離。
3.點(diǎn)擊OK,返回Data View窗口,即可見(jiàn)到新變量difference:

如果差值中的某些取值和其他值相比特別大或者特別小,則稱之為異常值。異常值會(huì)影響差值組的均數(shù)和標(biāo)準(zhǔn)差,因此可能會(huì)對(duì)最終的統(tǒng)計(jì)結(jié)果產(chǎn)生很大的負(fù)面影響。對(duì)于小樣本研究,異常值的影響尤其顯著,必須檢查差值組中是否存在明顯異常值
以下操作將說(shuō)明如何在SPSS軟件中利用Explore...程序檢查異常值,以及檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布
1.在主菜單欄中點(diǎn)擊Analyze > Descriptive Statistics > Explore

出現(xiàn)Explore對(duì)話框:

2.把變量difference送入Dependent List模塊中:

3.點(diǎn)擊Plots...,出現(xiàn)Explore: Plots對(duì)話框:

4.在Boxplots模塊內(nèi)保留系統(tǒng)默認(rèn)選項(xiàng)Factor levels together,在Descriptive模塊內(nèi)取消選擇Stem-and-leaf,在下方勾選Normality plots with tests:

5.點(diǎn)擊Continue,返回Explore對(duì)話框;
6.在Display模塊內(nèi)點(diǎn)擊Plots:

如果使用偏度和峰度(skewness and kurtosis)進(jìn)行正態(tài)性判斷,則保留Display模塊內(nèi)的默認(rèn)選項(xiàng)Both或者選擇Statistics。
7.點(diǎn)擊OK,輸出結(jié)果。
根據(jù)如下輸出的箱線圖,判斷數(shù)據(jù)中是否存在異常值:

SPSS中將距離箱子邊緣超過(guò)1.5倍箱身長(zhǎng)度的數(shù)據(jù)點(diǎn)定義為異常值,以圓點(diǎn)(°)表示;距離箱子邊緣超過(guò)3倍箱身長(zhǎng)度的數(shù)據(jù)點(diǎn)定義為極端值(極端異常值),以星號(hào)(*)表示。為容易識(shí)別,異常值均用其在Data View窗口的行數(shù)標(biāo)出。
本例中,第1行(差值特別?。┖偷?4行(差值特別大)的差值均為異常值,但是由于它們并非極端異常值,不會(huì)對(duì)2組均數(shù)差異產(chǎn)生過(guò)大影響,因此我們?cè)诮酉聛?lái)的分析中仍將其保留。
導(dǎo)致數(shù)據(jù)中存在異常值的原因通常有3種:
1.數(shù)據(jù)錄入錯(cuò)誤:首先應(yīng)該考慮異常值是否由于數(shù)據(jù)錄入錯(cuò)誤所致。如果是,用正確值進(jìn)行替換,并重新計(jì)算差值、重新進(jìn)行所有檢驗(yàn);
2.測(cè)量誤差:如果不是由于數(shù)據(jù)錄入錯(cuò)誤,接下來(lái)考慮是否因?yàn)闇y(cè)量誤差導(dǎo)致(如儀器故障或超過(guò)量程)。通常情況下,大多數(shù)的測(cè)量誤差是不可校正的;
3.真實(shí)的異常值:如果以上兩種原因都不是,那最有可能源于真實(shí)的異常數(shù)據(jù)。這類異常值不好處理,但也沒(méi)有理由將其當(dāng)作無(wú)效值對(duì)待。目前它的處理方法比較有爭(zhēng)議,尚沒(méi)有一種特別推薦的方法。接下來(lái),我們列舉幾種異常值的處理方法,供讀者參考。
異常值的處理方法通常有2種:
- 保留異常值:
(1)采用非參數(shù)Wilcoxon符號(hào)秩檢驗(yàn)或符號(hào)檢驗(yàn);
(2)用非最極端的值(如第二大的值)來(lái)代替極端異常值;
(3)轉(zhuǎn)換變量形式;
(4)將異常值納入分析,并認(rèn)為其對(duì)結(jié)果不會(huì)產(chǎn)生實(shí)質(zhì)影響(比較有、無(wú)異常值的配對(duì)樣本t檢驗(yàn)結(jié)果)。
- 保留異常值:
- 剔除異常值:
我們也可以直接剔除異常值進(jìn)行分析,但是需要提供所剔除異常點(diǎn)的信息,以便讀者了解剔除的原因及其會(huì)對(duì)結(jié)果產(chǎn)生怎樣的影響。
- 剔除異常值:
正態(tài)性檢驗(yàn)有很多方法,這里介紹最常用的2種方法:Shapiro-Wilk正態(tài)性檢驗(yàn)和正態(tài)Q-Q圖(其他還有偏度、峰度和直方圖等)。
在假設(shè)3的判斷中,我們?cè)贓xplore: Plots對(duì)話框中勾選了Normality plots with tests,輸出結(jié)果中會(huì)給出正態(tài)性檢驗(yàn)的結(jié)果。
-
1.如果樣本量較小(<50),或者研究者對(duì)正態(tài)Q-Q圖以及其他圖形方法的結(jié)果詮釋不夠有把握,推薦采用Shapiro-Wilk正態(tài)性檢驗(yàn)。本例的Shapiro-Wilk檢驗(yàn)結(jié)果如下:
如果數(shù)據(jù)服從正態(tài)分布,顯著性水平(Sig.,即P值)應(yīng)該≥0.05;反之,P會(huì)<0.05。Shapiro-Wilk檢驗(yàn)的無(wú)效假設(shè)是數(shù)據(jù)服從正態(tài)分布,備擇假設(shè)是數(shù)據(jù)不服從正態(tài)分布。因此,如果拒絕無(wú)效假設(shè)(P<0.05),表示數(shù)據(jù)不服從正態(tài)分布;如果不能拒絕無(wú)效假設(shè),則不能認(rèn)為數(shù)據(jù)不服從正態(tài)分布。本例中P=0.780,因此不能認(rèn)為2組差值不服從正態(tài)分布。
如果樣本量大于50,推薦使用正態(tài)Q-Q圖等圖形方法進(jìn)行正態(tài)判斷。因?yàn)楫?dāng)樣本量較大時(shí),Shapiro-Wilk檢驗(yàn)會(huì)把稍稍偏離正態(tài)分布的數(shù)據(jù)也判斷為有統(tǒng)計(jì)學(xué)差異,即認(rèn)為數(shù)據(jù)不服從正態(tài)分布。
- 正態(tài)Q-Q圖
對(duì)正態(tài)Q-Q圖的直接觀察可以更好地了解數(shù)據(jù)是否服從正態(tài)分布,但是不推薦對(duì)小樣本數(shù)據(jù)采用Q-Q圖進(jìn)行正態(tài)性判斷。本例差值的正態(tài)Q-Q圖如下:

如果正態(tài)Q-Q圖中的數(shù)值大致靠近圖中的斜線分布,則可以認(rèn)為服從正態(tài)分布;如果數(shù)值點(diǎn)并不是很好地沿著斜線分布,或者呈現(xiàn)不同的分布模式,則數(shù)據(jù)不服從正態(tài)分布。本例中差值的數(shù)據(jù)點(diǎn)大致沿著Q-Q圖的斜線分布,可以認(rèn)為2組的差值服從正態(tài)分布。
如果數(shù)據(jù)不服從正態(tài)分布,有如下4種方法進(jìn)行處理:
1.數(shù)據(jù)轉(zhuǎn)換:對(duì)轉(zhuǎn)換后呈正態(tài)分布的數(shù)據(jù)進(jìn)行配對(duì)樣本t檢驗(yàn),而且要對(duì)轉(zhuǎn)換后的數(shù)據(jù)重新進(jìn)行各種檢驗(yàn)。對(duì)于一些常見(jiàn)的分布,有特定的轉(zhuǎn)換形式,但是對(duì)于轉(zhuǎn)換后數(shù)據(jù)的結(jié)果解釋可能比較復(fù)雜;
2.使用非參數(shù)檢驗(yàn):可以使用Wilcoxon符號(hào)秩檢驗(yàn)或符號(hào)檢驗(yàn)等非參數(shù)檢驗(yàn)方法;
3.直接進(jìn)行分析:配對(duì)樣本t檢驗(yàn)對(duì)于稍偏離正態(tài)分布的數(shù)據(jù)比較穩(wěn)健,而且非正態(tài)分布實(shí)質(zhì)上并不影響犯I型錯(cuò)誤的概率。因此可以直接進(jìn)行檢驗(yàn),但是結(jié)果中仍需報(bào)告對(duì)正態(tài)分布的偏離程度。
4.檢驗(yàn)結(jié)果的比較:將轉(zhuǎn)換后和未轉(zhuǎn)換的原始數(shù)據(jù)分別進(jìn)行配對(duì)樣本t檢驗(yàn),并比較兩者的結(jié)果;如果結(jié)論相同,則選擇未轉(zhuǎn)換的原始數(shù)據(jù)進(jìn)行分析。
四、SPSS操作
1.在主菜單欄中點(diǎn)擊Analyze > Compare Means > Paired-Samples T Test...

出現(xiàn)Paired-Samples T Test對(duì)話框:

2.把變量carb和carb_protein送入Paired Variables:模塊中(可以先后送入,也可以先選擇一個(gè)變量后,按住shift鍵,再選擇另一個(gè)變量同時(shí)送入):

SPSS軟件中配對(duì)樣本t檢驗(yàn)的差值是用Variable1減去Variable2,此步驟即用carb變量值減去carb_protein變量值。但是,我們之前提過(guò),這里最好用carb_protein減去carb。
3.點(diǎn)擊Paired Variables:模塊中的黃色區(qū)域,激活右下部“雙向箭頭”按鈕并點(diǎn)擊,將會(huì)把carb變量和carb_protein變量的位置互換:

4.點(diǎn)擊Option…,出現(xiàn)Paired-Samples T Test: Options對(duì)話框:

保留系統(tǒng)默認(rèn)的置信區(qū)間(95%)和缺失值選項(xiàng)(Exclude cases analysis by analysis)。
當(dāng)我們只需要進(jìn)行1次配對(duì)樣本t檢驗(yàn)時(shí)(如本例),在Missing Values模塊中選擇Exclude cases analysis by analysis或者Exclude cases listwise時(shí),結(jié)果是一致的。
當(dāng)我們的數(shù)據(jù)中要進(jìn)行多次配對(duì)樣本t檢驗(yàn)時(shí),Exclude cases analysis by analysis選項(xiàng)會(huì)分別剔除每次配對(duì)樣本t檢驗(yàn)的缺失值。比如下面的數(shù)據(jù),SPSS軟件將對(duì)19對(duì)的carb和carb_protein變量值進(jìn)行配對(duì)樣本t檢驗(yàn),排除第4行缺失的數(shù)據(jù)(橘色);而對(duì)glucose_c和glucose_cp變量的18對(duì)配對(duì)值進(jìn)行配對(duì)樣本t檢驗(yàn),排除第8行和第10行缺失的數(shù)據(jù)(紅色)。

Exclude cases analysis by analysis選項(xiàng)1次檢驗(yàn)中的缺失值并不影響其他檢驗(yàn),這樣會(huì)使每次分析配對(duì)數(shù)量最大化,但是也會(huì)導(dǎo)致每次配對(duì)樣本t檢驗(yàn)的樣本量有差異。而Exclude cases listwise選項(xiàng)會(huì)使用所有分析、檢驗(yàn)中無(wú)缺失值的樣本,這樣雖然會(huì)導(dǎo)致樣本量的大幅下降,但也會(huì)保證所有分析的樣本量一致。
比如上面的數(shù)據(jù),在進(jìn)行2次配對(duì)樣本t檢驗(yàn)時(shí),SPSS軟件就會(huì)剔除掉所有的缺失數(shù)據(jù)(第4、8、10行,紅色),最后僅對(duì)17個(gè)樣本進(jìn)行所有的檢驗(yàn):

5.點(diǎn)擊Continue,返回Paired-Samples T Test對(duì)話框;
6.點(diǎn)擊OK,輸出結(jié)果。
五、結(jié)果解釋
- 基本描述
Paired Samples Statistics表格給出了數(shù)據(jù)的部分描述性統(tǒng)計(jì)結(jié)果:

各列變量名和含義對(duì)應(yīng)如下:

本例中,受試者飲用碳水化合物-蛋白質(zhì)混合飲料的平均跑步距離為11.3023 km,多于飲用純碳水化合物飲料的平均跑步距離11.1668 km,而后者的變異程度(標(biāo)準(zhǔn)差)(0.72608 km)要高于前者(0.71368 km)。我們?cè)谧罱K匯報(bào)描述性結(jié)果時(shí)應(yīng)該報(bào)告平均數(shù)和標(biāo)準(zhǔn)差,而不是均數(shù)的標(biāo)準(zhǔn)誤,同時(shí)要注意小數(shù)點(diǎn)位數(shù)的統(tǒng)一,比如都保留3位小數(shù)。
- 配對(duì)樣本t檢驗(yàn)——差值結(jié)果
Paired Samples Test表格給出了2組均數(shù)的差值(carb_protein變量減去carb變量),以及差值的變異程度指標(biāo):

本例中,2組配對(duì)試驗(yàn)的均數(shù)差值為0.13550 km,標(biāo)準(zhǔn)差為0.09539 km,標(biāo)準(zhǔn)誤為0.02133 km,差值的95%置信區(qū)間(95% CI)為0.09085-0.18015。由于我們之前調(diào)整過(guò)carb和carb_protein變量的順序,此時(shí)差值為正數(shù)表示carb_protein組的平均跑步距離大于carb組。
3.配對(duì)樣本t檢驗(yàn)——檢驗(yàn)結(jié)果
配對(duì)樣本t檢驗(yàn)的檢驗(yàn)結(jié)果見(jiàn)Paired Samples Test表格的最右側(cè)3列:

從左到右分別為配對(duì)樣本t檢驗(yàn)的t值(t)、自由度(df)和p值(Sig. (2-tailed))。如果P<0.05,表示2個(gè)相關(guān)(配對(duì))組別的均數(shù)差異具有統(tǒng)計(jì)學(xué)意義;反之,表示2個(gè)相關(guān)(配對(duì))組別的均數(shù)差異無(wú)統(tǒng)計(jì)學(xué)意義。
本例中,P=.000,表示P<0.001,carb組和carb_protein組的均數(shù)差異具有統(tǒng)計(jì)學(xué)意義。還有另一種說(shuō)法是總體人群中carb組和carb_protein組的跑步距離的差異不等于0。
均數(shù)差值的95%CI和p值之間有一定的對(duì)應(yīng)關(guān)系。如果95%CI內(nèi)不包含0,則<em>P</em><0.05;如果95%CI內(nèi)包含0,則P≥0.05。本例中,差值的95%CI為0.09085-0.18015,不包含0,因此2組差異具有統(tǒng)計(jì)學(xué)意義(P<0.05)。
4.配對(duì)樣本t檢驗(yàn)——計(jì)算效應(yīng)值
現(xiàn)在一些雜志要求匯報(bào)統(tǒng)計(jì)學(xué)顯著性水平的同時(shí),還要求匯報(bào)效應(yīng)值的大小。對(duì)于配對(duì)樣本t檢驗(yàn),效應(yīng)值(用d或Cohen’ d表示)等于均數(shù)差值(M)除以差值的標(biāo)準(zhǔn)差(SD):

M和SD在Paired Samples Test</strong>表格中已經(jīng)給出,M=Mean,SD=Std. Deviation。本例的效應(yīng)值大小d為:

效應(yīng)值是衡量研究結(jié)果實(shí)際意義的指標(biāo),Cohen’ d大小的強(qiáng)度分級(jí)標(biāo)準(zhǔn)如下:

本例中效應(yīng)值d=1.42,強(qiáng)度大。但是,效應(yīng)值的缺點(diǎn)是其實(shí)際意義局限于特定研究對(duì)象,而且目前還沒(méi)有完整規(guī)范的指南來(lái)闡述效應(yīng)值強(qiáng)度的意義。關(guān)于效應(yīng)值的計(jì)算方法有很多種,應(yīng)結(jié)合我們的研究設(shè)計(jì)和研究類型進(jìn)行適當(dāng)選擇
六、撰寫結(jié)論
總的來(lái)說(shuō),我們可以按照如下方式完整地報(bào)告結(jié)果:
數(shù)據(jù)以均數(shù)±標(biāo)準(zhǔn)差的形式表示。在跑步距離上,受試者飲用碳水化合物-蛋白質(zhì)混合飲料(11.302 ± 0.714 km)比飲用純碳水化合物飲料(11.167 ± 0.726 km)的跑步距離增加了0.136 km(95% CI:0.091-0.180 km),差異具有統(tǒng)計(jì)學(xué)意義,t(19)=6.352,P<0.001,d=1.42。
如果再增加假設(shè)檢驗(yàn)的內(nèi)容,可以這樣報(bào)告結(jié)果:
利用配對(duì)樣本t檢驗(yàn)來(lái)判斷,受試者飲用碳水化合物-蛋白質(zhì)混合飲料相比于飲用純碳水化合物飲料的跑步距離差異是否有統(tǒng)計(jì)學(xué)意義。數(shù)據(jù)以均數(shù)±標(biāo)準(zhǔn)差的形式表示。
利用箱線圖,發(fā)現(xiàn)了2個(gè)距離箱子邊緣超過(guò)1.5倍箱身長(zhǎng)度的異常值,但是由于這2個(gè)異常點(diǎn)的數(shù)值并非極端異常值,所以仍在后續(xù)分析中保留它們。經(jīng)Shapiro-Wilk檢驗(yàn),2組差值的數(shù)據(jù)服從正態(tài)分布(P=0.780)。
在跑步距離上,受試者飲用碳水化合物-蛋白質(zhì)混合飲料(11.302 ± 0.714 km)比飲用純碳水化合物飲料(11.167 ± 0.726 km)的跑步距離增加了0.136 km(95% CI:0.091-0.180 km),差異具有統(tǒng)計(jì)學(xué)意義,t(19) = 6.352,P<0.001,d=1.42。
從無(wú)效假設(shè)和備擇假設(shè)的角度出發(fā),也可以這樣報(bào)告結(jié)果:
飲用碳水化合物-蛋白質(zhì)混合飲料和飲用純碳水化合物飲料2組跑步距離的均數(shù)差值與0相比,差異具有統(tǒng)計(jì)學(xué)意義。因此,我們可以拒絕無(wú)效假設(shè),接受備擇假設(shè),認(rèn)為飲用碳水化合物-蛋白質(zhì)混合飲料相比于飲用純碳水化合物飲料有助于提高人們的跑步距離。
最后,我們可以用帶有95% CI(error bar)的簡(jiǎn)單條形圖來(lái)更加直觀地呈現(xiàn)配對(duì)樣本t檢驗(yàn)的結(jié)果,感興趣的讀者可以自行繪制。
七.原始數(shù)據(jù)下載
作者:解琪琪
鏈接:http://m.itdecent.cn/u/bcb81276c29d
來(lái)源:簡(jiǎn)書
參考學(xué)習(xí)資源:怎么判別我的數(shù)據(jù)中存在特異值?教你幾招!
SPSS教程:判斷數(shù)據(jù)正態(tài)分布的超多方法!
簡(jiǎn)書著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處。
