小編按:上一期為大家講了 t 檢驗(yàn)的來龍去脈,今天的內(nèi)容,我們繼續(xù)沿著這個(gè)話題說,為大家介紹 t 檢驗(yàn)這一大家子的成員! 回復(fù)「統(tǒng)計(jì)學(xué)」可查看「說人話的統(tǒng)計(jì)學(xué)」系列合輯 在上一集《想要玩轉(zhuǎn) t 檢驗(yàn)?你得從這一篇看起》里,我們通過藍(lán)精靈吃包子的例子講述了 t 檢驗(yàn)的基本原理,以及它和中心極限定理、正態(tài)分布的關(guān)系。我們還順帶回顧了一下 p 值是怎么來的,而且討論了在 t 檢驗(yàn)中計(jì)算 p 值的原理。 這一集,我們來從實(shí)用的角度,來說一說 t 檢驗(yàn)?zāi)芨尚┦裁词聝海荒芨尚┦裁词聝?/strong>。 讓我們先來回想一下,上一集我們是怎么講到 t 檢驗(yàn)的。 我們的主角藍(lán)精靈疑心食堂賣包子的格格巫偷工減料,包子的重量達(dá)不到食堂規(guī)定的標(biāo)準(zhǔn)(50克)。可是呢,正如格格巫所說,畢竟是手工做的包子,總歸有大有小,單拿出一個(gè)包子發(fā)現(xiàn)份量輕了,也許只是碰巧拿了個(gè)小的。更合理的做法便是,隨機(jī)抽取一定數(shù)量的包子作為樣本,計(jì)算出這若干包子重量的平均值,然后檢驗(yàn)這個(gè)平均值與食堂標(biāo)準(zhǔn)之間差異的顯著性。 為了這個(gè)目的,我們可以根據(jù)樣本算出統(tǒng)計(jì)量: , 其中是樣本平均值,是標(biāo)準(zhǔn)值,S 是樣本標(biāo)準(zhǔn)差,N 是樣本量。 在總體服從正態(tài)分布的前提下,統(tǒng)計(jì)量 t 服從一個(gè)類似于正態(tài)分布的概率分布——t 分布。對(duì)于任意的 t 值,我們可以根據(jù) t 分布的性質(zhì)(我們?cè)谏弦患哪┪蔡岬剑鋵?shí)還與樣本量 N 有關(guān))算出對(duì)應(yīng)的「與樣本相同或更極端」的概率,這就是我們所說的 p 值了。 這個(gè)例子所使用的 t 檢驗(yàn),是將樣本的平均值與某個(gè)特定的標(biāo)準(zhǔn)值相比較,稱為「單樣本 t 檢驗(yàn)」(one sample t test), 是 t 檢驗(yàn)家族里我們介紹的第一個(gè)成員。 在實(shí)際應(yīng)用中,這個(gè)「特定的標(biāo)準(zhǔn)值」往往有兩個(gè)來源。 第一個(gè)來源便是我們上面例子的情形,即某個(gè)人為規(guī)定的、需要達(dá)到的標(biāo)準(zhǔn)。這常常出現(xiàn)在工商業(yè)中的質(zhì)量控制環(huán)節(jié),恰恰也是 t 檢驗(yàn)的發(fā)明者戈塞特的初衷。 第二個(gè)來源則是由大樣本所決定的某些參考值或「正常值」。比如說, 人體的許多生理生化指標(biāo)和人口學(xué)特征都有已知的參考值,這些都是通過常年積累的大量數(shù)據(jù)確定下來的。如果我們想知道一個(gè)特定特殊人群(比如某個(gè)地區(qū)的居民、某個(gè)職業(yè)的從業(yè)者、某種疾病的患者)在某個(gè)特定指標(biāo)上是否與參考值不同,也可以用單樣本 t 檢驗(yàn)。 對(duì)于后面這種用法,嚴(yán)格來說稍微有一點(diǎn)問題,因?yàn)閷?duì)于總體來說,該指標(biāo)并不是必定取到參考值,而是會(huì)圍繞參考值有一定的波動(dòng)范圍。因此,直接對(duì)總體均值進(jìn)行單樣本 t 檢驗(yàn)會(huì)有些過分苛刻,從而使得差別的顯著性略有夸大。 這里我們順便再重溫一下單側(cè)檢驗(yàn)和雙側(cè)檢驗(yàn)的區(qū)別。 在藍(lán)精靈吃包子的例子里,由于藍(lán)精靈根本不認(rèn)為格格巫會(huì)做出平均質(zhì)量大于食堂標(biāo)準(zhǔn)的包子(試求格格巫過往在藍(lán)精靈心目中留下的陰影面積),因此他們只關(guān)心格格巫的包子是否小于食堂標(biāo)準(zhǔn)。在這種情況下,他們的原假設(shè)和備擇假設(shè)是這樣的—— 原假設(shè):格格巫的包子重量大于等于食堂標(biāo)準(zhǔn)。 備擇假設(shè):格格巫的包子重量小于食堂標(biāo)準(zhǔn)。 因?yàn)閭鋼窦僭O(shè)中的差別是單方向的(只有「小于」),我們把這種情況稱為「單側(cè)檢驗(yàn)」。 我們以前曾經(jīng)說過,之所以把要檢驗(yàn)的問題放在備擇假設(shè)里,而把它的對(duì)立面作為原假設(shè),是出于「疑罪從無」的原則,僅當(dāng)數(shù)據(jù)強(qiáng)烈反對(duì)原假設(shè)(也就是 p 值很?。r(shí),才推翻原假設(shè)。 這時(shí)候 p 值怎么算呢? p 值的定義是在原假設(shè)成立的前提下觀察到與數(shù)據(jù)相同或更極端的結(jié)果的概率,由于備擇假設(shè)是單側(cè)的,所以比數(shù)據(jù)更極端的結(jié)果也就是比實(shí)際數(shù)據(jù)更小的樣本均值。在統(tǒng)計(jì)量里,當(dāng)更小時(shí),t 也更小,所以 p 值就是 t 分布下由數(shù)據(jù)所得的 t 值左邊的曲線下的面積了。 那么什么是雙側(cè)檢驗(yàn)呢? 在同樣的例子里,如果藍(lán)精靈對(duì)格格巫并沒有什么壞印象,只是想知道他賣的包子份量和食堂規(guī)定的標(biāo)準(zhǔn)有沒有差別,而不在乎這個(gè)差別是小了還是大了。此時(shí),他們的原假設(shè)和備擇假設(shè)就變成了—— 原假設(shè):格格巫的包子重量等于食堂標(biāo)準(zhǔn)。 備擇假設(shè):格格巫的包子重量不等于食堂標(biāo)準(zhǔn)。 這就是「雙側(cè)檢驗(yàn)」,它與單側(cè)檢驗(yàn)的區(qū)別就在于「比數(shù)據(jù)更極端的結(jié)果」包含的范圍更廣。在雙側(cè)檢驗(yàn)的情況下,更極端的結(jié)果不僅僅是更小的樣本均值,而是與標(biāo)準(zhǔn)值之間更大的差別(無論這個(gè)差別是比標(biāo)準(zhǔn)值小還是大)。 由于 t 分布是對(duì)稱的,因此對(duì)于同樣的樣本而言,雙側(cè)檢驗(yàn)對(duì)應(yīng)的 p 值將會(huì)是單側(cè)檢驗(yàn)的兩倍。 我們?cè)诘谒募?a target="_blank" data_ue_src="http://mp.weixin.qq.com/s?__biz=MzAxMDA4NjU3OA==&mid=208048284&idx=1&sn=ea3e00da596826b6c0b267bca46e4306&scene=21#wechat_redirect" style="font-size: 16px; text-decoration: underline; color: rgb(88, 123, 170);">《提高統(tǒng)計(jì)功效,讓評(píng)審心服口服!》中講過,使用單側(cè)還是雙側(cè)檢驗(yàn),這個(gè)決定必須在看到數(shù)據(jù)之前做出,絕不能分析完數(shù)據(jù)以后回過頭來改用單側(cè)。如果在閱讀文獻(xiàn)時(shí)遇到使用單側(cè)檢驗(yàn)的情形,一定別忘了問問自己,作者是否有充分的理由不考慮另一個(gè)方向的效應(yīng),抑或只是人為地提高顯著性。 讀過「說人話的統(tǒng)計(jì)學(xué)」的你,可不該被這樣的小把戲騙到啦! 為了說明 t 檢驗(yàn)的另外一種使用方式,讓我們來開一開腦洞。 假設(shè)格格巫賣的包子是藍(lán)精靈們唯一的食物來源,而且每天藍(lán)精靈食用的包子個(gè)數(shù)是恒定不變的(喂喂喂,藍(lán)精靈怎么聽起來這么可憐)。為了控訴格格巫這段時(shí)間以來偷工減料給他們帶來的身心摧殘,藍(lán)精靈決定拿出新的證據(jù):最近兩個(gè)月以來他們的平均體重減輕了。 他們需要怎樣的數(shù)據(jù)呢? 很簡(jiǎn)單,隨機(jī)抽取若干個(gè)藍(lán)精靈,獲得他們兩個(gè)月以前和現(xiàn)在的體重測(cè)量數(shù)據(jù),然后比較兩個(gè)平均值的差別就行了。 很顯然,之前介紹的單樣本 t 檢驗(yàn)就不再適用了,因?yàn)槲覀兪且?/span>比較兩個(gè)平均值的差別,而不是一個(gè)平均值和已知標(biāo)準(zhǔn)值的差別。這時(shí),我們要使用的統(tǒng)計(jì)檢驗(yàn)被稱作「成對(duì)樣本的t檢驗(yàn)」(paired samples t test)。 但是注意,這里兩個(gè)樣本中的每個(gè)數(shù)據(jù)點(diǎn)都是一一對(duì)應(yīng)的:對(duì)于我們抽取的那幾個(gè)藍(lán)精靈,都為兩個(gè)月前體重的樣本和當(dāng)前體重的樣本各貢獻(xiàn)了一個(gè)數(shù)據(jù)點(diǎn)。 既然如此,我們可以把每個(gè)藍(lán)精靈當(dāng)前的體重減去兩個(gè)月前的體重,于是兩個(gè)樣本就變成了一個(gè)體重變化量的樣本。既然變成了一個(gè)樣本,我們是不是可以用單樣本t檢驗(yàn)?zāi)兀?/span> 回到藍(lán)精靈試圖驗(yàn)證的問題:他們的平均體重是否減輕了。因此,此時(shí)的標(biāo)準(zhǔn)值應(yīng)該對(duì)應(yīng)沒有體重變化的情況,也就是 0。也就是說,成對(duì)樣本的 t 檢驗(yàn)實(shí)際上就是對(duì)前后變化量作標(biāo)準(zhǔn)值為 0 的單樣本t檢驗(yàn)。 在許多統(tǒng)計(jì)學(xué)軟件中,單樣本 t 檢驗(yàn)和成對(duì)樣本 t 檢驗(yàn)會(huì)被分為兩個(gè)獨(dú)立的選項(xiàng)。感興趣的讀者不妨自己找兩列數(shù)據(jù)驗(yàn)證一下,先對(duì)兩個(gè)成對(duì)樣本進(jìn)行 t 檢驗(yàn),再計(jì)算出變化量進(jìn)行單樣本t檢驗(yàn),得到的結(jié)果將是完全一樣的。 成對(duì)樣本的 t 檢驗(yàn)最常見于同一組實(shí)驗(yàn)對(duì)象兩個(gè)時(shí)間點(diǎn)(比如說干預(yù)前后)之間的比較。 除此以外,還有一種情形,就是兩組實(shí)驗(yàn)對(duì)象雖然是不同的個(gè)體,但是存在其它的一些關(guān)聯(lián),使得兩組中的個(gè)體能夠一一對(duì)應(yīng)起來。例如,我們想了解人群中某稀有致病突變攜帶者的一項(xiàng)血液學(xué)指標(biāo)和健康人有何差別。我們可以在測(cè)量了我們所能找到的該突變攜帶者的該項(xiàng)指標(biāo)以后,在健康人群中尋找在種族、年齡、性別、病史等等其它因素與每個(gè)攜帶者都盡量相似的受試者。這樣,我們?nèi)匀挥辛藘蓚€(gè)「成對(duì)」的樣本,因此也可以使用成對(duì)樣本的t檢驗(yàn)。 為了對(duì)格格巫進(jìn)一步宣戰(zhàn),藍(lán)精靈們?cè)僖淮闻鲱^,想出了一個(gè)新點(diǎn)子。他們決定走訪兩條街以外黃精靈的食堂,買來一堆包子稱稱重量,看看是不是比格格巫的包子更大一些。這時(shí)候他們又該用什么檢驗(yàn)?zāi)兀?/span> 很顯然,此時(shí)兩個(gè)樣本很難有什么直接的一一對(duì)應(yīng)關(guān)系了(甚至樣本量都可能不一樣),成對(duì)樣本的 t 檢驗(yàn)在這里并不適用。 這時(shí),我們需要認(rèn)識(shí)t檢驗(yàn)家族的第三名成員——「獨(dú)立樣本的 t 檢驗(yàn)」(independentsamples t test)。顧名思義,它用于比較來自兩個(gè)獨(dú)立的樣本的均值。 回想一下,在單樣本 t 檢驗(yàn)中我們指出,這個(gè)檢驗(yàn)之所以被為 t 檢驗(yàn),是因?yàn)槲覀兺ㄟ^樣本的數(shù)據(jù)構(gòu)建出了一個(gè)服從 t 分布的統(tǒng)計(jì)量。 而對(duì)于獨(dú)立樣本的 t 檢驗(yàn)來說,我們?nèi)匀皇窃跇?gòu)造統(tǒng)計(jì)量 t,但由于我們比較的是兩個(gè)均值,它的分子就變成了(下標(biāo) 1 和 2 分別表示兩個(gè)樣本)。 那么分母呢? 在單樣本t檢驗(yàn)里,我們以樣本均值的標(biāo)準(zhǔn)差作為總體均值標(biāo)準(zhǔn)差的一個(gè)估計(jì),來衡量均值與參考值的差別到底有多大。在獨(dú)立樣本的 t 檢驗(yàn)里,我們同樣在做類似的事情,但因?yàn)樯婕暗絻蓚€(gè)樣本,具體說起來會(huì)有些啰嗦,我們就不深入展開了。 但是,有一個(gè)技術(shù)性問題需要注意。 由于我們是在比較兩個(gè)樣本,而這兩個(gè)樣本可能來源于兩個(gè)不同的分布,因此在確定 t 統(tǒng)計(jì)量的分母時(shí),我們需要考慮兩個(gè)樣本所來自的分布是否有相同的發(fā)散程度(即方差)。因此,在我們使用獨(dú)立樣本的 t 檢驗(yàn)之前,需要先進(jìn)行另外一個(gè)檢驗(yàn),查看兩個(gè)樣本各自來自的分布方差是否相等,進(jìn)而對(duì) t 統(tǒng)計(jì)量以及有效的樣本量(稱為「自由度」)進(jìn)行不同的處理或修正。 所以,t 檢驗(yàn)家族的這位成員實(shí)際上是對(duì)雙胞胎,一是方差相等的獨(dú)立樣本的 t 檢驗(yàn),二是方差不相等的獨(dú)立樣本的 t 檢驗(yàn)。 對(duì)于兩個(gè)樣本的方差是否相等,一個(gè)常用的檢驗(yàn)是Levene 氏檢驗(yàn) (Levene’s test)。這個(gè)檢驗(yàn)的原假設(shè)是兩個(gè)分布方差相等。與所有其它檢驗(yàn)一樣,它會(huì)給我們一個(gè) p 值。當(dāng) p 值大于 0.05 時(shí),我們就不能拒絕原假設(shè),即認(rèn)為兩分布方差相等;反之則認(rèn)為兩分布方差不相等。 在不少統(tǒng)計(jì)學(xué)軟件中,Levene 氏檢驗(yàn)已經(jīng)默認(rèn)稱為獨(dú)立樣本 t 檢驗(yàn)的一個(gè)步驟。例如在 SPSS 里,當(dāng)我們使用獨(dú)立樣本 t 檢驗(yàn)時(shí),它會(huì)自動(dòng)給出 Levene 氏檢驗(yàn)的結(jié)果,并同時(shí)輸出方差相等和不相等的結(jié)果,我們只需根據(jù) Levene 氏檢驗(yàn)讀取合適的部分即可。 認(rèn)識(shí)了 t 檢驗(yàn)的一家子,我們知道,它們的作用是對(duì)樣本的均值進(jìn)行統(tǒng)計(jì)推斷。但是,與了解它們能做什么同樣重要的是,了解它們不能做什么。 第一,t 檢驗(yàn)不能用于非連續(xù)變量的比較。 我們?cè)?a target="_blank" data_ue_src="http://mp.weixin.qq.com/s?__biz=MzAxMDA4NjU3OA==&mid=400430409&idx=1&sn=03b30d4122d177650543f50649195ebd&scene=21#wechat_redirect" style="font-size: 16px; text-decoration: underline; color: rgb(171, 25, 66);">《數(shù)據(jù)到手了,第一件事先干啥?》里說過,數(shù)據(jù)可以分為離散型變量和連續(xù)型變量兩類。對(duì)于離散型變量(如性別、種族、籍貫)等,本身就并非數(shù)值,自然沒有均值可言。 然而,很多時(shí)候,我們?cè)跀?shù)據(jù)文件中會(huì)用數(shù)字給它們編碼(比如 1 和 2 分別表示女性和男性),這時(shí)如果我們?cè)诮y(tǒng)計(jì)學(xué)軟件中執(zhí)行 t 檢驗(yàn),仍然可以算出結(jié)果(因?yàn)橛辛司唧w數(shù)值就可以套進(jìn) t 統(tǒng)計(jì)量的公式,進(jìn)而得到 p 值),但這樣的結(jié)果是沒有意義的。對(duì)于離散型變量的組間比較,我們以后將會(huì)具體介紹。 第二,t 檢驗(yàn)不能用于超過兩組變量之間均值的比較。 我們知道,t 檢驗(yàn)可以用在單個(gè)或兩個(gè)樣本的均值上,那如果不止兩個(gè)樣本呢? 答案是否定的。 為什么不能兩兩比較然后得出某種統(tǒng)一的結(jié)論呢?我們這里先賣個(gè)關(guān)子,幾集以后我們講到方差分析(analysisof variance,ANOVA)時(shí)再來詳細(xì)討論。 第三,即便是連續(xù)型變量,如果不服從正態(tài)分布,也不能用 t 檢驗(yàn)。 這是許多統(tǒng)計(jì)學(xué)使用者容易犯的一個(gè)錯(cuò)誤。之所以對(duì)數(shù)據(jù)的正態(tài)性有要求,是因?yàn)?/span>我們此前的所有結(jié)論都是由「數(shù)據(jù)服從正態(tài)分布」這個(gè)假設(shè)導(dǎo)出的。如果數(shù)據(jù)不服從正態(tài)分布,那么 t 統(tǒng)計(jì)量也就不再服從 t 分布,我們(或統(tǒng)計(jì)學(xué)軟件)根據(jù) t 分布給出的 p 值也就不再準(zhǔn)確,我們以此做出的推斷也就不可靠了。 既然如此,我們應(yīng)該如何判斷數(shù)據(jù)是否服從正態(tài)分布呢?欲知后事如何,請(qǐng)聽下回分解。 回復(fù)「統(tǒng)計(jì)學(xué)」可查看「說人話的統(tǒng)計(jì)學(xué)」系列合輯, 或點(diǎn)擊下方標(biāo)題可閱讀本系列全部文章 做統(tǒng)計(jì),多少數(shù)據(jù)才算夠?(上) 做統(tǒng)計(jì),多少數(shù)據(jù)才算夠?(下) 提升統(tǒng)計(jì)功效,讓評(píng)審心服口服! 見識(shí)數(shù)據(jù)分析的「獨(dú)孤九劍」 統(tǒng)計(jì)學(xué)的十個(gè)誤區(qū),你答對(duì)了嗎? 說人話的統(tǒng)計(jì)學(xué):一份遲來的邀請(qǐng) 作者:張之昊 編輯:異葉青蘭
|
|