小編按:t檢驗(yàn)是醫(yī)學(xué)統(tǒng)計(jì)學(xué)中的一項(xiàng)重要方法了,但要問起有多了解,可能你要小小地?fù)u頭啦。今天我們「說人話的統(tǒng)計(jì)學(xué)」系列,開始給大家講講這個問題。小編要自豪宣布的是,今天的內(nèi)容,是由我們的老熟人張之昊師兄,力邀哈佛大學(xué)醫(yī)學(xué)院的田菊師姐寫的。小編覺得咱們的陣容要豪華地突破天際啦! 回復(fù)「統(tǒng)計(jì)學(xué)」可查看「說人話的統(tǒng)計(jì)學(xué)」系列合輯 ? 相信大家都還記得,我們在前兩集里費(fèi)了老勁,把中心極限定理梳理了個大概。你也許一面云里霧里一面心里嘀咕:講這么些個有的沒的,有什么卵用? 今天我們就來從最初級、但又是用得最多的統(tǒng)計(jì)學(xué)檢驗(yàn)—— t 檢驗(yàn)來講起,看看咱們之前花的功夫到底有沒有白費(fèi)。 動筆一想,咱們好像好久沒講過故事啦!今天就讓我們再次請出久違的藍(lán)精靈和格格巫—— 某天藍(lán)精靈們正在食堂吃早飯,吃著吃著,笨笨突然說: 「大家最近有沒有覺得食堂的包子比以前小了?」 其它藍(lán)精靈紛紛表示有同感,回想起來,最近天天早上沒到十一點(diǎn)肚子就開始咕咕了。于是群情激昂的大家一起來到包子窗口質(zhì)問格格巫: 「最近包子是不是做得比從前小了?」 格格巫一口否認(rèn),悠悠說道:「你們?。oo simple, sometimes na?ve!! 手工做的包子,當(dāng)然有大有小,但是包子的平均大小我可是一直按照食堂標(biāo)準(zhǔn)來的啊。我告訴你們,我是身經(jīng)百戰(zhàn)的,見得多啦,你們的哪一個師兄師姐沒吃過我的包子。你們的院長,比你們不知高到哪里去了,我跟他天天坐在這兒,一人手上倆包子談笑風(fēng)生。你們也要努力提高自己知識水平,不要總想搞個大新聞,識得唔識得?。??」 藍(lán)精靈們一時(shí)語塞,格格巫說的似乎也有那么點(diǎn)道理。那么,藍(lán)精靈們該怎么搞清楚,平均來講包子的分量到底有沒有小于食堂標(biāo)準(zhǔn)呢? 如果要深究,現(xiàn)在藍(lán)精靈要研究的對象是格格巫最近一段時(shí)間做出過的所有包子(上一集我們說過,這在統(tǒng)計(jì)學(xué)中稱為“總體”)。顯然,這些包子絕大多數(shù)都已經(jīng)被吃到肚子里去了,再也稱不著了。即使這些包子都在,由于時(shí)間和成本等原因,藍(lán)精靈們也不想把每一個包子都拿過來稱一下,而是希望通過測量一小部分包子(稱為“樣本”)來判斷包子的平均質(zhì)量有沒有顯著地小于食堂規(guī)定的標(biāo)準(zhǔn)值(比如說50克)。這種通過樣本來對總體的某個統(tǒng)計(jì)特征(比如平均值,方差,分布)做判斷的方法為假設(shè)檢驗(yàn)。 在很久以前,我們就曾講過,假設(shè)檢驗(yàn)的思路和反證法有些異曲同工(可戳此處回顧本系列第一集《你真的懂p值嗎?》)。 首先,我們假定原假設(shè)是正確的,計(jì)算觀察到樣本中某個統(tǒng)計(jì)量的概率,如果這個概率很小,則拒絕原假設(shè),接受與原假設(shè)相對立的備擇假設(shè);如果概率比較大,則無法拒絕原假設(shè)。換句話說,假設(shè)檢驗(yàn)主要依靠觀察到的數(shù)據(jù)與原假設(shè)的不一致性來決定拒絕原假設(shè)與否。 這種邏輯聽起來還是挺繞的,咱們用包子問題來說明一下。 藍(lán)精靈們采集包子樣本質(zhì)量數(shù)據(jù),發(fā)現(xiàn)樣本包子質(zhì)量都遠(yuǎn)小于標(biāo)準(zhǔn)值。如果格格巫的包子總體的確是符合食堂標(biāo)準(zhǔn)的(原假設(shè)),那么藍(lán)精靈只是因?yàn)檫\(yùn)氣而獲得這樣樣本的概率會有多大呢? 會很低! 于是,藍(lán)精靈推斷原假設(shè)是錯誤的,即格格巫的包子不符合食堂標(biāo)準(zhǔn)。 值得注意的是,如果無法通過樣本的數(shù)據(jù)拒絕原假設(shè),我們也不能認(rèn)為原假設(shè)是成立的,因?yàn)橛锌赡苤皇?strong>統(tǒng)計(jì)功效不夠,詳情可重溫我們討論統(tǒng)計(jì)功效的文章《做統(tǒng)計(jì),多少數(shù)據(jù)才算夠?》(上)(下)。 藍(lán)精靈們決定用假設(shè)檢驗(yàn)的方法驗(yàn)證一下,格格巫的包子是不是比食堂標(biāo)準(zhǔn)小。他們提出了兩個對立的假設(shè)—— 原假設(shè):格格巫的包子是大于等于食堂標(biāo)準(zhǔn)的; 備擇假設(shè):格格巫的包子小于食堂標(biāo)準(zhǔn)。 于是每天吃早飯的時(shí)候,藍(lán)精靈們有了一項(xiàng)新任務(wù):稱一下自己吃到的包子的質(zhì)量。為了符合假設(shè)檢驗(yàn)的前提,包子要隨機(jī)抽取,于是這事堅(jiān)決不讓格格巫插手,而由窗口賣包子的由藍(lán)爸爸負(fù)責(zé)。獲得了包子質(zhì)量樣本之后,藍(lán)精靈們怎樣用包子樣本來判斷包子總體的平均值呢? 作為忠實(shí)讀者的你,想必記得樣本平均值是對總體平均值的一個合理的估計(jì)(可戳此處快速重溫《算術(shù)平均數(shù):簡單背后有乾坤》),所以如果包子樣本平均值要是比食堂標(biāo)準(zhǔn)小得足夠多,包子總體就很有可能是小于食堂標(biāo)準(zhǔn)的??墒切《嗌偈亲銐蛐∧??藍(lán)精靈們被難住了。 正如格格巫所說,包子的大小有一定的隨機(jī)性,假如隨機(jī)抽取100個包子作為一次測量,算出這100個包子的平均質(zhì)量。然后再隨機(jī)抽取另外100個包子,又算出一個新的平均質(zhì)量。這樣的步驟重復(fù)多次,每一次的平均值也會不一樣。假如格格巫的包子是符合標(biāo)準(zhǔn)的,那么隨機(jī)抽取100個包子的平均質(zhì)量應(yīng)該圍繞標(biāo)準(zhǔn)包子質(zhì)量上下波動。 這里我們假設(shè)藍(lán)精靈們只能抽取一組樣本。不難想象,這個樣本里頭的包子的質(zhì)量平均值很可能或多或少與食堂的標(biāo)準(zhǔn)質(zhì)量有點(diǎn)差異。而關(guān)鍵的問題在于,這個差異和樣本平均質(zhì)量應(yīng)有的波動大小相比,到底是大還是小。直觀來講,如果這個差異和樣本均值的波動范圍相比微不足道,那么藍(lán)精靈對格格巫的指控就有點(diǎn)站不住腳了。因此,一種可能的思路是,根據(jù)樣本均值與標(biāo)準(zhǔn)值的差距、樣本均值的波動范圍算出兩者的比值,然后用這個比值的大小來做判斷。 那如何獲得樣本的平均質(zhì)量的波動范圍呢? 統(tǒng)計(jì)學(xué)中一般用標(biāo)準(zhǔn)差(standard deviation)來反映一個隨機(jī)變量(比如包子質(zhì)量)的波動:標(biāo)準(zhǔn)差大,說明這個隨機(jī)變量容易取值遠(yuǎn)離平均值;標(biāo)準(zhǔn)差小,則取值往往在平均值附近。樣本平均值的波動是由單個隨機(jī)變量的波動和樣本大小所決定的。不難想象,抽樣的樣本越大,樣本平均值就越接近真實(shí)的平均值,樣本平均值的波動也會更小。 數(shù)學(xué)上可以證明,如果樣本大小為N,樣本平均值的波動(標(biāo)準(zhǔn)差)等于總體波動(標(biāo)準(zhǔn)差)除以。這就是說如果總體中包子質(zhì)量的標(biāo)準(zhǔn)差是10克,那隨機(jī)取100個包子的平均質(zhì)量的標(biāo)準(zhǔn)差就是 為什么樣本均值的波動會比總體的波動小呢?試想一下,由于樣本是把N個包子的質(zhì)量取均值,而這N個包子里總是更可能有大有小,因而平均起來就會相互抵消,造成的結(jié)果就是波動范圍變小。而且,N越大,這種相互之間的「拉平」作用就會愈加明顯,從而波動(標(biāo)準(zhǔn)差)就減小得更多。 既然我們剛才說,要用樣本均值與標(biāo)準(zhǔn)值的差距和樣本均值的波動范圍兩者的比值來做個決斷,那么我們將樣本均值記為,總體均值(也就是我們真正關(guān)心的統(tǒng)計(jì)量——格格巫做出的包子的真正平均質(zhì)量)記為μ0,總體的標(biāo)準(zhǔn)差為σ,樣本大小為N,這個比值就是 可以看作是標(biāo)準(zhǔn)化了的樣本與總體均值的差距,稱為檢驗(yàn)統(tǒng)計(jì)量 (test statistic)。 現(xiàn)在我們有了這么一個比值z,因?yàn)榉肿邮菢颖景悠骄|(zhì)量減去包子標(biāo)準(zhǔn)質(zhì)量,所以如果z是負(fù)的,樣本的包子就比標(biāo)準(zhǔn)要輕。可是我們還是不知道,到底z要有多負(fù)我們才能有把握地說格格巫有貓膩? 這時(shí)藍(lán)精靈們就需要抱中心極限定理的大腿了!中心極限定理指出,如果從一個總體中多次抽取樣本,每次獲得的樣本平均值會以正態(tài)分布的形式分布在總體平均值附近。更具體地說,在原假設(shè)成立的情況下,樣本平均值由于抽樣的隨機(jī)性導(dǎo)致的服從均值為μ0,標(biāo)準(zhǔn)差為的正態(tài)分布。 在這里,我們需要稍稍討論一些關(guān)于正態(tài)分布的技術(shù)細(xì)節(jié)。大家記得正態(tài)分布是個鐘形曲線,可是鐘形曲線在數(shù)軸上可左可右,形狀可胖可瘦,這由什么決定?任意一個正態(tài)分布可以由兩個參數(shù)確定,一個是它的均值(也叫位置參數(shù))μ,決定它在數(shù)軸上的什么方位;一個是其標(biāo)準(zhǔn)差(也叫形狀參數(shù))σ,決定它的胖瘦。因此,我們把正態(tài)分布記為N( μ, σ)。需要注意,這里說的均值和標(biāo)準(zhǔn)差,是正態(tài)分布自身作為一個概率分布的性質(zhì),不要與我們之前討論的具體問題如包子質(zhì)量的均值混淆了。 下圖所示即是兩個不同的正態(tài)分布N(1,0.5)和N(0,1)。 我們已經(jīng)知道,樣本平均值服從正態(tài)分布N( μ0, )。那么咱們之前說的那個比值z呢?正態(tài)分布還有一個有趣的性質(zhì),那就是一個任意的正態(tài)分布可以通過數(shù)軸上的平移和拉伸變成一個特殊的正態(tài)分布N(0,1),也就是平均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布(稱為「標(biāo)準(zhǔn)正態(tài)分布」)。而我們之前從到z的變換,恰恰達(dá)到了這個效果(有興趣的讀者可以回顧上集正態(tài)分布的概率密度函數(shù),想想看為什么)。 這下可好了,根據(jù)中心極限定理,如果令統(tǒng)計(jì)量,則z服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)?,F(xiàn)在,藍(lán)精靈只需要根據(jù)標(biāo)準(zhǔn)正態(tài)分布N(0,1)的性質(zhì),找出在什么情況下,觀察到z的可能性小到了一定程度,以至于難以相信格格巫的包子是合格的。 藍(lán)精靈雖然不喜歡格格巫,但是也不想冤枉他,所以希望制定一個標(biāo)準(zhǔn),使得在包子其實(shí)符合食堂標(biāo)準(zhǔn)的情況下,誤判包子比標(biāo)準(zhǔn)小的概率小于一個臨界值α,用統(tǒng)計(jì)的語言說就是原假設(shè)為真時(shí)拒絕原假設(shè)的概率小于α(還記得我們在《做統(tǒng)計(jì),多少數(shù)據(jù)才算夠?(上)》里說過的根據(jù)罩杯分男女的故事不?)。這一概率就是我們常常說的P值,而顯著性的門檻α通常會取0.05。在備擇假設(shè)為「包子小于標(biāo)準(zhǔn)值」的情況下,P值對應(yīng)的概率等于標(biāo)準(zhǔn)正態(tài)分布中小于給定z值部分的概率之和,即下圖的陰影面積。假如我們?nèi)ˇ? 0.05,對應(yīng)的z值等于1.645(圖中的zα),也就是說只要用樣本計(jì)算出來的<-1.645的時(shí)候,即z值落在途中陰影部分的時(shí)候,就能比較可靠地拒絕原假設(shè),陰影部分對應(yīng)的區(qū)域稱為拒絕域。如果所得的z值大于-1.645,則無法判斷格格巫的包子是否符合標(biāo)準(zhǔn)。 圖片來源:http://2012books./books/beginning-statistics/s12-testing-hypotheses.html 現(xiàn)在藍(lán)精靈們只要用公式計(jì)算出z并且比較是不是小于-1.645就可以知道格格巫做的包子是不是偏小了! 等等,好像有什么不對——這個公式里面的σ取值并不知道啊,那怎么辦? 正如樣本的平均值可以作為總體平均值的估計(jì)一樣,樣本的標(biāo)準(zhǔn)差也可以作為總體標(biāo)準(zhǔn)差的估計(jì)。我們將樣本標(biāo)準(zhǔn)差記為S,用S代替σ可以得到一個新的檢驗(yàn)統(tǒng)計(jì)量。 當(dāng)樣本量N足夠大時(shí),S會非常接近σ,t也會很接近標(biāo)準(zhǔn)正態(tài)分布。但是當(dāng)N比較小時(shí),樣本方差往往會小于總體方差,比如在只有一個樣本的極端情況下,樣本方差必然是0,這顯然比總體方差要小了。 由于這個原因,N比較小時(shí),t的分布就會偏離正態(tài)分布。統(tǒng)計(jì)學(xué)家發(fā)現(xiàn),在總體服從正態(tài)分布的前提下,t會服從另外一種分布,稱為學(xué)生t分布。根據(jù)t分布的性質(zhì),我們同樣可以算出t取不同數(shù)值時(shí)對應(yīng)的p值是多少,從而對原假設(shè)做出推斷。根據(jù)檢驗(yàn)統(tǒng)計(jì)量t得出的假設(shè)檢驗(yàn)法稱為t檢驗(yàn)法。t檢驗(yàn)法特別適用于樣本量比較小的情況下的統(tǒng)計(jì)假設(shè)檢驗(yàn)。 樣本量是t檢驗(yàn)?zāi)芊裼酗@著性的一個重要因素,樣本量主要通過兩種方式影響t檢驗(yàn)的結(jié)果。一是樣本量影響統(tǒng)計(jì)檢驗(yàn)量t值的大小,從公式可以看出,t與成正比的,t值越大,圍住的t分布的陰影面積越小,對應(yīng)于我們平時(shí)關(guān)心的P值就越小。另一個是樣本量影響t分布的形狀。如下圖所示,樣本量很大時(shí),t分布接近正態(tài)分布;但當(dāng)樣本量變小時(shí),t分布的尾巴會變肥,而且樣本量越小尾巴越肥,也就是說同樣的t值對應(yīng)的P值會越大。由于這兩個原因,在用t檢驗(yàn)時(shí),增加樣本的數(shù)量是提高統(tǒng)計(jì)顯著性的有效手段。 圖片來源,Significance, P values and t-tests. Martin Krzywinski & Naomi Altman. NatureMethods 10, 1041–1042 (2013) 講到最后,我們來插一段學(xué)術(shù)八卦:很多讀者可能會和我一樣,好奇為什么t分布也叫學(xué)生t分布。記得我曾經(jīng)還傻傻地誤以為是學(xué)生課堂實(shí)驗(yàn)做出的數(shù)據(jù)會服從學(xué)生t分布。實(shí)際上,「學(xué)生」是發(fā)現(xiàn)這個分布的數(shù)學(xué)家戈塞特(Gosset)的筆名,他于1908年在一個叫Biometrika的雜志上,發(fā)表了關(guān)于t分布的文章,當(dāng)時(shí)就是用的這個筆名。為什么發(fā)文章要用筆名呢?因?yàn)楫?dāng)時(shí)Gosset在Guiness啤酒廠(是的你沒有看錯,就是那個現(xiàn)在還存在的健力士牌黑啤酒)工作,為了檢測啤酒質(zhì)量而發(fā)明了t分布??墒?,公司不允許員工公開發(fā)表研究成果,于是戈塞特才被迫用筆名發(fā)表了文章。有沒有一種高手在民間的感覺?其實(shí),戈塞特可不是什么「諾貝爾哥」之類的民科,他在發(fā)表這篇關(guān)于t檢驗(yàn)的文章之前,曾在現(xiàn)代統(tǒng)計(jì)學(xué)的開山鼻祖之一皮爾遜(KarlPearson)的實(shí)驗(yàn)室訪問過一兩年。因此他很好地把基礎(chǔ)研究和實(shí)際應(yīng)用結(jié)合了起來,在統(tǒng)計(jì)學(xué)的歷史上留下了自己光輝的一頁。 今天,我們講述了t檢驗(yàn)最簡單的一種情形——單樣本t檢驗(yàn)的理論基礎(chǔ)。在接下來的幾集里面,我們將會把t檢驗(yàn)一家子翻個底朝天,為大家進(jìn)一步介紹科研實(shí)踐中更常見的成對和獨(dú)立樣本t檢驗(yàn)的實(shí)際使用、正態(tài)性的檢驗(yàn)以及正態(tài)性不能滿足時(shí)的應(yīng)對策略。 想要玩轉(zhuǎn)t檢驗(yàn)?別忘了繼續(xù)關(guān)注「說人話的統(tǒng)計(jì)學(xué)」哦! ? 田菊,2006年進(jìn)入清華大學(xué)工程物理系,2010年畢業(yè)獲得工學(xué)學(xué)士學(xué)位。此后,在哈佛大學(xué)醫(yī)學(xué)院神經(jīng)科學(xué)項(xiàng)目攻讀哲學(xué)博士學(xué)位至今,運(yùn)用電生理技術(shù)和光遺傳學(xué)在小鼠上研究基于獎賞的學(xué)習(xí)行為的神經(jīng)回路及其計(jì)算模型。因?yàn)闊釔蹟?shù)據(jù)分析,今年夏天博士畢業(yè)后,將加入Facebook從事「21世紀(jì)最性感的職業(yè)」——數(shù)據(jù)科學(xué)家。 編輯:燈盞細(xì)辛 |
|