科學(xué)的統(tǒng)計(jì)學(xué)危機(jī)為什麼要談?wù)損值的問(wèn)題?因?yàn)樵诮嗄陙?lái),不只是政治學(xué)界,而是很多學(xué)門(mén),特別是在科學(xué)領(lǐng)域,有很多文章討論傳統(tǒng)統(tǒng)計(jì)檢定方法、尤其是p值統(tǒng)計(jì)檢定的問(wèn)題,甚至有位很有名的統(tǒng)計(jì)學(xué)者,Andrew Gelman寫(xiě)了篇文章,叫作The Statistical Crisis in Science──「科學(xué)的統(tǒng)計(jì)學(xué)危機(jī)」,說(shuō)是危機(jī)一點(diǎn)都不言過(guò)其實(shí)。這就是為何我說(shuō):今天要討論的其實(shí)是很嚴(yán)肅的問(wèn)題。 投影片上這些論點(diǎn),大部分是說(shuō)我們?cè)趥鹘y(tǒng)統(tǒng)計(jì)檢定的執(zhí)行上,對(duì)p值有各種誤解跟誤用?,F(xiàn)在很多人談到「p值的危險(xiǎn)」、「p值的陷阱」、「p值的誤用」、還有「p值的誤解」。甚至有些學(xué)術(shù)期刊,也開(kāi)始改變他們的編輯政策。像這本叫作Basic and Applied Social Psychology的心理學(xué)期刊,已經(jīng)決定以後文章都不能使用p值,大家能夠想像嗎?我們作計(jì)量研究,都是用p值,各位一直用,在學(xué)界用了將近一百年,現(xiàn)在卻說(shuō)不能用。甚至有些文章,說(shuō)從前根據(jù)p值檢定做出來(lái)的研究成果都是錯(cuò)的,有人更宣告p值已經(jīng)死了。所以這是一個(gè)很嚴(yán)重的問(wèn)題。 在這本期刊做出此決定後,美國(guó)統(tǒng)計(jì)學(xué)會(huì)(ASA)有一個(gè)回應(yīng),表示對(duì)於p值的問(wèn)題,其實(shí)也沒(méi)這麼嚴(yán)重,大部分是誤解跟誤用所造成,只要避免誤解與誤用就好??墒窃诮衲辏珹SA真的就發(fā)表了正式聲明,聲明裡面提出幾點(diǎn),也是我今天要討論的主要內(nèi)容,包括p值的真正的意義,以及大家如何誤用,換句話說(shuō)就是:p值到底是什麼?它又不是什麼?(圖一)今天除了會(huì)深入探討這些議題之外,也請(qǐng)?zhí)貏e注意聲明的第三點(diǎn)提到:科學(xué)的結(jié)論,還有在商業(yè)上、政策上的決策,不應(yīng)只靠p值來(lái)決定。大家就應(yīng)該了解這問(wèn)題影響有多大、多嚴(yán)重。 我舉個(gè)例子,最近在臺(tái)灣,大家都知道我們中研院翁院長(zhǎng)涉入了浩鼎案,浩鼎案之所以出問(wèn)題,就是因?yàn)榻饷ひ葬幔l(fā)現(xiàn)實(shí)驗(yàn)的結(jié)果不顯著。我今天不想評(píng)論浩鼎案,但就我的了解,食藥署、或者美國(guó)的FDA,他們?cè)谂鷾?zhǔn)一項(xiàng)新藥時(shí),一定要看實(shí)驗(yàn)的結(jié)果,而且實(shí)驗(yàn)結(jié)果必須在統(tǒng)計(jì)上要顯著??墒茿SA卻告訴我們說(shuō),決策不該只根據(jù)統(tǒng)計(jì)的顯著性,大家就可想像這影響會(huì)有多大。甚至有其他這裡沒(méi)有列出來(lái)的文章,提到為何我們使用的各種藥物,都是經(jīng)過(guò)這麼嚴(yán)格的p值檢定出來(lái)、具有顯著性,可是在真正臨床上,卻不見(jiàn)得很有用。其實(shí)很多對(duì)p值的質(zhì)疑,都是從這裡出來(lái)的。 有關(guān)p值的討論,其實(shí)並非由政治學(xué)門(mén),而是從生命科學(xué)、例如醫(yī)學(xué)等領(lǐng)域所產(chǎn)生的。ASA聲明的第四點(diǎn)說(shuō):正確的統(tǒng)計(jì)推論,必須要「full reporting and transparency」,這是什麼意思呢?這是說(shuō):不但要報(bào)告p值顯著的研究結(jié)果,也要報(bào)告p值不顯著的研究結(jié)果。但傳統(tǒng)方法最大的問(wèn)題是:研究結(jié)果不顯著,通通都沒(méi)有報(bào)告。在英文有個(gè)詞叫cherry-picking,摘櫻桃。什麼叫摘櫻桃?摘水果,水果熟的才摘,把熟的水果送到水果攤上,大家在水果攤上看到的水果,都是漂亮的水果,其實(shí)有很多糟糕的水果都不見(jiàn)了。 我們?cè)诮y(tǒng)計(jì)上也是,大家看到的都是顯著的結(jié)果,不顯著的結(jié)果沒(méi)有人看到??墒窃谶^(guò)程中,研究者因?yàn)榻Y(jié)果必須顯著,期刊才會(huì)刊登、新藥才會(huì)被批準(zhǔn),所以盡量想要擠出顯著的結(jié)果,這之中會(huì)出現(xiàn)一個(gè)很重大的問(wèn)題:如果我們作了20個(gè)研究,這20個(gè)研究裡面,虛無(wú)假設(shè)都是對(duì)的,單獨(dú)的研究結(jié)果應(yīng)該是不顯著??墒钱?dāng)我們作了20個(gè)統(tǒng)計(jì)檢定時(shí),最少有一個(gè)結(jié)果顯著的或然率其實(shí)很高。雖然犯第一類型錯(cuò)誤的或然率都控制在0.05,可是20個(gè)裡面最少有一個(gè)顯著的,或然率就不是0.05,大概是0.64。如果就報(bào)告這個(gè)顯著結(jié)果,這就是cherry-picking。ASA給的建議是:實(shí)驗(yàn)者必須要full reporting and transparency,就是一個(gè)研究假如作了20個(gè)模型的檢定,最好20個(gè)模型通通報(bào)告,不能只報(bào)告顯著的模型。ASA這個(gè)聲明是今天要討論的主要內(nèi)容。 p值是什麼?p值是什麼?我想在座有很多專家比我都懂,但是也有一些同學(xué)在場(chǎng),所以還是稍微解釋一下。p值是由Ronald Fisher在1920年代發(fā)展出來(lái)的,已將近一百年。p值檢定最開(kāi)始,是檢定在一個(gè)model之下,實(shí)驗(yàn)出來(lái)的data跟model到底吻合不吻合。這個(gè)被檢定的model,我們把它叫做虛無(wú)假設(shè)(null hypothesis),一般情況下,這個(gè)被檢定的model,是假設(shè)實(shí)驗(yàn)並無(wú)系統(tǒng)性效應(yīng)的,即效應(yīng)是零,或是隨機(jī)狀態(tài)。在這個(gè)虛無(wú)假設(shè)之下,得到一個(gè)統(tǒng)計(jì)值,然後要算獲得這麼大(或這麼?。┑慕y(tǒng)計(jì)值的機(jī)率有多少,這個(gè)或機(jī)率就是p值。 舉一個(gè)例子,比如說(shuō)研究ESP──超感官知覺(jué)──時(shí)會(huì)用到比例(proportion)這個(gè)統(tǒng)計(jì)值。我們用大寫(xiě)的P來(lái)代表比例,不要跟小寫(xiě)的「p值」的p混淆。在p值的爭(zhēng)論裡,有一篇研究ESP的心理學(xué)文章被批評(píng)得很厲害。文章中提到了一個(gè)實(shí)驗(yàn),讓各種圖片隨機(jī)出現(xiàn)在螢?zāi)坏淖筮吇蛘哂疫?,然後讓受測(cè)者來(lái)猜圖片會(huì)出現(xiàn)在哪邊。我們知道如果受測(cè)者的猜測(cè)也是隨機(jī)的,也就是沒(méi)有ESP的效應(yīng),則猜對(duì)的或然率應(yīng)該是一半一半,算比例應(yīng)該是差不多P=0.5,這裡比例P=0.5就是我們的虛無(wú)假設(shè)。 但這個(gè)實(shí)驗(yàn)──實(shí)驗(yàn)者是一位知名心理學(xué)教授──他讓受測(cè)者用各種意志集中、力量集中的辦法,仔細(xì)地猜會(huì)出現(xiàn)在左邊還是右邊。結(jié)果發(fā)現(xiàn),對(duì)於某種類型的圖片──不是所有圖片,而是對(duì)於某些類型的圖片,特別是色情圖片──受測(cè)者猜對(duì)的比例,高達(dá)53.1%,而且在統(tǒng)計(jì)上是顯著的。所以結(jié)論就是:有ESP,有超感官知覺(jué)。 這裡p值可以這樣算:就是先做一個(gè)比例P的sampling distribution──抽樣分配。如果虛無(wú)假設(shè)是對(duì)的,平均來(lái)講,P=0.5。0.5就是P的抽樣分配中間這一點(diǎn),這個(gè)比例就是我們的虛無(wú)假設(shè)。在受測(cè)者隨機(jī)猜測(cè)的情況之下,P應(yīng)該大約是0.5的??墒羌偃缯嬲玫降腜是0.531,抽樣分配告訴我們:如果虛無(wú)假設(shè)是對(duì)的,亦即如果沒(méi)有任何超自然的力量,沒(méi)有ESP存在,大家只是這樣隨機(jī)猜測(cè)的話,則猜對(duì)的比例大於或者等於0.531的機(jī)率,可以由抽樣分配右尾的這個(gè)面積來(lái)算。作單尾檢定,這面積就是所謂的p值。如果作雙尾檢定的話,這值還要乘以2。以上就是我們傳統(tǒng)講的p值的概念。 我們得到p值以後,要作統(tǒng)計(jì)檢定。我們相約成俗地設(shè)定一個(gè)顯著水準(zhǔn),叫做α,α通常都是0.05,有時(shí)候大家會(huì)嚴(yán)格一點(diǎn)用0.01,比較不嚴(yán)格則用0.10。如果我們的α=0.05,則若p<> 為什麼說(shuō)p值很小,就不接受虛無(wú)假設(shè)?我個(gè)人的猜想,這是依據(jù)命題邏輯中,以否定後件來(lái)否定前件的推論,拉丁文稱作modus tollens,意思是以否定來(lái)否定的方法,也就是從「若P則Q」和「非Q」導(dǎo)出「非P」的推論,這相信大家都知道。p值檢定的邏輯是一種有或然性的modus tollens,是probabilistic modus tollens?!溉簦?為真,則p值檢定顯著的機(jī)率很小,只有0.05」,現(xiàn)在p值檢定顯著了,所以我們否定H0。 但是命題邏輯的modus tollens,「若P則Q」是沒(méi)有或然性、沒(méi)有任何誤差的餘地的。「若H0為真,則p值檢定不可能顯著」,這樣p值檢定顯著時(shí),你可以否定H0,大家對(duì)此都不會(huì)有爭(zhēng)議。問(wèn)題是假如容許或然性,這樣的推論方法還是對(duì)的嗎?舉一個(gè)例子:「若大樂(lè)透的開(kāi)獎(jiǎng)機(jī)制是完全隨機(jī)的,則每注中頭獎(jiǎng)的機(jī)率很小,只有1/13,980,000」,現(xiàn)在你中獎(jiǎng)了,你能推論說(shuō)大樂(lè)透開(kāi)獎(jiǎng)的機(jī)制不是隨機(jī)的嗎?p值的問(wèn)題,便是在於我們能不能夠因?yàn)閜值很小,小到可能性很低,我們就用否定後件的方法來(lái)否定前件。我們用命題邏輯來(lái)作統(tǒng)計(jì)推論,但其實(shí)我們的推論方法跟命題邏輯卻不完全一樣,因?yàn)槲覀兊摩两^對(duì)不可能是零,如果α是零的話,就不是統(tǒng)計(jì)了。 p值不是什麼?下面這個(gè)表是大家都熟悉的。(圖二)我們可以用這個(gè)表來(lái)呈現(xiàn)有關(guān)虛無(wú)假設(shè)是對(duì)或者不對(duì),是被拒絕或者被接受的四種可能性,其中兩種是作出錯(cuò)誤統(tǒng)計(jì)推論的情況。第一個(gè)情況,虛無(wú)假設(shè)是對(duì)的,但統(tǒng)計(jì)檢定是顯著的,因此虛無(wú)假設(shè)被推翻了。這種情況叫做Type I error,我們保留了α=0.05的機(jī)率容許它存在。 第二個(gè)情況,如果虛無(wú)假設(shè)是錯(cuò)誤的,但統(tǒng)計(jì)檢定不顯著,所以它沒(méi)有被推翻,這個(gè)情況叫做Type II error。Type II error剛學(xué)統(tǒng)計(jì)的同學(xué)可能不太了解,因?yàn)槲覀兺ǔ6疾粫?huì)很清楚地去計(jì)算它的機(jī)率──所謂β。這個(gè)β跟α不一樣,不是你可以用相約成俗的方法來(lái)訂定,而是會(huì)受到若干因素的影響。簡(jiǎn)單來(lái)講,在一定的顯著水準(zhǔn)α之下,β跟樣本大小有關(guān)係;樣本太小的話,β會(huì)比較大。另外它跟實(shí)驗(yàn)效應(yīng)的大小也有關(guān)係,如果效應(yīng)很小的話,β也會(huì)比較大。 換句話說(shuō),如果虛無(wú)假設(shè)跟研究假設(shè)的距離比較小的話,β會(huì)比較大。可是一般人不會(huì)去計(jì)算β,因?yàn)檫€沒(méi)做實(shí)驗(yàn)之前,其實(shí)也不知道實(shí)驗(yàn)的效應(yīng)有多少。儘管如此,β是可以計(jì)算的。算出來(lái)了,則我們拒絕錯(cuò)誤虛無(wú)假設(shè),而作出正確統(tǒng)計(jì)推論的機(jī)率是1-β,這1-β我們就把它叫做「檢定的強(qiáng)度」──the power of the test──我待會(huì)兒會(huì)用到這個(gè)名詞。依此定義,β越小的話,power就越大。用醫(yī)學(xué)的術(shù)語(yǔ)來(lái)說(shuō),α,Type I error的機(jī)率,就是偽陽(yáng)性的機(jī)率,而β,Type II error的機(jī)率,就是偽陰性的機(jī)率。 我們可以開(kāi)始討論:傳統(tǒng)用p值來(lái)作統(tǒng)計(jì)檢定方式,為什麼有問(wèn)題?剛剛ASA的聲明說(shuō):p值do not measure the probability that the studied hypothesis is true。p值告訴你:如果虛無(wú)假設(shè)是對(duì)的,你「觀察到資料」的機(jī)率有多少,但它並沒(méi)有告訴你「虛無(wú)假設(shè)是對(duì)的」的機(jī)率有多少,或「研究假設(shè)是對(duì)的」的機(jī)率有多少。這是很不一樣的:前者是data的機(jī)率,後者是model的機(jī)率。 進(jìn)一步說(shuō)明,p值是在虛無(wú)假設(shè)為真的條件之下,你觀察到和你所觀察到的統(tǒng)計(jì)值一般大?。ɑ蚋螅。┑臋C(jī)率。但我們作檢定的時(shí)候,我們是看p值是不是小於你的統(tǒng)計(jì)水準(zhǔn)α,如果p<> 所以我們應(yīng)該反過(guò)來(lái)問(wèn),如果你統(tǒng)計(jì)檢定是顯著的,在此條件之下,「虛無(wú)假設(shè)是對(duì)的」的機(jī)率有多少?如果我們把關(guān)於data這個(gè)偽陽(yáng)性的機(jī)率記作α=Pr(Test=+|H0),大家可以看出這個(gè)關(guān)於model的機(jī)率其實(shí)是它倒反過(guò)來(lái)的:Pr(H0| Test=+),所以我把它稱作「?jìng)侮?yáng)性的反機(jī)率」。這兩個(gè)機(jī)率原則上不會(huì)相等;只有在α=0的時(shí)候,兩者才都是零而相等。 譬如今天你去健康檢查,醫(yī)生給你做很多篩檢,如果篩檢結(jié)果是陽(yáng)性,其實(shí)先不要怕,因?yàn)槟銘?yīng)該要問(wèn),如果篩檢出來(lái)是陽(yáng)性,那麼你真正並沒(méi)有病的機(jī)率是多少?也就是偽陽(yáng)性的反機(jī)率有多少?大家可能會(huì)很驚訝,偽陽(yáng)性的反機(jī)率通常都很高,但是這個(gè)機(jī)率,p值並沒(méi)有告訴你。所以必須要去算在檢定是陽(yáng)性的條件下,結(jié)果是一種偽陽(yáng)性的反機(jī)率;這就必須要用「貝式定理」來(lái)算。 我們?cè)賮?lái)看另外一個(gè)跟統(tǒng)計(jì)檢定問(wèn)題非常接近的例子??梢杂脛倓偵眢w檢查的例子,但我這裡用美國(guó)職棒大聯(lián)盟對(duì)球員的藥物檢查為例,也許比較有趣。這裡假設(shè)大約有6%的美國(guó)MLB的球員使用PED(performance enhancing drugs),這是一種可以增強(qiáng)體能表現(xiàn)的藥物,是類固醇之類的藥物。這個(gè)估計(jì)數(shù)字可能是真的,是我從網(wǎng)頁(yè)上抓下來(lái)的。這邊的6%即為我前面說(shuō)的先驗(yàn)機(jī)率:隨機(jī)選出一個(gè)球員,則他有使用PED的機(jī)率是0.06,沒(méi)有使用PED的機(jī)率是0.94?,F(xiàn)在大聯(lián)盟的球員都要經(jīng)過(guò)藥檢;舉大家熟知的火箭人Roger Clemens為例。他也是我心目中的棒球英雄,他被檢定有陽(yáng)性的反應(yīng)。 為了方便起見(jiàn),假設(shè)藥檢的準(zhǔn)確度是95%。所謂準(zhǔn)確度95%的定義是:如果一個(gè)球員有使用藥物,他被檢定出來(lái)呈陽(yáng)性反應(yīng)的機(jī)率是0.95;如果一個(gè)球員沒(méi)有使用藥物,他被檢定出來(lái)呈陰性反應(yīng)的機(jī)率也是0.95。也就是我假設(shè)兩種誤差類型的機(jī)率α跟β都是0.05。在這假設(shè)之下,使用貝式定理來(lái)計(jì)算,當(dāng)球員被篩檢得到的結(jié)果是陽(yáng)性,但他並不是PED使用者的後驗(yàn)機(jī)率或反機(jī)率,其實(shí)高達(dá)0.45。大家可以從圖三看到貝氏定理如何可以算出這個(gè)機(jī)率。(圖三) 使用貝式定理算出來(lái)的結(jié)果大家應(yīng)該會(huì)覺(jué)得很詫異,因?yàn)槲覀兯幬锖Y檢的工具應(yīng)該是很準(zhǔn)確的,0.95在我們想像中應(yīng)該是很準(zhǔn)確的,我們認(rèn)為說(shuō)我們錯(cuò)誤的可能性只有5%,其實(shí)不然。檢定是陽(yáng)性,但其實(shí)偽陽(yáng)性的反機(jī)率可以高達(dá)45%!所以雖然我不是醫(yī)學(xué)專家,不過(guò)大家健康檢查,如果醫(yī)生說(shuō),你的檢查結(jié)果呈現(xiàn)陽(yáng)性反應(yīng),大家先不要慌張,你要先問(wèn)一下醫(yī)生檢驗(yàn)的準(zhǔn)確度大概有多少,如果一個(gè)真正有這種病的人來(lái)檢定,呈現(xiàn)偽陽(yáng)性的機(jī)率有多少?如果一個(gè)沒(méi)有病的人來(lái)檢定,呈現(xiàn)偽陰性的機(jī)率有多少,然後再問(wèn)他先驗(yàn)機(jī)率大概有多少?然後自己用貝氏定理去算一下偽陽(yáng)性的反機(jī)率。醫(yī)學(xué)上很多疾病,在所有人口裡面,得病的比例通常很小的。也就是說(shuō),得病的先驗(yàn)機(jī)率通常都很小,所以偽陽(yáng)性的反機(jī)率會(huì)很大。 現(xiàn)在換成了統(tǒng)計(jì)檢定,看下圖的表格。(圖四)這表格跟圖三的表格很像,只是把內(nèi)容改成了圖二的內(nèi)容:虛無(wú)假設(shè)是真的、或是假的,然後統(tǒng)計(jì)檢定是顯著、或是不顯著的。然後再加上一行先驗(yàn)機(jī)率,就是「虛無(wú)假設(shè)是對(duì)的」的先驗(yàn)機(jī)率有多少、「虛無(wú)假設(shè)是錯(cuò)的」的先驗(yàn)機(jī)率有多少,都用符號(hào)來(lái)代替數(shù)目。我們可以用貝式理得到一個(gè)公式,顯示偽陽(yáng)性的反機(jī)率是統(tǒng)計(jì)水準(zhǔn)α、檢定強(qiáng)度(power=1-β)、和研究假設(shè)之先驗(yàn)機(jī)率(P(HA))的函數(shù)。α跟檢定強(qiáng)度都沒(méi)問(wèn)題,但公式裡頭用到先驗(yàn)機(jī)率。你會(huì)問(wèn):在統(tǒng)計(jì)檢定裡面,先驗(yàn)機(jī)率是什麼? 在此我必須要稍微說(shuō)明一下,先驗(yàn)機(jī)率,以淺白的話來(lái)講,跟你的理論有關(guān)係,怎麼說(shuō)呢?如同剛剛提到ESP的實(shí)驗(yàn),好像只要就這樣用力去猜,你猜對(duì)的可能性就會(huì)比較高。發(fā)表這樣子的實(shí)驗(yàn)報(bào)告,我們有沒(méi)有辦法告訴讀者,當(dāng)受測(cè)者這樣皺著眉頭去想的時(shí)候,到底是什麼樣的一個(gè)因果機(jī)制,能夠去猜到圖片是出現(xiàn)在左邊還是右邊。 一般來(lái)說(shuō)這種ESP的實(shí)驗(yàn),是沒(méi)有這種理論的,是在完全沒(méi)有理論的條件之下來(lái)做實(shí)驗(yàn)。在此情況之下,我們可以說(shuō),此研究假設(shè)的先驗(yàn)機(jī)率很小很小。當(dāng)然我們作政治學(xué)的研究就不一樣,我們可能引用很多前人的著作,都有一個(gè)文獻(xiàn)回顧,我們也引用很多理論,然後我們說(shuō):我們的研究假設(shè)是很有可能展的。假如你有很好的理論,你的研究假設(shè)的先驗(yàn)機(jī)率就會(huì)比較高,在這種情況之下,問(wèn)題會(huì)比較小。 但是還有一個(gè)問(wèn)題,就是如果從文獻(xiàn)裡面來(lái)建立理論,來(lái)判定你的研究假設(shè)的先驗(yàn)機(jī)率有多少,問(wèn)題出在於:通常文獻(xiàn)回顧是從學(xué)術(shù)期刊裡面得來(lái),而現(xiàn)在所有的學(xué)術(shù)期刊,發(fā)表的都是顯著的結(jié)果,不顯著的結(jié)果通通都沒(méi)有發(fā)表,從學(xué)術(shù)期刊上來(lái)判斷研究假設(shè)的先驗(yàn)機(jī)率有多少,這樣的判斷是有偏差的。這是我今天要講的第二個(gè)問(wèn)題,現(xiàn)在先繼續(xù)討論偽陽(yáng)性反機(jī)率的問(wèn)題。 現(xiàn)在要詳細(xì)討論影響偽陽(yáng)性反機(jī)率的因素,就是影響到「統(tǒng)計(jì)檢定是顯著的條件之下,虛無(wú)假設(shè)為真」這一個(gè)機(jī)率的因素。這裡再重覆一下,我們一般了解的統(tǒng)計(jì)推論,奠基於虛無(wú)假設(shè)為真時(shí),p值顯著的機(jī)率,也就是偽陽(yáng)性的機(jī)率被控制在α之內(nèi):Pr(Test=+|H0)=Pr(p<α|h0)=α。但我們現(xiàn)在要反過(guò)來(lái)問(wèn)的是:統(tǒng)計(jì)檢定是顯著的情況下,h0為真的機(jī)率,也就是偽陽(yáng)性的反機(jī)率:pr(h0| test="+)=Pr(H0|"><> 如果α等於零,可以很清楚的發(fā)現(xiàn),這兩個(gè)機(jī)率是一樣的,都是零;但α不等於零的時(shí)候,它們就不一樣。由下圖來(lái)看,偽陽(yáng)性的反機(jī)率跟先驗(yàn)機(jī)率──研究假設(shè)的先驗(yàn)機(jī)率──以及檢驗(yàn)的強(qiáng)度有關(guān)。(圖五、六)看圖可以得知,power越大,還有先驗(yàn)機(jī)率越大的話,偽陽(yáng)性的反機(jī)率就越小。可是當(dāng)power越小的時(shí)候,還有先驗(yàn)機(jī)率越小的時(shí)候,偽陽(yáng)性的反機(jī)率就越大。 小結(jié):當(dāng)檢定強(qiáng)度或研究假設(shè)的先驗(yàn)機(jī)率甚低的時(shí)候,α=0.05可能嚴(yán)重低估了偽陽(yáng)性之反機(jī)率,也就是在p值檢定顯著的情況下,虛無(wú)假設(shè)H0仍然極有可能為真,而其為真的條件機(jī)率可能甚大於α。此時(shí)如果我們拒絕虛無(wú)假設(shè),便作出了錯(cuò)誤的統(tǒng)計(jì)推論。 「摘櫻桃」問(wèn)題再來(lái)我們講到「摘櫻桃」問(wèn)題,如同剛剛所提到,研究假設(shè)的先驗(yàn)機(jī)率是如此重要,我們要如何去判定?要怎麼知道它是多少?我們必須要做文獻(xiàn)的分析、要建構(gòu)我們的理論,在這種情況之下,會(huì)出現(xiàn)摘櫻桃的問(wèn)題。這裡就是要呈現(xiàn)給大家看,譬如我們作20個(gè)統(tǒng)計(jì)檢定,從作第一個(gè)開(kāi)始,本來(lái)有一個(gè)model,但是p值不顯著,我們就改一下model,加一個(gè)變數(shù)、減一個(gè)變數(shù),或是把一個(gè)變數(shù)平方,或是把一個(gè)變數(shù)取log,或者把樣本除去一些,增加一些,這樣慢慢去試驗(yàn),最後終於得到一個(gè)顯著的結(jié)果了!但這裡告訴你,做了20個(gè)這樣的檢定,我們以為每一個(gè)檢定的Type I error控制在0.05,可是20個(gè)裡面最少有一個(gè)顯著的或然率是多少?是0.64。(圖八) 類似這種問(wèn)題,其實(shí)我們?nèi)粘I钪兴诙嘤?。以大?lè)透為例:你買(mǎi)了一注大樂(lè)透,你中頭獎(jiǎng)的機(jī)率是1/13,980,000。如果你自己中獎(jiǎng),你也許會(huì)說(shuō)這是命運(yùn),不是機(jī)率,因?yàn)橹歇?jiǎng)的機(jī)率近乎0。但全臺(tái)灣賣(mài)了5,000,000注的大樂(lè)透,最少有一注中頭獎(jiǎng)的機(jī)率其實(shí)是0.30。你不能舉出有人中獎(jiǎng)的事實(shí)就否定大樂(lè)透開(kāi)獎(jiǎng)的隨機(jī)機(jī)制。 這就是cherry-picking,只抓住發(fā)生的事件,就來(lái)說(shuō)因?yàn)橛羞@麼多因果鏈,如果稍微有一點(diǎn)不一樣,這種事情就不會(huì)發(fā)生,這是錯(cuò)誤的,因?yàn)樗泻芏嗥渌目赡苄酝瑫r(shí)存在。現(xiàn)在在統(tǒng)計(jì)學(xué)裡面,很多人很不在意這個(gè)問(wèn)題,甚至主張這種問(wèn)題不存在,而其實(shí)它可能比p值的誤用還要嚴(yán)重。這種問(wèn)題叫做叫多重假說(shuō)檢定(multiple hypothesis test)、多重比較(multiple comparison),我有同事對(duì)這種問(wèn)題的反應(yīng)十分強(qiáng)烈,主張所有的研究都必須要事先登記。 什麼叫做事先登記?並非申請(qǐng)研究經(jīng)費(fèi)、寫(xiě)一個(gè)研究計(jì)畫(huà)這麼簡(jiǎn)單,所謂事先登記(pre-registration)的觀念,就是在做任何研究之前,研究者必須要把研究計(jì)畫(huà)post在網(wǎng)站上,而且post上之後就不能改,現(xiàn)在其實(shí)已經(jīng)有很多這種網(wǎng)站存在,將來(lái)研究者發(fā)表文章,如果跟預(yù)先登記的研究設(shè)計(jì)不一樣,其他人就可以對(duì)你發(fā)表的結(jié)果提出質(zhì)疑。 小結(jié):在多重假說(shuō)檢定的情況下,即使H0為真,「至少有一p值檢定顯著」的機(jī)率常會(huì)甚大於單一p值檢定的顯著水平α。以「摘櫻桃」的方式只報(bào)告顯著的檢定結(jié)果常會(huì)導(dǎo)致錯(cuò)誤的統(tǒng)計(jì)推論。 結(jié)語(yǔ)圖九是ASA建議取代p值的其它途徑,在此沒(méi)有時(shí)間細(xì)講,大致上是要用其它方法,比如貝式統(tǒng)計(jì)學(xué)。(圖九)這邊提到的很多方法都跟貝式統(tǒng)計(jì)學(xué)有關(guān)係。我們現(xiàn)場(chǎng)有貝式統(tǒng)計(jì)學(xué)的專家,他們懂得怎麼用貝式統(tǒng)計(jì)學(xué)來(lái)分析資料。但對(duì)於還沒(méi)有學(xué)到貝式統(tǒng)計(jì)學(xué)的朋友,這邊ASA特別提到的confidence intervals──信心區(qū)間──是傳統(tǒng)統(tǒng)計(jì)學(xué)的方法。 ASA似乎認(rèn)為使用信心區(qū)間比使用p值檢定要來(lái)得好。但是信心區(qū)間其實(shí)是連續(xù)性的p值檢定,如果只是看看虛無(wú)假設(shè)的理論值有沒(méi)有在信心區(qū)間之內(nèi),則檢定的結(jié)果跟p值檢定是一樣的。但如果把信心區(qū)間畫(huà)出來(lái),至少有一個(gè)好處,它會(huì)清楚呈現(xiàn)出效應(yīng)的大小,讓你不但能看出檢定結(jié)果的統(tǒng)計(jì)顯著性(statistical significance),也能看出估計(jì)值的實(shí)質(zhì)顯著性或重要性(substantive significance)。我們使用信心區(qū)間,總比只用一顆星兩顆星來(lái)標(biāo)明統(tǒng)計(jì)顯著性要好。 如果一定要用幾顆星的話,大家就不要再用α=0.10了;p<0.10就不要再加星星了。我知道ajps(american journal="" of="" political="" science)已經(jīng)不接受α=""> 但是最重要的,如果我們不得不用傳統(tǒng)的統(tǒng)計(jì)方法,我們必須要增強(qiáng)我們的理論論述和脈絡(luò)描述,因?yàn)樵鰪?qiáng)理論論述和脈絡(luò)描述,即會(huì)增強(qiáng)研究假設(shè)的先驗(yàn)機(jī)率。當(dāng)研究假設(shè)的先驗(yàn)機(jī)率比較高時(shí),其後驗(yàn)機(jī)率──偽陽(yáng)性的反機(jī)率──就會(huì)比較低。這好比你健康檢查某種疾病的篩檢出現(xiàn)陽(yáng)性時(shí),好的醫(yī)生會(huì)從你的性別、年齡、生活習(xí)慣、飲食作息、家庭病史、乃至於居住環(huán)境等脈絡(luò)來(lái)判斷你是否有充分的病因,以之來(lái)詮釋篩檢的陽(yáng)性結(jié)果。這其實(shí)就是貝氏更新的道理。 我讀這些文獻(xiàn)後的想法是:統(tǒng)計(jì)學(xué)很快就會(huì)有很重大的改變,傳統(tǒng)的作法、用p值來(lái)作統(tǒng)計(jì)檢定的作法,大概再過(guò)幾年,就不容易再存在。所以大家必須要應(yīng)變,這也是我這次回國(guó)來(lái),希望能夠提醒大家注意的一個(gè)問(wèn)題。 |
|