p值的陷阱：為何頂級(jí)方法論期刊做出禁用p值的決定？

sufive1 2018-01-28

展開(kāi)全文

2016年夏天，林澤民老師在成大、政大、臺(tái)大、中研院演講〈p值的陷阱〉，文章的結(jié)語(yǔ)提到：「統(tǒng)計(jì)學(xué)很快就會(huì)有很重大的改變，傳統(tǒng)的作法、用p值來(lái)作統(tǒng)計(jì)檢定的作法，大概再過(guò)幾年，就不容易再存在?！?/p>
不到兩年的時(shí)間，美國(guó)政治學(xué)頂級(jí)方法論學(xué)刊《Political Analysis》已經(jīng)決定禁用p值。根據(jù)該刊的聲明，其主要原因是：「p值本身無(wú)法提供支持相關(guān)模式或假說(shuō)之證據(jù)?！挂浴禤olitical Analysis》在政治學(xué)之地位，其禁用p值的決定，將會(huì)引起連鎖效應(yīng)，導(dǎo)致其他刊物跟進(jìn)。

本文為2016/6/6在政大社科院的演講逐字稿修訂版之部分節(jié)錄，原題為<看電影學(xué)統(tǒng)計(jì)：p值的陷阱>，刊於《社會(huì)科學(xué)論叢》2016年10月第十卷第二期。

科學(xué)的統(tǒng)計(jì)學(xué)危機(jī)

為什麼要談?wù)損值的問(wèn)題？因?yàn)樵诮嗄陙?lái)，不只是政治學(xué)界，而是很多學(xué)門(mén)，特別是在科學(xué)領(lǐng)域，有很多文章討論傳統(tǒng)統(tǒng)計(jì)檢定方法、尤其是p值統(tǒng)計(jì)檢定的問(wèn)題，甚至有位很有名的統(tǒng)計(jì)學(xué)者，Andrew Gelman寫(xiě)了篇文章，叫作The Statistical Crisis in Science──「科學(xué)的統(tǒng)計(jì)學(xué)危機(jī)」，說(shuō)是危機(jī)一點(diǎn)都不言過(guò)其實(shí)。這就是為何我說(shuō)：今天要討論的其實(shí)是很嚴(yán)肅的問(wèn)題。

投影片上這些論點(diǎn)，大部分是說(shuō)我們?cè)趥鹘y(tǒng)統(tǒng)計(jì)檢定的執(zhí)行上，對(duì)p值有各種誤解跟誤用?，F(xiàn)在很多人談到「p值的危險(xiǎn)」、「p值的陷阱」、「p值的誤用」、還有「p值的誤解」。甚至有些學(xué)術(shù)期刊，也開(kāi)始改變他們的編輯政策。像這本叫作Basic and Applied Social Psychology的心理學(xué)期刊，已經(jīng)決定以後文章都不能使用p值，大家能夠想像嗎？我們作計(jì)量研究，都是用p值，各位一直用，在學(xué)界用了將近一百年，現(xiàn)在卻說(shuō)不能用。甚至有些文章，說(shuō)從前根據(jù)p值檢定做出來(lái)的研究成果都是錯(cuò)的，有人更宣告p值已經(jīng)死了。所以這是一個(gè)很嚴(yán)重的問(wèn)題。

在這本期刊做出此決定後，美國(guó)統(tǒng)計(jì)學(xué)會(huì)（ASA）有一個(gè)回應(yīng)，表示對(duì)於p值的問(wèn)題，其實(shí)也沒(méi)這麼嚴(yán)重，大部分是誤解跟誤用所造成，只要避免誤解與誤用就好?？墒窃诮衲辏珹SA真的就發(fā)表了正式聲明，聲明裡面提出幾點(diǎn)，也是我今天要討論的主要內(nèi)容，包括p值的真正的意義，以及大家如何誤用，換句話說(shuō)就是：p值到底是什麼？它又不是什麼？（圖一）今天除了會(huì)深入探討這些議題之外，也請(qǐng)?zhí)貏e注意聲明的第三點(diǎn)提到：科學(xué)的結(jié)論，還有在商業(yè)上、政策上的決策，不應(yīng)只靠p值來(lái)決定。大家就應(yīng)該了解這問(wèn)題影響有多大、多嚴(yán)重。

我舉個(gè)例子，最近在臺(tái)灣，大家都知道我們中研院翁院長(zhǎng)涉入了浩鼎案，浩鼎案之所以出問(wèn)題，就是因?yàn)榻饷ひ葬幔l(fā)現(xiàn)實(shí)驗(yàn)的結(jié)果不顯著。我今天不想評(píng)論浩鼎案，但就我的了解，食藥署、或者美國(guó)的FDA，他們?cè)谂鷾?zhǔn)一項(xiàng)新藥時(shí)，一定要看實(shí)驗(yàn)的結(jié)果，而且實(shí)驗(yàn)結(jié)果必須在統(tǒng)計(jì)上要顯著?？墒茿SA卻告訴我們說(shuō)，決策不該只根據(jù)統(tǒng)計(jì)的顯著性，大家就可想像這影響會(huì)有多大。甚至有其他這裡沒(méi)有列出來(lái)的文章，提到為何我們使用的各種藥物，都是經(jīng)過(guò)這麼嚴(yán)格的p值檢定出來(lái)、具有顯著性，可是在真正臨床上，卻不見(jiàn)得很有用。其實(shí)很多對(duì)p值的質(zhì)疑，都是從這裡出來(lái)的。

有關(guān)p值的討論，其實(shí)並非由政治學(xué)門(mén)，而是從生命科學(xué)、例如醫(yī)學(xué)等領(lǐng)域所產(chǎn)生的。ASA聲明的第四點(diǎn)說(shuō)：正確的統(tǒng)計(jì)推論，必須要「full reporting and transparency」，這是什麼意思呢？這是說(shuō)：不但要報(bào)告p值顯著的研究結(jié)果，也要報(bào)告p值不顯著的研究結(jié)果。但傳統(tǒng)方法最大的問(wèn)題是：研究結(jié)果不顯著，通通都沒(méi)有報(bào)告。在英文有個(gè)詞叫cherry-picking，摘櫻桃。什麼叫摘櫻桃？摘水果，水果熟的才摘，把熟的水果送到水果攤上，大家在水果攤上看到的水果，都是漂亮的水果，其實(shí)有很多糟糕的水果都不見(jiàn)了。

我們?cè)诮y(tǒng)計(jì)上也是，大家看到的都是顯著的結(jié)果，不顯著的結(jié)果沒(méi)有人看到?？墒窃谶^(guò)程中，研究者因?yàn)榻Y(jié)果必須顯著，期刊才會(huì)刊登、新藥才會(huì)被批準(zhǔn)，所以盡量想要擠出顯著的結(jié)果，這之中會(huì)出現(xiàn)一個(gè)很重大的問(wèn)題：如果我們作了20個(gè)研究，這20個(gè)研究裡面，虛無(wú)假設(shè)都是對(duì)的，單獨(dú)的研究結(jié)果應(yīng)該是不顯著?？墒钱?dāng)我們作了20個(gè)統(tǒng)計(jì)檢定時(shí)，最少有一個(gè)結(jié)果顯著的或然率其實(shí)很高。雖然犯第一類型錯(cuò)誤的或然率都控制在0.05，可是20個(gè)裡面最少有一個(gè)顯著的，或然率就不是0.05，大概是0.64。如果就報(bào)告這個(gè)顯著結(jié)果，這就是cherry-picking。ASA給的建議是：實(shí)驗(yàn)者必須要full reporting and transparency，就是一個(gè)研究假如作了20個(gè)模型的檢定，最好20個(gè)模型通通報(bào)告，不能只報(bào)告顯著的模型。ASA這個(gè)聲明是今天要討論的主要內(nèi)容。

p值是什麼？

p值是什麼？我想在座有很多專家比我都懂，但是也有一些同學(xué)在場(chǎng)，所以還是稍微解釋一下。p值是由Ronald Fisher在1920年代發(fā)展出來(lái)的，已將近一百年。p值檢定最開(kāi)始，是檢定在一個(gè)model之下，實(shí)驗(yàn)出來(lái)的data跟model到底吻合不吻合。這個(gè)被檢定的model，我們把它叫做虛無(wú)假設(shè)（null hypothesis），一般情況下，這個(gè)被檢定的model，是假設(shè)實(shí)驗(yàn)並無(wú)系統(tǒng)性效應(yīng)的，即效應(yīng)是零，或是隨機(jī)狀態(tài)。在這個(gè)虛無(wú)假設(shè)之下，得到一個(gè)統(tǒng)計(jì)值，然後要算獲得這麼大（或這麼?。┑慕y(tǒng)計(jì)值的機(jī)率有多少，這個(gè)或機(jī)率就是p值。

舉一個(gè)例子，比如說(shuō)研究ESP──超感官知覺(jué)──時(shí)會(huì)用到比例（proportion）這個(gè)統(tǒng)計(jì)值。我們用大寫(xiě)的P來(lái)代表比例，不要跟小寫(xiě)的「p值」的p混淆。在p值的爭(zhēng)論裡，有一篇研究ESP的心理學(xué)文章被批評(píng)得很厲害。文章中提到了一個(gè)實(shí)驗(yàn)，讓各種圖片隨機(jī)出現(xiàn)在螢?zāi)坏淖筮吇蛘哂疫?，然後讓受測(cè)者來(lái)猜圖片會(huì)出現(xiàn)在哪邊。我們知道如果受測(cè)者的猜測(cè)也是隨機(jī)的，也就是沒(méi)有ESP的效應(yīng)，則猜對(duì)的或然率應(yīng)該是一半一半，算比例應(yīng)該是差不多P=0.5，這裡比例P=0.5就是我們的虛無(wú)假設(shè)。

但這個(gè)實(shí)驗(yàn)──實(shí)驗(yàn)者是一位知名心理學(xué)教授──他讓受測(cè)者用各種意志集中、力量集中的辦法，仔細(xì)地猜會(huì)出現(xiàn)在左邊還是右邊。結(jié)果發(fā)現(xiàn)，對(duì)於某種類型的圖片──不是所有圖片，而是對(duì)於某些類型的圖片，特別是色情圖片──受測(cè)者猜對(duì)的比例，高達(dá)53.1％，而且在統(tǒng)計(jì)上是顯著的。所以結(jié)論就是：有ESP，有超感官知覺(jué)。

這裡p值可以這樣算：就是先做一個(gè)比例P的sampling distribution──抽樣分配。如果虛無(wú)假設(shè)是對(duì)的，平均來(lái)講，P=0.5。0.5就是P的抽樣分配中間這一點(diǎn)，這個(gè)比例就是我們的虛無(wú)假設(shè)。在受測(cè)者隨機(jī)猜測(cè)的情況之下，P應(yīng)該大約是0.5的?？墒羌偃缯嬲玫降腜是0.531，抽樣分配告訴我們：如果虛無(wú)假設(shè)是對(duì)的，亦即如果沒(méi)有任何超自然的力量，沒(méi)有ESP存在，大家只是這樣隨機(jī)猜測(cè)的話，則猜對(duì)的比例大於或者等於0.531的機(jī)率，可以由抽樣分配右尾的這個(gè)面積來(lái)算。作單尾檢定，這面積就是所謂的p值。如果作雙尾檢定的話，這值還要乘以2。以上就是我們傳統(tǒng)講的p值的概念。

我們得到p值以後，要作統(tǒng)計(jì)檢定。我們相約成俗地設(shè)定一個(gè)顯著水準(zhǔn)，叫做α，α通常都是0.05，有時(shí)候大家會(huì)嚴(yán)格一點(diǎn)用0.01，比較不嚴(yán)格則用0.10。如果我們的α=0.05，則若p<>

為什麼說(shuō)p值很小，就不接受虛無(wú)假設(shè)？我個(gè)人的猜想，這是依據(jù)命題邏輯中，以否定後件來(lái)否定前件的推論，拉丁文稱作modus tollens，意思是以否定來(lái)否定的方法，也就是從「若Ｐ則Ｑ」和「非Ｑ」導(dǎo)出「非Ｐ」的推論，這相信大家都知道。p值檢定的邏輯是一種有或然性的modus tollens，是probabilistic modus tollens?！溉簦?為真，則p值檢定顯著的機(jī)率很小，只有0.05」，現(xiàn)在p值檢定顯著了，所以我們否定Ｈ0。

但是命題邏輯的modus tollens，「若Ｐ則Ｑ」是沒(méi)有或然性、沒(méi)有任何誤差的餘地的。「若Ｈ0為真，則p值檢定不可能顯著」，這樣p值檢定顯著時(shí)，你可以否定Ｈ0，大家對(duì)此都不會(huì)有爭(zhēng)議。問(wèn)題是假如容許或然性，這樣的推論方法還是對(duì)的嗎？舉一個(gè)例子：「若大樂(lè)透的開(kāi)獎(jiǎng)機(jī)制是完全隨機(jī)的，則每注中頭獎(jiǎng)的機(jī)率很小，只有1/13,980,000」，現(xiàn)在你中獎(jiǎng)了，你能推論說(shuō)大樂(lè)透開(kāi)獎(jiǎng)的機(jī)制不是隨機(jī)的嗎？p值的問(wèn)題，便是在於我們能不能夠因?yàn)閜值很小，小到可能性很低，我們就用否定後件的方法來(lái)否定前件。我們用命題邏輯來(lái)作統(tǒng)計(jì)推論，但其實(shí)我們的推論方法跟命題邏輯卻不完全一樣，因?yàn)槲覀兊摩两^對(duì)不可能是零，如果α是零的話，就不是統(tǒng)計(jì)了。

p值不是什麼？

下面這個(gè)表是大家都熟悉的。（圖二）我們可以用這個(gè)表來(lái)呈現(xiàn)有關(guān)虛無(wú)假設(shè)是對(duì)或者不對(duì)，是被拒絕或者被接受的四種可能性，其中兩種是作出錯(cuò)誤統(tǒng)計(jì)推論的情況。第一個(gè)情況，虛無(wú)假設(shè)是對(duì)的，但統(tǒng)計(jì)檢定是顯著的，因此虛無(wú)假設(shè)被推翻了。這種情況叫做Type I error，我們保留了α=0.05的機(jī)率容許它存在。

第二個(gè)情況，如果虛無(wú)假設(shè)是錯(cuò)誤的，但統(tǒng)計(jì)檢定不顯著，所以它沒(méi)有被推翻，這個(gè)情況叫做Type II error。Type II error剛學(xué)統(tǒng)計(jì)的同學(xué)可能不太了解，因?yàn)槲覀兺ǔ６疾粫?huì)很清楚地去計(jì)算它的機(jī)率──所謂β。這個(gè)β跟α不一樣，不是你可以用相約成俗的方法來(lái)訂定，而是會(huì)受到若干因素的影響。簡(jiǎn)單來(lái)講，在一定的顯著水準(zhǔn)α之下，β跟樣本大小有關(guān)係；樣本太小的話，β會(huì)比較大。另外它跟實(shí)驗(yàn)效應(yīng)的大小也有關(guān)係，如果效應(yīng)很小的話，β也會(huì)比較大。

換句話說(shuō)，如果虛無(wú)假設(shè)跟研究假設(shè)的距離比較小的話，β會(huì)比較大。可是一般人不會(huì)去計(jì)算β，因?yàn)檫€沒(méi)做實(shí)驗(yàn)之前，其實(shí)也不知道實(shí)驗(yàn)的效應(yīng)有多少。儘管如此，β是可以計(jì)算的。算出來(lái)了，則我們拒絕錯(cuò)誤虛無(wú)假設(shè)，而作出正確統(tǒng)計(jì)推論的機(jī)率是1-β，這1-β我們就把它叫做「檢定的強(qiáng)度」──the power of the test──我待會(huì)兒會(huì)用到這個(gè)名詞。依此定義，β越小的話，power就越大。用醫(yī)學(xué)的術(shù)語(yǔ)來(lái)說(shuō)，α，Type I error的機(jī)率，就是偽陽(yáng)性的機(jī)率，而β，Type II error的機(jī)率，就是偽陰性的機(jī)率。

我們可以開(kāi)始討論：傳統(tǒng)用p值來(lái)作統(tǒng)計(jì)檢定方式，為什麼有問(wèn)題？剛剛ASA的聲明說(shuō)：p值do not measure the probability that the studied hypothesis is true。p值告訴你：如果虛無(wú)假設(shè)是對(duì)的，你「觀察到資料」的機(jī)率有多少，但它並沒(méi)有告訴你「虛無(wú)假設(shè)是對(duì)的」的機(jī)率有多少，或「研究假設(shè)是對(duì)的」的機(jī)率有多少。這是很不一樣的：前者是data的機(jī)率，後者是model的機(jī)率。

進(jìn)一步說(shuō)明，p值是在虛無(wú)假設(shè)為真的條件之下，你觀察到和你所觀察到的統(tǒng)計(jì)值一般大?。ɑ蚋螅。┑臋C(jī)率。但我們作檢定的時(shí)候，我們是看p值是不是小於你的統(tǒng)計(jì)水準(zhǔn)α，如果p<>

所以我們應(yīng)該反過(guò)來(lái)問(wèn)，如果你統(tǒng)計(jì)檢定是顯著的，在此條件之下，「虛無(wú)假設(shè)是對(duì)的」的機(jī)率有多少？如果我們把關(guān)於data這個(gè)偽陽(yáng)性的機(jī)率記作α=Pr（Test=+|H0），大家可以看出這個(gè)關(guān)於model的機(jī)率其實(shí)是它倒反過(guò)來(lái)的：Pr（H0| Test=+），所以我把它稱作「?jìng)侮?yáng)性的反機(jī)率」。這兩個(gè)機(jī)率原則上不會(huì)相等；只有在α=0的時(shí)候，兩者才都是零而相等。

譬如今天你去健康檢查，醫(yī)生給你做很多篩檢，如果篩檢結(jié)果是陽(yáng)性，其實(shí)先不要怕，因?yàn)槟銘?yīng)該要問(wèn)，如果篩檢出來(lái)是陽(yáng)性，那麼你真正並沒(méi)有病的機(jī)率是多少？也就是偽陽(yáng)性的反機(jī)率有多少？大家可能會(huì)很驚訝，偽陽(yáng)性的反機(jī)率通常都很高，但是這個(gè)機(jī)率，p值並沒(méi)有告訴你。所以必須要去算在檢定是陽(yáng)性的條件下，結(jié)果是一種偽陽(yáng)性的反機(jī)率；這就必須要用「貝式定理」來(lái)算。

我們?cè)賮?lái)看另外一個(gè)跟統(tǒng)計(jì)檢定問(wèn)題非常接近的例子?？梢杂脛倓偵眢w檢查的例子，但我這裡用美國(guó)職棒大聯(lián)盟對(duì)球員的藥物檢查為例，也許比較有趣。這裡假設(shè)大約有6％的美國(guó)MLB的球員使用PED（performance enhancing drugs），這是一種可以增強(qiáng)體能表現(xiàn)的藥物，是類固醇之類的藥物。這個(gè)估計(jì)數(shù)字可能是真的，是我從網(wǎng)頁(yè)上抓下來(lái)的。這邊的6％即為我前面說(shuō)的先驗(yàn)機(jī)率：隨機(jī)選出一個(gè)球員，則他有使用PED的機(jī)率是0.06，沒(méi)有使用PED的機(jī)率是0.94?，F(xiàn)在大聯(lián)盟的球員都要經(jīng)過(guò)藥檢；舉大家熟知的火箭人Roger Clemens為例。他也是我心目中的棒球英雄，他被檢定有陽(yáng)性的反應(yīng)。

為了方便起見(jiàn)，假設(shè)藥檢的準(zhǔn)確度是95％。所謂準(zhǔn)確度95％的定義是：如果一個(gè)球員有使用藥物，他被檢定出來(lái)呈陽(yáng)性反應(yīng)的機(jī)率是0.95；如果一個(gè)球員沒(méi)有使用藥物，他被檢定出來(lái)呈陰性反應(yīng)的機(jī)率也是0.95。也就是我假設(shè)兩種誤差類型的機(jī)率α跟β都是0.05。在這假設(shè)之下，使用貝式定理來(lái)計(jì)算，當(dāng)球員被篩檢得到的結(jié)果是陽(yáng)性，但他並不是PED使用者的後驗(yàn)機(jī)率或反機(jī)率，其實(shí)高達(dá)0.45。大家可以從圖三看到貝氏定理如何可以算出這個(gè)機(jī)率。（圖三）

使用貝式定理算出來(lái)的結(jié)果大家應(yīng)該會(huì)覺(jué)得很詫異，因?yàn)槲覀兯幬锖Y檢的工具應(yīng)該是很準(zhǔn)確的，0.95在我們想像中應(yīng)該是很準(zhǔn)確的，我們認(rèn)為說(shuō)我們錯(cuò)誤的可能性只有5％，其實(shí)不然。檢定是陽(yáng)性，但其實(shí)偽陽(yáng)性的反機(jī)率可以高達(dá)45％！所以雖然我不是醫(yī)學(xué)專家，不過(guò)大家健康檢查，如果醫(yī)生說(shuō)，你的檢查結(jié)果呈現(xiàn)陽(yáng)性反應(yīng)，大家先不要慌張，你要先問(wèn)一下醫(yī)生檢驗(yàn)的準(zhǔn)確度大概有多少，如果一個(gè)真正有這種病的人來(lái)檢定，呈現(xiàn)偽陽(yáng)性的機(jī)率有多少？如果一個(gè)沒(méi)有病的人來(lái)檢定，呈現(xiàn)偽陰性的機(jī)率有多少，然後再問(wèn)他先驗(yàn)機(jī)率大概有多少？然後自己用貝氏定理去算一下偽陽(yáng)性的反機(jī)率。醫(yī)學(xué)上很多疾病，在所有人口裡面，得病的比例通常很小的。也就是說(shuō)，得病的先驗(yàn)機(jī)率通常都很小，所以偽陽(yáng)性的反機(jī)率會(huì)很大。

現(xiàn)在換成了統(tǒng)計(jì)檢定，看下圖的表格。（圖四）這表格跟圖三的表格很像，只是把內(nèi)容改成了圖二的內(nèi)容：虛無(wú)假設(shè)是真的、或是假的，然後統(tǒng)計(jì)檢定是顯著、或是不顯著的。然後再加上一行先驗(yàn)機(jī)率，就是「虛無(wú)假設(shè)是對(duì)的」的先驗(yàn)機(jī)率有多少、「虛無(wú)假設(shè)是錯(cuò)的」的先驗(yàn)機(jī)率有多少，都用符號(hào)來(lái)代替數(shù)目。我們可以用貝式理得到一個(gè)公式，顯示偽陽(yáng)性的反機(jī)率是統(tǒng)計(jì)水準(zhǔn)α、檢定強(qiáng)度（power=1-β）、和研究假設(shè)之先驗(yàn)機(jī)率（P（HA））的函數(shù)。α跟檢定強(qiáng)度都沒(méi)問(wèn)題，但公式裡頭用到先驗(yàn)機(jī)率。你會(huì)問(wèn)：在統(tǒng)計(jì)檢定裡面，先驗(yàn)機(jī)率是什麼？

在此我必須要稍微說(shuō)明一下，先驗(yàn)機(jī)率，以淺白的話來(lái)講，跟你的理論有關(guān)係，怎麼說(shuō)呢？如同剛剛提到ESP的實(shí)驗(yàn)，好像只要就這樣用力去猜，你猜對(duì)的可能性就會(huì)比較高。發(fā)表這樣子的實(shí)驗(yàn)報(bào)告，我們有沒(méi)有辦法告訴讀者，當(dāng)受測(cè)者這樣皺著眉頭去想的時(shí)候，到底是什麼樣的一個(gè)因果機(jī)制，能夠去猜到圖片是出現(xiàn)在左邊還是右邊。

一般來(lái)說(shuō)這種ESP的實(shí)驗(yàn)，是沒(méi)有這種理論的，是在完全沒(méi)有理論的條件之下來(lái)做實(shí)驗(yàn)。在此情況之下，我們可以說(shuō)，此研究假設(shè)的先驗(yàn)機(jī)率很小很小。當(dāng)然我們作政治學(xué)的研究就不一樣，我們可能引用很多前人的著作，都有一個(gè)文獻(xiàn)回顧，我們也引用很多理論，然後我們說(shuō)：我們的研究假設(shè)是很有可能展的。假如你有很好的理論，你的研究假設(shè)的先驗(yàn)機(jī)率就會(huì)比較高，在這種情況之下，問(wèn)題會(huì)比較小。

但是還有一個(gè)問(wèn)題，就是如果從文獻(xiàn)裡面來(lái)建立理論，來(lái)判定你的研究假設(shè)的先驗(yàn)機(jī)率有多少，問(wèn)題出在於：通常文獻(xiàn)回顧是從學(xué)術(shù)期刊裡面得來(lái)，而現(xiàn)在所有的學(xué)術(shù)期刊，發(fā)表的都是顯著的結(jié)果，不顯著的結(jié)果通通都沒(méi)有發(fā)表，從學(xué)術(shù)期刊上來(lái)判斷研究假設(shè)的先驗(yàn)機(jī)率有多少，這樣的判斷是有偏差的。這是我今天要講的第二個(gè)問(wèn)題，現(xiàn)在先繼續(xù)討論偽陽(yáng)性反機(jī)率的問(wèn)題。

現(xiàn)在要詳細(xì)討論影響偽陽(yáng)性反機(jī)率的因素，就是影響到「統(tǒng)計(jì)檢定是顯著的條件之下，虛無(wú)假設(shè)為真」這一個(gè)機(jī)率的因素。這裡再重覆一下，我們一般了解的統(tǒng)計(jì)推論，奠基於虛無(wú)假設(shè)為真時(shí)，p值顯著的機(jī)率，也就是偽陽(yáng)性的機(jī)率被控制在α之內(nèi)：Pr（Test=+|H0）=Pr（p<α|h0）=α。但我們現(xiàn)在要反過(guò)來(lái)問(wèn)的是：統(tǒng)計(jì)檢定是顯著的情況下，h0為真的機(jī)率，也就是偽陽(yáng)性的反機(jī)率：pr（h0| test="+）=Pr（H0|"><>

如果α等於零，可以很清楚的發(fā)現(xiàn)，這兩個(gè)機(jī)率是一樣的，都是零；但α不等於零的時(shí)候，它們就不一樣。由下圖來(lái)看，偽陽(yáng)性的反機(jī)率跟先驗(yàn)機(jī)率──研究假設(shè)的先驗(yàn)機(jī)率──以及檢驗(yàn)的強(qiáng)度有關(guān)。（圖五、六）看圖可以得知，power越大，還有先驗(yàn)機(jī)率越大的話，偽陽(yáng)性的反機(jī)率就越小。可是當(dāng)power越小的時(shí)候，還有先驗(yàn)機(jī)率越小的時(shí)候，偽陽(yáng)性的反機(jī)率就越大。

小結(jié)：當(dāng)檢定強(qiáng)度或研究假設(shè)的先驗(yàn)機(jī)率甚低的時(shí)候，α=0.05可能嚴(yán)重低估了偽陽(yáng)性之反機(jī)率，也就是在p值檢定顯著的情況下，虛無(wú)假設(shè)H0仍然極有可能為真，而其為真的條件機(jī)率可能甚大於α。此時(shí)如果我們拒絕虛無(wú)假設(shè)，便作出了錯(cuò)誤的統(tǒng)計(jì)推論。

「摘櫻桃」問(wèn)題

再來(lái)我們講到「摘櫻桃」問(wèn)題，如同剛剛所提到，研究假設(shè)的先驗(yàn)機(jī)率是如此重要，我們要如何去判定？要怎麼知道它是多少？我們必須要做文獻(xiàn)的分析、要建構(gòu)我們的理論，在這種情況之下，會(huì)出現(xiàn)摘櫻桃的問(wèn)題。這裡就是要呈現(xiàn)給大家看，譬如我們作20個(gè)統(tǒng)計(jì)檢定，從作第一個(gè)開(kāi)始，本來(lái)有一個(gè)model，但是p值不顯著，我們就改一下model，加一個(gè)變數(shù)、減一個(gè)變數(shù)，或是把一個(gè)變數(shù)平方，或是把一個(gè)變數(shù)取log，或者把樣本除去一些，增加一些，這樣慢慢去試驗(yàn)，最後終於得到一個(gè)顯著的結(jié)果了！但這裡告訴你，做了20個(gè)這樣的檢定，我們以為每一個(gè)檢定的Type I error控制在0.05，可是20個(gè)裡面最少有一個(gè)顯著的或然率是多少？是0.64。（圖八）

類似這種問(wèn)題，其實(shí)我們?nèi)粘Ｉ钪兴诙嘤?。以大?lè)透為例：你買(mǎi)了一注大樂(lè)透，你中頭獎(jiǎng)的機(jī)率是1/13,980,000。如果你自己中獎(jiǎng)，你也許會(huì)說(shuō)這是命運(yùn)，不是機(jī)率，因?yàn)橹歇?jiǎng)的機(jī)率近乎0。但全臺(tái)灣賣(mài)了5,000,000注的大樂(lè)透，最少有一注中頭獎(jiǎng)的機(jī)率其實(shí)是0.30。你不能舉出有人中獎(jiǎng)的事實(shí)就否定大樂(lè)透開(kāi)獎(jiǎng)的隨機(jī)機(jī)制。

這就是cherry-picking，只抓住發(fā)生的事件，就來(lái)說(shuō)因?yàn)橛羞@麼多因果鏈，如果稍微有一點(diǎn)不一樣，這種事情就不會(huì)發(fā)生，這是錯(cuò)誤的，因?yàn)樗泻芏嗥渌目赡苄酝瑫r(shí)存在。現(xiàn)在在統(tǒng)計(jì)學(xué)裡面，很多人很不在意這個(gè)問(wèn)題，甚至主張這種問(wèn)題不存在，而其實(shí)它可能比p值的誤用還要嚴(yán)重。這種問(wèn)題叫做叫多重假說(shuō)檢定（multiple hypothesis test）、多重比較（multiple comparison），我有同事對(duì)這種問(wèn)題的反應(yīng)十分強(qiáng)烈，主張所有的研究都必須要事先登記。

什麼叫做事先登記？並非申請(qǐng)研究經(jīng)費(fèi)、寫(xiě)一個(gè)研究計(jì)畫(huà)這麼簡(jiǎn)單，所謂事先登記（pre-registration）的觀念，就是在做任何研究之前，研究者必須要把研究計(jì)畫(huà)post在網(wǎng)站上，而且post上之後就不能改，現(xiàn)在其實(shí)已經(jīng)有很多這種網(wǎng)站存在，將來(lái)研究者發(fā)表文章，如果跟預(yù)先登記的研究設(shè)計(jì)不一樣，其他人就可以對(duì)你發(fā)表的結(jié)果提出質(zhì)疑。

小結(jié)：在多重假說(shuō)檢定的情況下，即使H0為真，「至少有一p值檢定顯著」的機(jī)率常會(huì)甚大於單一p值檢定的顯著水平α。以「摘櫻桃」的方式只報(bào)告顯著的檢定結(jié)果常會(huì)導(dǎo)致錯(cuò)誤的統(tǒng)計(jì)推論。

結(jié)語(yǔ)

圖九是ASA建議取代p值的其它途徑，在此沒(méi)有時(shí)間細(xì)講，大致上是要用其它方法，比如貝式統(tǒng)計(jì)學(xué)。（圖九）這邊提到的很多方法都跟貝式統(tǒng)計(jì)學(xué)有關(guān)係。我們現(xiàn)場(chǎng)有貝式統(tǒng)計(jì)學(xué)的專家，他們懂得怎麼用貝式統(tǒng)計(jì)學(xué)來(lái)分析資料。但對(duì)於還沒(méi)有學(xué)到貝式統(tǒng)計(jì)學(xué)的朋友，這邊ASA特別提到的confidence intervals──信心區(qū)間──是傳統(tǒng)統(tǒng)計(jì)學(xué)的方法。

ASA似乎認(rèn)為使用信心區(qū)間比使用p值檢定要來(lái)得好。但是信心區(qū)間其實(shí)是連續(xù)性的p值檢定，如果只是看看虛無(wú)假設(shè)的理論值有沒(méi)有在信心區(qū)間之內(nèi)，則檢定的結(jié)果跟p值檢定是一樣的。但如果把信心區(qū)間畫(huà)出來(lái)，至少有一個(gè)好處，它會(huì)清楚呈現(xiàn)出效應(yīng)的大小，讓你不但能看出檢定結(jié)果的統(tǒng)計(jì)顯著性（statistical significance），也能看出估計(jì)值的實(shí)質(zhì)顯著性或重要性（substantive significance）。我們使用信心區(qū)間，總比只用一顆星兩顆星來(lái)標(biāo)明統(tǒng)計(jì)顯著性要好。

如果一定要用幾顆星的話，大家就不要再用α=0.10了；p<0.10就不要再加星星了。我知道ajps（american journal="" of="" political="" science）已經(jīng)不接受α="">

但是最重要的，如果我們不得不用傳統(tǒng)的統(tǒng)計(jì)方法，我們必須要增強(qiáng)我們的理論論述和脈絡(luò)描述，因?yàn)樵鰪?qiáng)理論論述和脈絡(luò)描述，即會(huì)增強(qiáng)研究假設(shè)的先驗(yàn)機(jī)率。當(dāng)研究假設(shè)的先驗(yàn)機(jī)率比較高時(shí)，其後驗(yàn)機(jī)率──偽陽(yáng)性的反機(jī)率──就會(huì)比較低。這好比你健康檢查某種疾病的篩檢出現(xiàn)陽(yáng)性時(shí)，好的醫(yī)生會(huì)從你的性別、年齡、生活習(xí)慣、飲食作息、家庭病史、乃至於居住環(huán)境等脈絡(luò)來(lái)判斷你是否有充分的病因，以之來(lái)詮釋篩檢的陽(yáng)性結(jié)果。這其實(shí)就是貝氏更新的道理。

我讀這些文獻(xiàn)後的想法是：統(tǒng)計(jì)學(xué)很快就會(huì)有很重大的改變，傳統(tǒng)的作法、用p值來(lái)作統(tǒng)計(jì)檢定的作法，大概再過(guò)幾年，就不容易再存在。所以大家必須要應(yīng)變，這也是我這次回國(guó)來(lái)，希望能夠提醒大家注意的一個(gè)問(wèn)題。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

p值的陷阱：為何頂級(jí)方法論期刊做出禁用p值的決定？