【原】不是正態(tài)分布，t 檢驗還能用嗎？| 協(xié)和八

協(xié)和八 2020-09-18

展開全文

讀完本文，你將明白：

根據(jù)中心極限定理，只要數(shù)據(jù)量足夠大，即使原數(shù)據(jù)有點偏離正態(tài)分布，使用 t 檢驗也不會有大問題
「頻率分布圖」和「 q-q 圖」是判斷數(shù)據(jù)分布情況的好方法

在上一集《就是要實用！t 檢驗的七十二變》里，我們追隨藍精靈智斗格格巫的足跡，學習了 t 檢驗的不同類型。今天我們來原文再續(xù)，書接上一回：

藍精靈們運用了 t 檢驗的知識，發(fā)現(xiàn)格格巫做的包子顯著地小于食堂的標準。一起要把格格巫抓起來繩之以法，沒想到格格巫卻很淡定，氣定神閑地說了句：「你們用 t 檢驗，合適嗎？我統(tǒng)計學學得少，你們可不要騙我，我怎么聽說，要用 t 檢驗，數(shù)據(jù)要符合正態(tài)分布呢？」藍精靈們還得繼續(xù)加把勁兒，先得證明數(shù)據(jù)確實是滿足 t 檢驗對正態(tài)性的要求。

首先我們可以從 t 檢驗的原理回顧一下，正態(tài)性的要求具體是指什么。

藍精靈們?yōu)榱瞬槌龈窀裎鬃龅陌邮遣皇切∮谑程脴藴?，隨機抽取了 100 個包子作為樣本，通過這一樣本來推測包子總體的平均值有沒有顯著的不同于一個已知的標準值。由于包子大小的隨機性，如果重復抽樣多次，每次抽樣的樣本平均值會不一樣，并在總體平均值周圍浮動，t 檢驗其實是利用了抽樣的樣本平均值的分布來計算 p 值的（詳情請戳此處回顧《想玩轉(zhuǎn)t檢驗？你得從這篇看起》）。

在我們推導 t 檢驗背后原理的時候，其實涉及到了三個概率分布：

1. 總體的分布: 格格巫完成的所有包子的質(zhì)量的分布

2. 樣本的分布: 被隨機抽取的 100 個包子的質(zhì)量的分布

3. 抽樣分布：假設樣本量為 100 個包子，如果藍精靈重復多次抽取樣本（抽取許多批包子，每批 100 個），不同的樣本會產(chǎn)生稍微不一樣的平均質(zhì)量。在假想的情境中，藍精靈重復抽取無限多的樣本，此時它們得到的所有樣本的平均質(zhì)量就會形成一個新的分布。這種樣本平均值（或者樣本的其他統(tǒng)計量，如標準差等）因為抽樣隨機性產(chǎn)生的分布，稱為抽樣分布。

這三個分布里面，只有樣本（也就是測量到的 100 個包子質(zhì)量）的分布是看得見摸得著的。總體的分布我們自然不知道（要是知道了哪里還用得著做統(tǒng)計？），它是我們最終想要了解的對象。

簡單來說，如果樣本的抽取是完全隨機的，總體的分布和樣本分布會很接近。而最抽象的就是抽樣分布了，因為我們實際操作中，并不可能真的重復抽取無限多的樣本（哼，這種要把本寶寶累死的事情我才不干?。?。

可是，要進行假設檢驗，我們恰恰需要了解抽樣分布。我知道你耳朵都要聽出繭子了，不過我們還是得再回顧一遍 p 值的定義——在原假設為真（格格巫的包子平均質(zhì)量不小于食堂規(guī)定標準）的前提下，觀察到與我們的數(shù)據(jù)（藍精靈抽取的包子樣本平均質(zhì)量）相同或更極端的數(shù)據(jù)的概率。

你看，既然這個概率是關(guān)于樣本平均質(zhì)量的，那不就應該從抽樣分布里算嗎？

幸運的是，借助統(tǒng)計學的原理，給定總體的分布，我們就能推算出樣本平均值服從的分布，也就是抽樣分布。

而且更重要的是，t 檢驗是否適用，抽樣分布是關(guān)鍵——不管樣本或者總體符合什么分布，只要抽樣分布是正態(tài)的，t 檢驗就是可靠有效的。

可是，我們剛才說了，要算出抽樣分布，我們得先知道總體分布。但我們并不知道總體分布是什么呀？

嘿嘿，別忘了我們的終極武器——

中心極限定理！

中心極限定理從理論上面保證了只要樣本量足夠大，不論數(shù)據(jù)總體是不是呈正態(tài)分布，樣本均值的分布（抽樣分布）都會近似為正態(tài)分布（可回顧《算術(shù)平均數(shù)：簡單背后有乾坤》和《正態(tài)分布到底是怎么來的？》）。

在下圖中，我們可以看到中心極限定理的威力。在這個例子里，我們先從一個明顯不服從正態(tài)分布的總體分布出發(fā)，然后從這個分布里隨機抽樣，計算樣本平均值。

為了體現(xiàn)樣本量對抽樣分布的影響，我們考慮樣本量分別為 3 和 15 的情形。在這兩種情形下，我們分別讓計算機抽取 20000 個樣本，然后作出這些樣本均值的頻率直方圖（也就是近似的抽樣分布）?？梢钥吹剑敇颖玖繛?nbsp;3 時，抽樣分布的形狀還有明顯的不對稱；但當樣本量為 15 時，抽樣分布看起來已經(jīng)很接近于一個正態(tài)分布了。

也就是說，當樣本量足夠大時，抽樣分布的正態(tài)性就會比較好，t 檢驗計算出的 p 值從而比較準確。

那么，多大的樣本是足夠大呢？

這個問題很難給出一個一刀切的答案。在上圖這個例子里，總體分布雖然不對稱，但大體趨勢相差不遠，因而樣本量 n 達到 15 左右就已經(jīng)能使抽樣分布具有相當好的正態(tài)性了。但是，如果總體分布非常不正態(tài)（比如說不連續(xù)或者兩頭大中間小），要使抽樣分布接近正態(tài)的 n 就要大得多了。

裝備上了中心極限定理的藍精靈們又跑過去找格格巫理論，格格巫顯然有點坐不住了，但是他還是要垂死掙扎一下：「別跟俺扯神馬中心極限定理，那說的都是樣本量很大時候的事兒，你真能證明抽樣分布確實是正態(tài)的么？」

如果總體本身就是符合正態(tài)分布的話，那從這個總體里面隨機抽取的樣本的平均值就一定是服從正態(tài)分布的，而不僅僅是在 n 值較大時近似正態(tài)分布。所以藍精靈們得想出一些辦法來考察總體分布的形狀，如果總體是服從正態(tài)分布的，格格巫就再也無話可說了。

我們說過，總體分布我們無法直接測量。當樣本是隨機抽取的情況下，總體的分布和樣本分布會隨著樣本量的增加趨于接近（這在統(tǒng)計學上稱為大數(shù)定律）。于是我們可以用樣本（即采集到的數(shù)據(jù)）分布來近似總體分布。

說到檢查數(shù)據(jù)是否符合正態(tài)分布，最簡單的武器是《數(shù)據(jù)到手了，第一件事先干啥？》里面提到的殺手锏：頻率直方圖。頻率直方圖的目的是顯示數(shù)據(jù)落在每個取值區(qū)間的概率。為了將數(shù)據(jù)的分布和正態(tài)分布做比較，我們需要一個參考正態(tài)分布，具有與待測樣本相同的均值和方差，然后通過對比這兩個分布的形狀來判斷手上的數(shù)據(jù)是不是接近正態(tài)分布，如下圖所示。

（圖片來源：http://www.ats./stat/spss/library/ggraph_examples.htm）

除了頻率直方圖，另外一個檢查分布的有力武器是 q-q 圖（有沒有覺得這名字好萌？它可不是騰訊公司的植入廣告哦），q 代表的是 quantile（分位數(shù)）。你忘了分位數(shù)是什么？n 分位數(shù)是指把數(shù)據(jù)數(shù)先從小到大排列，然后平均分成 n 等分，其分割點對應的 n-1 個數(shù)值。舉個例子，咱們都學過中位數(shù)，它對應的是 2 分位數(shù)。在《數(shù)據(jù)到手了，第一件事先干啥？》我們提到過箱線圖，它用到了 4 分位數(shù)里除了中位數(shù)以外的兩個，對應的是把從小到大排列過的數(shù)據(jù)平均分成四等分，第一個分割點和第三個分割點的數(shù)值。

q-q 圖是通過比較數(shù)據(jù)和正態(tài)分布的分位數(shù)是否相等來判斷數(shù)據(jù)是不是符合正態(tài)分布。下面我們請出一幫企鵝小伙伴們來演示一下 q-q 圖原理。

有兩個班級的企鵝在排隊做早操，每個班各有二十只鵝寶寶。企鵝一班的身高是標準的正態(tài)分布而企鵝二班的身高分布未知。企鵝二班的班主任很好奇自己班的企鵝寶寶們身高是不是也是正態(tài)分布，于是就讓每個班的鵝寶寶都按照身高從低到高排隊，然后讓兩隊小朋友并排站。這時站在第一排的分別是一班最矮的和二班最矮的同學，依此類推，最后一排的是一班最高的和二班最高的（如下圖）。這個畫面很熟悉啊有沒有？

隊形已經(jīng)擺好，只要把一班的身高作為參考，就能判斷二班小朋友的身高是不是也服從正態(tài)分布了。

如果同一排的來自不同班級的兩只鵝寶寶身高都是一樣的話，兩個班級的身高必然服從同一分布。如果同一排的二班的鵝寶寶總是比一班的鵝寶寶高出 5 cm，因為加上一個常數(shù)并不會改變分布的類型，可以判斷二班的鵝寶寶身高還是服從正態(tài)分布。類似的，如果二班的鵝寶寶都是旁邊一班鵝寶寶身高的 1.5 倍（估計其中一個班是轉(zhuǎn)基因企鵝吧……），二班的身高還是正態(tài)分布。由此可以推理出，只要二班的鵝寶寶的身高與站在同一排的一班同學的身高成線性關(guān)系，就可以推斷兩者屬于同一分布類型。

聰明的你應該已經(jīng)想到企鵝排隊和分位數(shù)的關(guān)系了吧？站在同一排的鵝寶寶即屬于同一分位數(shù)。實際應用中，當我們有 n 個數(shù)據(jù)點時，我們可以計算機模擬出正態(tài)分布對應的 n 分位數(shù)（此為第一 q，對應 x 軸坐標）；同時，我們將數(shù)據(jù)從小到大排列，就可以得到數(shù)據(jù)的 n 分位數(shù)（此為第二 q，對應 y 軸坐標）。這樣我們就能得到一個 q-q 圖啦（如下圖）。有了這個圖，我們只要看看圖上的點是不是在一條直線上面，就知道我們的數(shù)據(jù)點是不是符合正態(tài)分布了。

于是，藍精靈們畫出了樣本包子質(zhì)量分布和正態(tài)分布的 q-q 圖，格格巫看完了，再也沒法反駁了，只能乖乖認錯。統(tǒng)計學萬歲！（此處應有熱烈掌聲一分鐘）

順便說一句，q-q 圖不僅可以用來判斷數(shù)據(jù)是否符合正態(tài)分布，也可以用來判斷數(shù)據(jù)是否符合其它分布，只要用待檢測的分布計算出對應的分位數(shù)作為 x 軸坐標即可。另外，q-q 圖還可以判斷兩組數(shù)據(jù)是否來自同一個分布（而不關(guān)心這同一個分布究竟是哪一個分布）。此時，我們只要將其中一組數(shù)據(jù)的分位數(shù)作為 x 軸，另外一組數(shù)據(jù)的分位數(shù)作為 y 軸就可以了。

最后，可能有些讀者會疑惑，上面給出了兩個武器「頻率分布圖」和「 q-q 圖」都只能定性地判斷一個分布是不是正態(tài)的，有沒有什么定量的方法可以判斷呢？

在統(tǒng)計學中，確實有一些檢驗是用來判斷數(shù)據(jù)的分布是不是顯著地不同于正態(tài)分布，常用的有夏皮羅－威爾克檢驗（Shapiro-Wilk test）和科爾莫戈羅夫－斯米爾諾夫檢驗（Kolmogorov-Smirnov test）。和其他檢驗一樣，這兩個檢驗會給出一個 p 值，供我們作推斷。這些檢驗的原假設是數(shù)據(jù)符合正態(tài)分布，當 p 值足夠小時拒絕原假設，認為數(shù)據(jù)不符合正態(tài)分布。使用這些檢驗的時候要注意，當樣本足夠大時，只要數(shù)據(jù)稍有一點偏離正態(tài)分布，p 值就總能小于 0.05，因而檢驗的結(jié)果總是傾向于顯示數(shù)據(jù)為非正態(tài)分布。也就是說，如果我們的樣本足夠大，即使夏皮羅－威爾克檢驗或科爾莫戈羅夫－斯米爾諾夫檢驗給出小于 0.05 的 p 值，數(shù)據(jù)來自的總體仍可能是服從正態(tài)分布的。

當然如果數(shù)據(jù)量太小，上面的這些方法可能都無法給出可信的關(guān)于數(shù)據(jù)正態(tài)性的判斷，這時候還需要根據(jù)產(chǎn)生測量數(shù)據(jù)的物理過程，考慮數(shù)據(jù)是否可能是正態(tài)分布。比如說，正態(tài)分布必須具有對稱性，即大于平均值和小于平均值的概率應該相等。因此，動物的壽命一般不會符合正態(tài)分布（想想為什么？）。

最后我們來總結(jié)一下，

讀完這篇文章你該學到什么？

1）由于中心極限定理，只要數(shù)據(jù)量比較大（究竟多大算大，取決于原來總體分布的情況），即使原數(shù)據(jù)有點偏離正態(tài)分布，使用 t 檢驗也不會有大問題；

2）「頻率分布圖」和「 q-q 圖」是判斷數(shù)據(jù)分布情況的好方法；

3）真實世界的數(shù)據(jù)不可能完完全全地符合正態(tài)分布，數(shù)據(jù)量比較大時，使用統(tǒng)計檢驗的方法判斷正態(tài)性傾向于判為非正態(tài)；

4）統(tǒng)計既是科學，也是藝術(shù)，當大家多理解了其背后科學原理，就可以根據(jù)實際情況，藝術(shù)地處理數(shù)據(jù)啦！

注：文中圖片未作特別說明者均為作者自繪

回復「統(tǒng)計學」可查看「說人話的統(tǒng)計學」系列合輯，

或點擊下方標題可閱讀本系列全部文章