原文連接:http:///?p=6261t檢驗(yàn)是統(tǒng)計(jì)學(xué)中最常用的檢驗(yàn)之一。雙樣本t檢驗(yàn)允許我們基于來自兩組中的每一組的樣本來測試兩組的總體平均值相等的零假設(shè)。 這在實(shí)踐中意味著什么?如果我們的樣本量不是太小,如果我們的數(shù)據(jù)看起來違反了正常假設(shè),我們就不應(yīng)過分擔(dān)心。此外,出于同樣的原因,即使X不正常(同樣,當(dāng)樣本量足夠大時(shí)),組均值差異的95%置信區(qū)間也將具有正確的覆蓋率。當(dāng)然,對于小樣本或高度偏斜的分布,上述漸近結(jié)果可能不會給出非常好的近似,因此類型1誤差率可能偏離標(biāo)稱的5%水平。 現(xiàn)在讓我們用R來檢驗(yàn)樣本均值分布(在重復(fù)樣本中)收斂到正態(tài)分布的速度。我們將模擬來自對數(shù)正態(tài)分布的數(shù)據(jù) - 即log(X)遵循正態(tài)分布。我們可以通過從正態(tài)分布中取冪隨機(jī)抽取來從此分布中生成隨機(jī)樣本。首先,我們將繪制一個(gè)大的(n = 100000)樣本并繪制其分布以查看它的外觀: 我們可以看到它的分布是高度偏斜的。從表面上看,我們會擔(dān)心對這些數(shù)據(jù)使用t檢驗(yàn),假設(shè)X是正態(tài)分布的。 為了看看樣本的樣本分布,我們將選擇樣本大小為n,并從對數(shù)正態(tài)分布中重復(fù)繪制大小為n的樣本,計(jì)算樣本均值,然后繪制這些樣本均值的分布。以下顯示n = 3的樣本平均值的直方圖(來自10,000個(gè)重復(fù)樣本): 樣本均值的分布,n = 3 這里的采樣分布是傾斜的。如此小的樣本量,如果其中一個(gè)樣本從分布的尾部具有高值,則這將給出與真實(shí)均值相差很遠(yuǎn)的樣本均值。如果我們重復(fù),但現(xiàn)在n = 10: 它現(xiàn)在看起來更正常,但它仍然是偏斜的 - 樣本均值有時(shí)很大。請注意,x軸范圍現(xiàn)在更小 - 樣本均值的可變性現(xiàn)在小于n = 3。最后,我們嘗試n = 100:
當(dāng)然,如果X不是正態(tài)分布的,即使假設(shè)正態(tài)性的t檢驗(yàn)的類型1錯(cuò)誤率接近5%,測試也不會是最佳的。也就是說,將存在零假設(shè)的替代測試,其具有檢測替代假設(shè)的更大功率。 |
|