【原】R語言t檢驗(yàn)和非正態(tài)性的魯棒性

拓端數(shù)據(jù) 2020-07-03

展開全文

原文連接：http:///?p=6261

t檢驗(yàn)是統(tǒng)計(jì)學(xué)中最常用的檢驗(yàn)之一。雙樣本t檢驗(yàn)允許我們基于來自兩組中的每一組的樣本來測試兩組的總體平均值相等的零假設(shè)。

這在實(shí)踐中意味著什么？如果我們的樣本量不是太小，如果我們的數(shù)據(jù)看起來違反了正常假設(shè)，我們就不應(yīng)過分擔(dān)心。此外，出于同樣的原因，即使X不正常（同樣，當(dāng)樣本量足夠大時(shí)），組均值差異的95％置信區(qū)間也將具有正確的覆蓋率。當(dāng)然，對于小樣本或高度偏斜的分布，上述漸近結(jié)果可能不會給出非常好的近似，因此類型1誤差率可能偏離標(biāo)稱的5％水平。

現(xiàn)在讓我們用R來檢驗(yàn)樣本均值分布（在重復(fù)樣本中）收斂到正態(tài)分布的速度。我們將模擬來自對數(shù)正態(tài)分布的數(shù)據(jù) - 即log（X）遵循正態(tài)分布。我們可以通過從正態(tài)分布中取冪隨機(jī)抽取來從此分布中生成隨機(jī)樣本。首先，我們將繪制一個(gè)大的（n = 100000）樣本并繪制其分布以查看它的外觀：我們可以看到它的分布是高度偏斜的。從表面上看，我們會擔(dān)心對這些數(shù)據(jù)使用t檢驗(yàn)，假設(shè)X是正態(tài)分布的。

為了看看樣本的樣本分布，我們將選擇樣本大小為n，并從對數(shù)正態(tài)分布中重復(fù)繪制大小為n的樣本，計(jì)算樣本均值，然后繪制這些樣本均值的分布。以下顯示n = 3的樣本平均值的直方圖（來自10,000個(gè)重復(fù)樣本）：

樣本均值的分布，n = 3

這里的采樣分布是傾斜的。如此小的樣本量，如果其中一個(gè)樣本從分布的尾部具有高值，則這將給出與真實(shí)均值相差很遠(yuǎn)的樣本均值。如果我們重復(fù)，但現(xiàn)在n = 10：它現(xiàn)在看起來更正常，但它仍然是偏斜的 - 樣本均值有時(shí)很大。請注意，x軸范圍現(xiàn)在更小 - 樣本均值的可變性現(xiàn)在小于n = 3。最后，我們嘗試n = 100：

現(xiàn)在樣本均值的分布（來自人口的重復(fù)樣本）看起來非常正常。當(dāng)n很大時(shí)，即使我們的一個(gè)觀測結(jié)果可能位于分布的尾部，分布中心附近的所有其他觀測值也會保持平均值。這表明對于這個(gè)特定的X分布，t檢驗(yàn)應(yīng)該是正確的，n = 100 。檢查這種情況的更直接的方法是進(jìn)行模擬研究，其中我們憑經(jīng)驗(yàn)估計(jì)t檢驗(yàn)的1型錯(cuò)誤率，在給定的n選擇下應(yīng)用于該分布。

當(dāng)然，如果X不是正態(tài)分布的，即使假設(shè)正態(tài)性的t檢驗(yàn)的類型1錯(cuò)誤率接近5％，測試也不會是最佳的。也就是說，將存在零假設(shè)的替代測試，其具有檢測替代假設(shè)的更大功率。

贊賞

共11人贊賞

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：拓端數(shù)據(jù) > 《待分類》

舉報(bào)/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

【原】R語言t檢驗(yàn)和非正態(tài)性的魯棒性

原文連接：http:///?p=6261