1.點估計與區(qū)間估計 首先我們看看點估計的含義: 是用樣本統(tǒng)計量來估計總體參數(shù),因為樣本統(tǒng)計量為數(shù)軸上某一點值,估計的結(jié)果也以一個點的數(shù)值表示,所以稱為點估計。點估計雖然給出了未知參數(shù)的估計值,但是未給出估計值的可靠程度,即估計值偏離未知參數(shù)真實值的程度。 接下來看下區(qū)間估計: 給定置信水平,根據(jù)估計值確定真實值可能出現(xiàn)的區(qū)間范圍,該區(qū)間通常以估計值為中心,該區(qū)間則為置信區(qū)間。 2.中心極限定理與大數(shù)定理 中心極限定理: 在適當?shù)臈l件下,大量相互獨立隨機變量的均值經(jīng)適當標準化后依分布收斂于正態(tài)分布。例如我們要計算全中國人的平均身高。如果每次取10000個身高作為樣本,對應(yīng)有一個樣本均值。如果再從總體中重復(fù)抽取n多次10000個樣本,就對應(yīng)有n個樣本均值。隨著n增大,把所有樣本均值畫出來,得到的就是一個接近正太分布的曲線。 大數(shù)定理: 取樣數(shù)趨近無窮時,樣品平均值按概率收斂于期望值。拋硬幣的次數(shù)越多,越接近正反各一半。 3.置信區(qū)間與置信水平 一般我們用中括號[a,b]表示樣本估計總體平均值誤差范圍的區(qū)間。a、b的具體數(shù)值取決于你對于”該區(qū)間包含總體均值”這一結(jié)果的可信程度,因此[a,b]被稱為置信區(qū)間。 一般來說,選定某一個置信區(qū)間,我們的目的是為了讓”ab之間包含總體平均值”的結(jié)果有一特定的概率,這個概率就是所謂的置信水平。 例如我們最常用的95%置信水平,就是說做100次抽樣,有95次的置信區(qū)間包含了總體均值。 4.標準差(standard deviation)與標準誤差(standard error) 標準差是描述觀察值(個體值)之間的變異程度(例如一個人打十次靶子的成績,這時有一個平均數(shù)8,有一個反映他成績穩(wěn)定與否的標準差); 標準誤是描述樣本均數(shù)的抽樣誤差(例如十次抽樣,每次他成績平均數(shù)(7,8,6,9,5,6,7,7,8,9)的標準差,也就是抽樣分布的標準差); 樣本的標準誤差為: SE=s(樣本標準差)n??√ SE=s(樣本標準差)n 5.如何理解95%的置信區(qū)間 以上面的統(tǒng)計身高為例,假設(shè)全國人民的身高服從正態(tài)分布: X~N(μ,σ2) X~N(μ,σ2) 不斷進行采樣,假設(shè)樣本的大小為n,則樣本的均值為: M=X1+X2+?+Xnn M=X1+X2+?+Xnn 由大數(shù)定理與中心極限定理: M~N(μ,σ21) M~N(μ,σ12) 注意σ1σ1的計算方法為第4部分提到的標準誤差! 為什么常用95%的置信水平: 對照上圖,用一句簡單的話概括就是: 有95%的樣本均值會落在2個(比較精確的值是1.96)標準誤差范圍內(nèi)。 用數(shù)學(xué)公式描述就是: P(μ?1.96σn??√<M<μ+1.96σn??√)=0.95 P(μ?1.96σn<M<μ+1.96σn)=0.95 6.計算置信區(qū)間的套路 從上面的例子來看,計算置信區(qū)間的套路如下: 1.首先明確要求解的問題。比如我們的例子,就是想通過樣本來估計全國人民身高的平均值。 2.求抽樣樣本的平均值與標準誤差(standard error)。注意標準誤差與標準差(standard deviation)不一樣。 3.確定需要的置信水平。比如常用的95%的置信水平,這樣可以保證樣本的均值會落在總體平均值2個標準差得范圍內(nèi)。 4.查z表,求z值。 5.計算置信區(qū)間 a = 樣本均值 - z*標準誤差 b = 樣本均值 + z*標準誤差 用公式表示置信區(qū)間: xˉˉˉ±zsn??√ xˉ±zsn 其中,xˉˉˉxˉ表示樣本的均值,zz值表示有多少標準差,ss為樣本的方差。 ———————————————— 版權(quán)聲明:本文為CSDN博主「bitcarmanlee」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。 原文鏈接:https://blog.csdn.net/bitcarmanlee/article/details/82709774 |
|