參數(shù)估計(Parameter Estimation)是統(tǒng)計推斷的一種,指根據(jù)從總體中抽取的隨機(jī)樣本來估計總體分布中未知參數(shù)的過程。它主要處理兩個問題:一是求出未知參數(shù)的估計量;二是在一定信度(可靠程度)下指出所求的估計量的精度。信度一般用概率表示,如可信程度為95%;精度則用估計量與被估參數(shù)之間的接近程度或誤差來度量。 區(qū)間估計(Interval Estimation)是參數(shù)估計的一種形式,它在點估計的基礎(chǔ)上,進(jìn)一步給出總體參數(shù)估計的一個區(qū)間范圍。這個區(qū)間通常由樣本統(tǒng)計量加減估計誤差得到,用于表達(dá)估計值的不確定性。 區(qū)間估計的核心概念是置信區(qū)間和置信水平。置信區(qū)間是指按一定的概率或可信度(置信水平)用一個區(qū)間來估計總體參數(shù)所在的范圍。例如,我們可以說某藥品所含雜質(zhì)的比率在95%的置信水平下位于1%~2%之間。這里的“95%”就是置信水平,“1%~2%”則是置信區(qū)間。 在正態(tài)分布當(dāng)中,均值上下1.65個標(biāo)準(zhǔn)差可以覆蓋90%的樣本,均值上下1.96個標(biāo)準(zhǔn)差可以覆蓋95%的樣本,均值上下2.58個標(biāo)準(zhǔn)差可以覆蓋99%的樣本。也即
的值通??梢酝ㄟ^查表獲得。 總體服從正態(tài)分布的情況下,樣本的均值。因此對于總體均值的估計的95%的置信水平下的區(qū)間估計為 總體正態(tài)分布,方差不可知的情況下,小樣本數(shù)據(jù)樣本均值的區(qū)間估計使用T統(tǒng)計量: 但是在總體正態(tài)分布,方差不可知的情況下,大樣本數(shù)據(jù)(樣本量大于30)可以近似認(rèn)為樣本均值。區(qū)間估計為因為大樣本的情況下T分布非常接近正態(tài)分布。其統(tǒng)計誤差可以忽略。 例子:估計某產(chǎn)品重量的置信區(qū)間 假設(shè)一家生產(chǎn)公司想要了解其生產(chǎn)的某種產(chǎn)品的平均重量(以克為單位),但由于成本和實際操作的考慮,無法對所有產(chǎn)品進(jìn)行稱重。因此,公司決定從生產(chǎn)線上隨機(jī)抽取100個產(chǎn)品作為樣本,并測量這些產(chǎn)品的重量。樣本的平均重量為150克,樣本標(biāo)準(zhǔn)差為10克?,F(xiàn)在,公司想要估計總體平均重量的95%置信區(qū)間。
在這個例子中,樣本均值(X?)是已知的,為150克。樣本標(biāo)準(zhǔn)差(s)為10克,但總體標(biāo)準(zhǔn)差(σ)未知。由于樣本量(n=100)相對較大(通常認(rèn)為n≥30即為大樣本),我們可以使用正態(tài)分布來近似樣本均值的抽樣分布,即使總體標(biāo)準(zhǔn)差未知,我們也可以利用樣本標(biāo)準(zhǔn)差來估計。
公司選擇了95%的置信水平,這意味著我們希望總體平均重量落在所估計的區(qū)間內(nèi)的概率為95%。
對于95%的置信水平,我們需要找到正態(tài)分布中對應(yīng)于0.025和0.975的分位數(shù)(即Z值)。這些分位數(shù)分別是-1.96和1.96(這是從標(biāo)準(zhǔn)正態(tài)分布表中得到的近似值)。
將已知的數(shù)值代入?yún)^(qū)間估計的公式中: 因此,我們可以說,在95%的置信水平下,該產(chǎn)品的總體平均重量位于148.04克到151.96克之間。 python 實現(xiàn)import numpy as np 注意
|
|