本文嘗試濃縮書本中關(guān)于正態(tài)分布的知識(shí),幫助讀者在20分鐘內(nèi)理解主干知識(shí)及用途,并希望寫得盡可能有趣。 (德幣10馬克印有高斯頭像,以及他的“代表作”——高斯分布曲線。) 正態(tài)分布(Normal distribution)又名高斯分布(Gaussian distribution),簡(jiǎn)單來(lái)說(shuō),它描述的就是正常分布,比如身高、體重、一些社會(huì)中的財(cái)富等分布,多數(shù)人都會(huì)集中在某個(gè)區(qū)間。盡管在高斯之前,有些數(shù)學(xué)家已經(jīng)發(fā)現(xiàn)了這一規(guī)律,但高斯是將其更嚴(yán)格描述的人。 (正態(tài)分布的知識(shí)關(guān)系圖) 01 正態(tài)分布的背景知識(shí) 平均值、方差、標(biāo)準(zhǔn)差三個(gè)部分如同土壤,會(huì)很大程度影響正態(tài)分布這棵樹的生長(zhǎng)情況。因此,在介紹正態(tài)分布前,我需要簡(jiǎn)單介紹它們(如你已掌握,可直接跳至 02正態(tài)分布的主干知識(shí) 進(jìn)行閱讀~)。 由于樣本量的不同,平均值、方差、標(biāo)準(zhǔn)差可以分“總體”和“樣本”兩類。為強(qiáng)化對(duì)比,在后文的介紹中,我會(huì)在它們前面加上限定詞,即“總體”或“樣本”。如果沒(méi)有限定詞,那么平均值、方差、標(biāo)準(zhǔn)差所指代的就是總體的平均值、方差、標(biāo)準(zhǔn)差。
方差是衡量一組數(shù)據(jù)波動(dòng)大小的統(tǒng)計(jì)量。我們學(xué)習(xí)方差最重要的,不在于掌握繁雜的計(jì)算,而是能夠根據(jù)其結(jié)果,了解所有數(shù)據(jù)的狀態(tài)。 方差分為兩類:總體方差和樣本方差。兩者的基本思路一致,但最大的差別在于樣本量不同,前者是整體,后者是整體中的部分。 若x1,x2,x3......xn的平均數(shù)為μ,則總體方差可表示為: (Excel 里也能看到它的身影~) (少量數(shù)據(jù)好計(jì)算,數(shù)據(jù)多的話,就讓計(jì)算機(jī)/器幫忙吧~) 回到總體方差和樣本方差區(qū)別的話題,這里舉個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明。假設(shè)我們想知道中國(guó)人身高的標(biāo)準(zhǔn)差,但因人、財(cái)、物力有限,我們不可能把所有人都量一遍,因此,只能退而求其次,采取抽樣策略,用樣本標(biāo)準(zhǔn)差來(lái)推測(cè)整體,這時(shí),我們就會(huì)用到樣本方差。 樣本方差和總體方差計(jì)算上略有區(qū)別,主要體現(xiàn)在分母上。不同于總體方差的分母為n,樣本方差的分母為n-1。這里“-1”是為了修正樣本方差對(duì)總體方差的估計(jì)偏差,這種現(xiàn)象被稱為“貝塞爾校正”(Bessel's correction)。 這個(gè)減去的“1”,不特指任何一個(gè)數(shù),它代表那個(gè)失去“獨(dú)立客觀”的維度(自由度)。 樣本方差的計(jì)算公式如下: 因此,在計(jì)算樣本標(biāo)準(zhǔn)差(S,即樣本方差開根號(hào))時(shí),其分母也是n?1而不是n(即樣本大小減1)。這里在后文標(biāo)準(zhǔn)差的部分還會(huì)提到。 小貼士:樣本標(biāo)準(zhǔn)差的分母為什么為n-1在數(shù)學(xué)領(lǐng)域已被證明,是較復(fù)雜的內(nèi)容,這里不做過(guò)多展開,有興趣的讀者可查閱相關(guān)資料哦~
當(dāng)我們談?wù)撘粋€(gè)正態(tài)分布時(shí),通常是在談?wù)撘粋€(gè)總體的分布,而不是一個(gè)樣本的分布。因此,使用 μ 來(lái)表示正態(tài)分布的均值是合適的。
正態(tài)分布一種常見(jiàn)的連續(xù)概率分布,它在自然科學(xué)和社會(huì)科學(xué)中常用于表示未知的隨機(jī)變量。若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ2的正態(tài)分布,則記為N(μ,σ2)。 正態(tài)分布的曲線呈鐘型,因此人們又經(jīng)常稱之為“鐘形曲線”。正態(tài)分布雖有無(wú)數(shù)種形態(tài),但仍由μ(平均值)和σ(標(biāo)準(zhǔn)差)兩個(gè)數(shù)值決定。其中,μ決定了正態(tài)分布的位置,σ決定了分布的幅度。理解了這一點(diǎn),你就不需要單獨(dú)記憶每一個(gè)正態(tài)分布圖啦。 現(xiàn)在,讓我們一起來(lái)看一些有代表性的正態(tài)分布圖吧(下面的文字濃度有點(diǎn)高,值得多看幾遍~): 當(dāng)μ=0,σ=1時(shí),這個(gè)正態(tài)分布就是標(biāo)準(zhǔn)正態(tài)分布,(見(jiàn)下圖紅線)。 以正態(tài)分布為參考標(biāo)準(zhǔn),μ為負(fù)則圖形向左移動(dòng)(見(jiàn)下圖綠線),反之,μ為正,則圖形向右移動(dòng)。 小貼士:不知道你是否注意到,和各行業(yè)一樣,數(shù)學(xué)也有自己的“黑話”(業(yè)內(nèi)術(shù)語(yǔ)),比如正態(tài)分布定義里的“服從”和“期望”。 數(shù)學(xué)語(yǔ)言中的“服從”是指“符合”、“遵從”的意思,一般指事物符合數(shù)學(xué)中的發(fā)展規(guī)律。 除了上面的例子,正態(tài)分布其實(shí)還有數(shù)種形態(tài),但它們的模型主要由μ(平均值)和σ(標(biāo)準(zhǔn)差)兩個(gè)數(shù)值決定。 介紹了決定正態(tài)分布曲線的關(guān)鍵參數(shù)后,我們?cè)賮?lái)看看關(guān)于曲線下方覆蓋面積呈現(xiàn)的規(guī)律。在距離平均值±1的標(biāo)準(zhǔn)差(即±σ)范圍內(nèi),集中著約全體68.26%的數(shù)據(jù);距離平均值±2的標(biāo)準(zhǔn)差(即±2σ),集中著約95.45%的數(shù)據(jù);距離平均值±3的標(biāo)準(zhǔn)差(即±3σ),包含著99.73%的數(shù)據(jù)。曲線下方覆蓋的面積,在統(tǒng)計(jì)學(xué)上被稱“置信區(qū)間”。 這張圖是不是有點(diǎn)抽象?哈哈哈,讓我舉幾個(gè)例子,讓置信區(qū)間中的數(shù)字走進(jìn)生活。 (1)有大約68%的可能性,動(dòng)態(tài)范圍不超過(guò)平均值±σ。在一個(gè)班上,一班的平均分為80分,如果標(biāo)準(zhǔn)差為5分,我們就有68%的置信度說(shuō),考慮到隨機(jī)性的影響,這個(gè)班的平均成績(jī)應(yīng)落在75~85之間,而不是之外。 (2)有大約95%的可能性,動(dòng)態(tài)范圍不超過(guò)平均值±2σ,即兩個(gè)σ的置信度是95%。做科學(xué)試驗(yàn)時(shí),通常需要有95%的置信度,才能得到大家認(rèn)可的結(jié)論;在產(chǎn)品質(zhì)檢中,可以通過(guò)抽樣檢測(cè)來(lái)估計(jì)產(chǎn)品的平均質(zhì)量水平,并利用95%置信區(qū)間來(lái)評(píng)估這個(gè)估計(jì)的可靠性。 (3)如果我們進(jìn)一步擴(kuò)大誤差范圍到±3σ,那么這個(gè)置信度就提高到99.7%。在要求極高的實(shí)驗(yàn)中,我們甚至?xí)筮_(dá)到99.7%的置信度,甚至更高;在招聘中,面試官可以使用3σ原則來(lái)確定錄取分?jǐn)?shù)線。通過(guò)計(jì)算應(yīng)聘者的平均分?jǐn)?shù)和標(biāo)準(zhǔn)差,可以確定一個(gè)合理的分?jǐn)?shù)線范圍,從而篩選出合格的應(yīng)聘者。 在02正態(tài)分布的主干知識(shí)中,我們介紹了影響正態(tài)分布形態(tài)的土壤(平均值、方差、標(biāo)準(zhǔn)差),以及由此長(zhǎng)出的小樹(正態(tài)分布的圖像)。結(jié)束前,我想跟大家介紹一個(gè)與正態(tài)分布有關(guān)的常用小工具。
雖然通過(guò)觀察圖也能把握大致情況,但計(jì)算數(shù)值后會(huì)更便于理解,也方便向他人展示。好消息是,Z轉(zhuǎn)換(標(biāo)準(zhǔn)化)可以實(shí)現(xiàn)統(tǒng)一尺度。 對(duì)于數(shù)據(jù)集中的每一個(gè)數(shù)值X,可使用以下公式進(jìn)行標(biāo)準(zhǔn)化: 在這個(gè)公式中,Z是轉(zhuǎn)換后的標(biāo)準(zhǔn)值,X 是原始數(shù)據(jù)點(diǎn)的值,μ是原始數(shù)據(jù)的平均值和σ是原始數(shù)據(jù)的標(biāo)準(zhǔn)差。 別被公式嚇到,放進(jìn)日常的簡(jiǎn)單應(yīng)用場(chǎng)景就豁然開朗了。 小A參加了小學(xué)模擬考試,數(shù)學(xué)得了73分,英語(yǔ)得了76分。數(shù)學(xué)平均分是60分,英語(yǔ)平均分是68分。那么,小A的數(shù)學(xué)成績(jī)和英文成績(jī),哪一個(gè)相對(duì)來(lái)說(shuō)比較好呢?(得分均按照正態(tài)分布)實(shí)際上,僅這些條件是無(wú)法進(jìn)行判斷的,還需要能夠表示全體離散程度的標(biāo)準(zhǔn)差?,F(xiàn)在,我們假定數(shù)學(xué)是標(biāo)準(zhǔn)差為8分的正態(tài)分布,英語(yǔ)則是標(biāo)準(zhǔn)差為6分的正態(tài)分布。 用Z變換的公式可得: 英語(yǔ) : (得分-平均分)÷標(biāo)準(zhǔn)差=(76-68)÷6=1.333 也就是說(shuō),當(dāng)標(biāo)準(zhǔn)差為1時(shí),小A的數(shù)學(xué)、英語(yǔ)成績(jī)標(biāo)準(zhǔn)差分別是1.625、1.333。不同學(xué)科的成績(jī)轉(zhuǎn)化為標(biāo)準(zhǔn)得分后,變得可比較了。 另外,用“標(biāo)準(zhǔn)得分=1”進(jìn)行了標(biāo)準(zhǔn)化,“平均值”會(huì)變成什么樣呢?本來(lái),平均分根據(jù)科目的不同而不同,但以標(biāo)準(zhǔn)得分進(jìn)行分布的時(shí)候,平均值為0。 因此,在對(duì)成績(jī)進(jìn)行“標(biāo)準(zhǔn)化”時(shí),分布會(huì)變?yōu)槠骄?0、標(biāo)準(zhǔn)差=1的標(biāo)準(zhǔn)正態(tài)分布。需注意的是,標(biāo)準(zhǔn)化改變的只是圖的位置,比如向左或向右平移,但并不會(huì)改變“高矮胖瘦”。 完成z變換,我們就通過(guò)可以利用z值表找到對(duì)應(yīng)的概率值啦。這里會(huì)用到“標(biāo)準(zhǔn)正態(tài)分布表”。 這個(gè)表是前人整理好的數(shù)據(jù),用起來(lái)也很方便。首先,我們要看最左手列,去查閱Z至小數(shù)點(diǎn)后1位數(shù),之后,我們?cè)俨樽钌弦恍?,看Z的第二位小數(shù),左右交叉得到的數(shù),就是我們需要找的數(shù)。 放到小A的例子中,數(shù)學(xué)的標(biāo)準(zhǔn)差為1.625、英語(yǔ)的標(biāo)準(zhǔn)差為1.333。我們來(lái)試試查這個(gè)表。以數(shù)學(xué)為例,先看最左列,Z至小數(shù)點(diǎn)后1位數(shù)為1.6,接著,再看最上行,Z的第2位小數(shù)我取0.02,交叉得到的數(shù)就是0.9474(藍(lán)色方框中的數(shù))。英語(yǔ)的查閱方式同理,取值為0.9082。 04 結(jié)語(yǔ) |
|
來(lái)自: dakawang > 《科學(xué)技術(shù)》