小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

描述性統(tǒng)計分析

 進擊的可樂 2021-12-15

本小節(jié)介紹什么是描述性統(tǒng)計分析,以及常用的指標

一、什么是描述統(tǒng)計分析(Descriptive Analysis)

概念:使用幾個關(guān)鍵數(shù)據(jù)來描述整體的情況

描述性數(shù)據(jù)分析屬于比較初級的數(shù)據(jù)分析,常見的分析方法包括對比分析法、平均分析法、交叉分析法等。描述性統(tǒng)計分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)做統(tǒng)計性描述,主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布、以及一些基本的統(tǒng)計圖形。

Excel里的分析工具庫里的數(shù)據(jù)分析可以實現(xiàn)描述性統(tǒng)計分析的功能。

描述性統(tǒng)計分析即是對數(shù)據(jù)源最初的認知,包括數(shù)據(jù)的集中趨勢、分散程度以及頻數(shù)分布等,了解了這些后才能去做進一步的分析。

二、常用指標

均值、中位數(shù)、眾數(shù)體現(xiàn)了數(shù)據(jù)的集中趨勢。

極差、方差、標準差體現(xiàn)了數(shù)據(jù)的離散程度。

偏度、峰度體現(xiàn)了數(shù)據(jù)的分布形狀。

1、均值。均值容易受極值的影響,當數(shù)據(jù)集中出現(xiàn)極值時,所得到的的均值結(jié)果將會出現(xiàn)較大的偏差。

2、中位數(shù):數(shù)據(jù)按照從小到大的順序排列時,最中間的數(shù)據(jù)即為中位數(shù)。當數(shù)據(jù)個數(shù)為奇數(shù)時,中位數(shù)即最中間的數(shù),如果有N個數(shù),則中間數(shù)的位置為(N+1)/2;當數(shù)據(jù)個數(shù)為偶數(shù)時,中位數(shù)為中間兩個數(shù)的平均值,中間位置的算法是(N+1)/2。中位數(shù)不受極值影響,因此對極值缺乏敏感性。

3、眾數(shù):數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)字,即頻數(shù)最大的數(shù)值。眾數(shù)可能不止一個,眾數(shù)不能能用于數(shù)值型數(shù)據(jù),還可用于非數(shù)值型數(shù)據(jù),不受極值影響。

4、極差:=最大值-最小值,是描述數(shù)據(jù)分散程度的量,極差描述了數(shù)據(jù)的范圍,但無法描述其分布狀態(tài)。且對異常值敏感,異常值的出現(xiàn)使得數(shù)據(jù)集的極差有很強的誤導性。

5、四分位數(shù):數(shù)據(jù)從小到大排列并分成四等份,處于三個分割點位置的數(shù)值,即為四分位數(shù),四分位數(shù)分為上四分位數(shù)(數(shù)據(jù)從小到大排列排在第75%的數(shù)字,即最大的四分位數(shù))、下四分位數(shù)(數(shù)據(jù)從小到大排列排在第25%位置的數(shù)字,即最小的四分位數(shù))、中間的四分位數(shù)即為中位數(shù)。四分位數(shù)可以很容易地識別異常值。箱線圖就是根據(jù)四分位數(shù)做的圖。

四分位數(shù)的計算:

  • 下四分位數(shù)的位置:

1、計算n/4

2、如果結(jié)果為整數(shù),則下四分位數(shù)位于n/4這個位置和下一個位置的中間,取這兩個位置上數(shù)值的平均值

3、如果結(jié)果不為整數(shù),則向上取整,所得結(jié)果為下四分位數(shù)的位置

  • 上四分位數(shù)的位置:

1、計算3n/4,

2、如果結(jié)果為整數(shù),則上四分位數(shù)位于3n/4這個位置和下一個位置的中間,取這兩個位置上數(shù)值的平均值

3、如果結(jié)果不為整數(shù),則向上取整,所得結(jié)果為上四分位數(shù)的位置

eg、3 3 6 7 7 10 10 11 13 30

n=11, 11/4=2.75,不為整,向上取整3,則下四分位數(shù)是第3個數(shù),即6;

3*11/4=8.25,也不為整,向上取整9,則上四分位是第9個數(shù),即11

箱線圖可以用來比較不同組別的數(shù)據(jù)。箱線圖除了上下四分位數(shù),還有上界(除異常點以外的最大值)、下界(除異常點以外的最小值)

6、方差和標準差。方差是每個數(shù)據(jù)值與全體數(shù)據(jù)的平均數(shù)差的平方的平均數(shù)。標準差是方差開方。方差與標準差表示數(shù)據(jù)集波動的大小,方差小,表示數(shù)據(jù)集比較集中,波動性小,方差大,表示數(shù)據(jù)集比較分散,波動性大。由于標準差只能用于統(tǒng)一體系內(nèi)的數(shù)據(jù)比較,如果要對不同體系的數(shù)據(jù)比較,就要引入標準分的概念。

7、標準分z:對數(shù)據(jù)進行標準化處理,又叫Z標準化,經(jīng)過Z標準化處理后的數(shù)據(jù)符合正態(tài)分布(即均值為0,標準差為1)。標準分是對不同數(shù)據(jù)集的數(shù)據(jù)進行比較的量,可用來表示數(shù)據(jù)值在所在數(shù)據(jù)集內(nèi)的相對排名 。標準分的意義是每個數(shù)值距離平均值有多少個標準差。

有數(shù)據(jù)集x1,x2,x3,其平均值為μ,標準差為σ,則其標準分z為:

8、峰度:描述正態(tài)分布中曲線峰頂尖哨程度的指標。峰度系數(shù)>0,則兩側(cè)極端數(shù)據(jù)較少,比正太分布更高更瘦,呈尖哨峰分布;峰度系數(shù)<0,則兩側(cè)極端數(shù)據(jù)較多,比正太分布更矮更胖,呈平闊峰分布。

9、偏度:以正態(tài)分布為標準描述數(shù)據(jù)對稱性的指標。偏度系數(shù)=0,則分布對稱;偏度系數(shù)>0,則頻數(shù)分布的高峰向左偏移,長尾向右延伸,呈正偏態(tài)分布;偏度系數(shù)<0,則頻數(shù)分布的高峰向右偏移,長尾向左延伸,呈負偏態(tài)分布。

還有一些其他的量,不僅在描述性統(tǒng)計分析中常見,在數(shù)據(jù)報告中也很常見,如

10、絕對數(shù)

11、相對數(shù):倍數(shù)、成數(shù)、百分數(shù)

12、百分比

13、百分點:1個百分點=1%,是指變動的幅度

14、頻數(shù):絕對數(shù),是一組數(shù)據(jù)中個別數(shù)據(jù)重復出現(xiàn)的次數(shù)

15、頻率:相對數(shù),次數(shù)與總次數(shù)的比。

16、比例:相對數(shù),總體中各部分占全部的比,如:男生的比例是30:50

17、比率:相對數(shù),不同類別的比,如男女比率俄日3:2

18、倍數(shù):相對數(shù),一個數(shù)除以另一個數(shù)所得的商,如A/B=C,那么A是B的C倍。

19、番數(shù):相對數(shù),指原來數(shù)量的2的N次方,如翻一番,意思是原來數(shù)量的2倍,翻兩番意思是4倍

20、同比:相對數(shù),指歷史同時期進行比較,如去年12月與今年12月相比是同比

21、環(huán)比:相對數(shù),指與前一個統(tǒng)計期進行比較,如今年5月與今年4月相比是環(huán)比

------------------------------------------ 

下一節(jié)內(nèi)容:用Excel做直方圖(2):頻率分布直方圖

注:本文首發(fā)于CSDN,原文見原文鏈接

@文章屬原創(chuàng),轉(zhuǎn)載請聯(lián)系作者

@作者:蝦殼,在數(shù)據(jù)分析的道路上努力奔跑

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多