一、什么是描述統(tǒng)計分析(Descriptive Analysis) 概念:使用幾個關(guān)鍵數(shù)據(jù)來描述整體的情況 描述性數(shù)據(jù)分析屬于比較初級的數(shù)據(jù)分析,常見的分析方法包括對比分析法、平均分析法、交叉分析法等。描述性統(tǒng)計分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)做統(tǒng)計性描述,主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布、以及一些基本的統(tǒng)計圖形。 Excel里的分析工具庫里的數(shù)據(jù)分析可以實現(xiàn)描述性統(tǒng)計分析的功能。 描述性統(tǒng)計分析即是對數(shù)據(jù)源最初的認知,包括數(shù)據(jù)的集中趨勢、分散程度以及頻數(shù)分布等,了解了這些后才能去做進一步的分析。 二、常用指標
1、均值。均值容易受極值的影響,當數(shù)據(jù)集中出現(xiàn)極值時,所得到的的均值結(jié)果將會出現(xiàn)較大的偏差。 2、中位數(shù):數(shù)據(jù)按照從小到大的順序排列時,最中間的數(shù)據(jù)即為中位數(shù)。當數(shù)據(jù)個數(shù)為奇數(shù)時,中位數(shù)即最中間的數(shù),如果有N個數(shù),則中間數(shù)的位置為(N+1)/2;當數(shù)據(jù)個數(shù)為偶數(shù)時,中位數(shù)為中間兩個數(shù)的平均值,中間位置的算法是(N+1)/2。中位數(shù)不受極值影響,因此對極值缺乏敏感性。 3、眾數(shù):數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)字,即頻數(shù)最大的數(shù)值。眾數(shù)可能不止一個,眾數(shù)不能能用于數(shù)值型數(shù)據(jù),還可用于非數(shù)值型數(shù)據(jù),不受極值影響。 4、極差:=最大值-最小值,是描述數(shù)據(jù)分散程度的量,極差描述了數(shù)據(jù)的范圍,但無法描述其分布狀態(tài)。且對異常值敏感,異常值的出現(xiàn)使得數(shù)據(jù)集的極差有很強的誤導性。 5、四分位數(shù):數(shù)據(jù)從小到大排列并分成四等份,處于三個分割點位置的數(shù)值,即為四分位數(shù),四分位數(shù)分為上四分位數(shù)(數(shù)據(jù)從小到大排列排在第75%的數(shù)字,即最大的四分位數(shù))、下四分位數(shù)(數(shù)據(jù)從小到大排列排在第25%位置的數(shù)字,即最小的四分位數(shù))、中間的四分位數(shù)即為中位數(shù)。四分位數(shù)可以很容易地識別異常值。箱線圖就是根據(jù)四分位數(shù)做的圖。 四分位數(shù)的計算:
1、計算n/4 2、如果結(jié)果為整數(shù),則下四分位數(shù)位于n/4這個位置和下一個位置的中間,取這兩個位置上數(shù)值的平均值 3、如果結(jié)果不為整數(shù),則向上取整,所得結(jié)果為下四分位數(shù)的位置
1、計算3n/4, 2、如果結(jié)果為整數(shù),則上四分位數(shù)位于3n/4這個位置和下一個位置的中間,取這兩個位置上數(shù)值的平均值 3、如果結(jié)果不為整數(shù),則向上取整,所得結(jié)果為上四分位數(shù)的位置 eg、3 3 6 7 7 10 10 11 13 30 n=11, 11/4=2.75,不為整,向上取整3,則下四分位數(shù)是第3個數(shù),即6; 3*11/4=8.25,也不為整,向上取整9,則上四分位是第9個數(shù),即11 箱線圖可以用來比較不同組別的數(shù)據(jù)。箱線圖除了上下四分位數(shù),還有上界(除異常點以外的最大值)、下界(除異常點以外的最小值) 6、方差和標準差。方差是每個數(shù)據(jù)值與全體數(shù)據(jù)的平均數(shù)差的平方的平均數(shù)。標準差是方差開方。方差與標準差表示數(shù)據(jù)集波動的大小,方差小,表示數(shù)據(jù)集比較集中,波動性小,方差大,表示數(shù)據(jù)集比較分散,波動性大。由于標準差只能用于統(tǒng)一體系內(nèi)的數(shù)據(jù)比較,如果要對不同體系的數(shù)據(jù)比較,就要引入標準分的概念。 7、標準分z:對數(shù)據(jù)進行標準化處理,又叫Z標準化,經(jīng)過Z標準化處理后的數(shù)據(jù)符合正態(tài)分布(即均值為0,標準差為1)。標準分是對不同數(shù)據(jù)集的數(shù)據(jù)進行比較的量,可用來表示數(shù)據(jù)值在所在數(shù)據(jù)集內(nèi)的相對排名 。標準分的意義是每個數(shù)值距離平均值有多少個標準差。 有數(shù)據(jù)集x1,x2,x3,其平均值為μ,標準差為σ,則其標準分z為: 8、峰度:描述正態(tài)分布中曲線峰頂尖哨程度的指標。峰度系數(shù)>0,則兩側(cè)極端數(shù)據(jù)較少,比正太分布更高更瘦,呈尖哨峰分布;峰度系數(shù)<0,則兩側(cè)極端數(shù)據(jù)較多,比正太分布更矮更胖,呈平闊峰分布。 9、偏度:以正態(tài)分布為標準描述數(shù)據(jù)對稱性的指標。偏度系數(shù)=0,則分布對稱;偏度系數(shù)>0,則頻數(shù)分布的高峰向左偏移,長尾向右延伸,呈正偏態(tài)分布;偏度系數(shù)<0,則頻數(shù)分布的高峰向右偏移,長尾向左延伸,呈負偏態(tài)分布。 還有一些其他的量,不僅在描述性統(tǒng)計分析中常見,在數(shù)據(jù)報告中也很常見,如 10、絕對數(shù) 11、相對數(shù):倍數(shù)、成數(shù)、百分數(shù) 12、百分比 13、百分點:1個百分點=1%,是指變動的幅度 14、頻數(shù):絕對數(shù),是一組數(shù)據(jù)中個別數(shù)據(jù)重復出現(xiàn)的次數(shù) 15、頻率:相對數(shù),次數(shù)與總次數(shù)的比。 16、比例:相對數(shù),總體中各部分占全部的比,如:男生的比例是30:50 17、比率:相對數(shù),不同類別的比,如男女比率俄日3:2 18、倍數(shù):相對數(shù),一個數(shù)除以另一個數(shù)所得的商,如A/B=C,那么A是B的C倍。 19、番數(shù):相對數(shù),指原來數(shù)量的2的N次方,如翻一番,意思是原來數(shù)量的2倍,翻兩番意思是4倍 20、同比:相對數(shù),指歷史同時期進行比較,如去年12月與今年12月相比是同比 21、環(huán)比:相對數(shù),指與前一個統(tǒng)計期進行比較,如今年5月與今年4月相比是環(huán)比 ------------------------------------------ 下一節(jié)內(nèi)容:用Excel做直方圖(2):頻率分布直方圖 注:本文首發(fā)于CSDN,原文見原文鏈接 @文章屬原創(chuàng),轉(zhuǎn)載請聯(lián)系作者 @作者:蝦殼,在數(shù)據(jù)分析的道路上努力奔跑 |
|