此文是《10周入門數(shù)據(jù)分析》系列的第8篇 想了解學(xué)習(xí)路線,可以先閱讀“學(xué)習(xí)計劃 | 10周入門數(shù)據(jù)分析” 前一篇分享了統(tǒng)計學(xué)需要掌握的知識,在數(shù)據(jù)分析過程中,廣泛用于數(shù)據(jù)質(zhì)量處理,分析模型構(gòu)建以及數(shù)據(jù)挖掘。今天這篇文章將詳細講統(tǒng)計學(xué)中最基礎(chǔ)的描述統(tǒng)計。 試想,當你拿到一份數(shù)據(jù)會怎么做?二話不說做個圖? 此前也無數(shù)次強調(diào),拿到數(shù)據(jù)需要觀察數(shù)據(jù)情況和數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進行描述統(tǒng)計分析,以發(fā)現(xiàn)其內(nèi)在的規(guī)律,再選擇進一步分析的方法。 什么是描述性統(tǒng)計? 描述性統(tǒng)計分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)做統(tǒng)計性描述,主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布、以及一些基本的統(tǒng)計圖形。 常用的指標有均值、中位數(shù)、眾數(shù)、方差、標準差等等。數(shù)據(jù)的集中趨勢一般采用平均值、中位數(shù)表示。數(shù)據(jù)的離散程度一般采用方差、標準差表示。數(shù)據(jù)的分布情況一般采用直方圖表示。 具體概念前一篇有做詳解,就不贅述了。接下來我將用Excel來分別解釋每一種統(tǒng)計方法的應(yīng)用以及這些統(tǒng)計方法在Excel中的實現(xiàn)方式。 Excel數(shù)據(jù)分析工具庫 專業(yè)的統(tǒng)計分析工具有SPSS,R或Python,但對于大部分新手一天兩天比較難上手。永遠不要忘記萬能的Excel,Excel 2016 里自帶以了一個統(tǒng)計分析工具——“分析工具庫”。實際上就是一個外部宏(程序)模塊,專門為用戶提供一些高級統(tǒng)計函數(shù)和實用的數(shù)據(jù)分析工具。 分析工具庫內(nèi)置了19個模塊,可以分為以下幾大類: 加載EXCEL分析工具庫 首先你得要有Excel 2016 。( 文末有獲取方式 ) 安裝好2016版后,文件—選項—切換到“加載項”選項卡,在“管理”下拉列表中選擇“EXCEL加載項”選項,單擊“轉(zhuǎn)到”按鈕,跳轉(zhuǎn)到如下“加載宏”對話框,勾選“分析工具庫”復(fù)選框,再單擊“確定”按鈕 以上一波操作后,“數(shù)據(jù)”選項卡中會顯示出添加的“數(shù)據(jù)分析”功能。 案例分析: 現(xiàn)在有一份北京房價數(shù)據(jù): 1)北京市政府為調(diào)控房地產(chǎn)價格,希望知道北京各小區(qū)房屋價格的分布,請分析房地產(chǎn)價格的集中趨勢,并選擇合適的圖形呈現(xiàn)。 2)房地產(chǎn)商想知道北京各個環(huán)線房屋裝修狀況的對比情況,以便進行產(chǎn)品設(shè)計和市場拓展,計算指標并設(shè)計合適的圖形呈現(xiàn)結(jié)果,最后給房地產(chǎn)商一些建議。 3)選擇合適的圖形反映北京各個區(qū)住宅區(qū)房屋分布情況 操作步驟:
隨后,就會生成如下的統(tǒng)計分析結(jié)果,就省得一個個函數(shù)去計算了。 直方圖 根據(jù)描述統(tǒng)計的結(jié)果,在空白列構(gòu)造間隔為0.5的等差數(shù)列作為接收區(qū)域D1:D19,最大值為9,最小值為0。 選擇數(shù)據(jù),單擊“數(shù)據(jù)”選項卡,選擇“數(shù)據(jù)分析”選項框中的“直方圖”選項 輸入?yún)^(qū)域選擇房屋價格avgprice列$B$2:$B$186,接收區(qū)域選擇第一步構(gòu)造的接收數(shù)據(jù),即D1:D19數(shù)據(jù)。 輸出區(qū)域選擇G3,勾選圖表輸出,然后單擊“確定”按鈕。 選中整個直方圖,右鍵單擊選擇“設(shè)置數(shù)據(jù)系列格式”,單擊“系列選項”,分類間距設(shè)為0。 可以看出,北京的房價普遍分布在2W~4.5W,2.5W占絕大多數(shù)。 關(guān)于直方圖 直方圖是描述統(tǒng)計中很常見的一個應(yīng)用,不同直方圖代表的業(yè)務(wù)意義不同。 箱型圖 對于數(shù)據(jù)的離散情況,還有一個更直觀的方法,就是箱線圖。箱線圖利用6個指標描述數(shù)據(jù)的離散情況。這6個指標分別是最小值,第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值和異常值。
現(xiàn)在來了解北京各區(qū)的房價分析,把他加工成箱型圖,這也是最常用的描述統(tǒng)計圖表。 Excel 2016 可以直接制作箱型圖。Excel的箱型圖定位6個數(shù)據(jù):最大值、最小值、中位數(shù)、上四分位數(shù)、下四分位數(shù)、平均值,還有異常值。 操作步驟: 1、選擇所要統(tǒng)計的數(shù)據(jù),即均價。 2、選擇箱型圖 3、“選擇數(shù)據(jù)源”中,水平分類軸加上“區(qū)域”,如下 調(diào)整一下樣式得到如下箱型圖。 中間黑色出現(xiàn)是各區(qū)域中游水平的房價標準(中位數(shù));x是全區(qū)域的平均房價水平(平均值);箱型上端代表中上游水平;箱型下端代表中下游水平,以此類推。簡而言之,房價分布被四等分了。 我們來解讀一下:朝陽區(qū)的房價分布范圍較廣,高低值差異較大,可能和橫跨多環(huán)有關(guān),整體平均水平位于四區(qū)域前列。海淀區(qū)平均房價次之,但也不低。豐臺區(qū)房價分布較為集中且偏態(tài)較小,跨度相對較小。通州區(qū)很明顯整體房價最低。 這張圖能一眼看出不少內(nèi)容,想必大家已經(jīng)明白箱線圖的作用了,它能讀出數(shù)據(jù)的整體分布和傾斜趨勢(偏態(tài))。 到這里,描述統(tǒng)計的內(nèi)容就結(jié)束了。描述統(tǒng)計是分析數(shù)據(jù)的一種技巧,包含數(shù)據(jù)的集中度量(平均數(shù)、中位數(shù)、眾數(shù))、數(shù)據(jù)的離散(方差、標準差)、數(shù)據(jù)的分布(箱線圖、條形圖、直方圖)三塊。 此文是《10周入門數(shù)據(jù)分析》系列的第8篇。 想了解學(xué)習(xí)路線,可以前往公眾號先行閱讀“ 學(xué)習(xí)計劃 | 10周入門數(shù)據(jù)分析 |
|