人人都需要掌握的 5 個基本統(tǒng)計概念

圖書館收藏文庫 2019-01-07

展開全文

在數(shù)據(jù)科學(xué)藝術(shù)的執(zhí)行中，統(tǒng)計可以說是一個強大的工具。從高層次來看，統(tǒng)計學(xué)是利用數(shù)學(xué)對數(shù)據(jù)進行分析的學(xué)科?；镜目梢暬ㄖ鶢顖D等）會給受眾一些深層的信息，但通過統(tǒng)計，我們可以用一種更富有信息驅(qū)動力和更有針對性的方式對數(shù)據(jù)進行操作。統(tǒng)計中的數(shù)學(xué)可以幫助我們對數(shù)據(jù)形成具體的結(jié)論，而不僅僅是猜測。

通過統(tǒng)計，我們可以獲得更深入、更細(xì)致入微的見解，能夠了解數(shù)據(jù)的確切結(jié)構(gòu)，并在此基礎(chǔ)上了解如何應(yīng)用其他數(shù)據(jù)科學(xué)技術(shù)來獲取更多信息。今天，我們來看看數(shù)據(jù)科學(xué)家需要掌握的5個基本統(tǒng)計概念及其應(yīng)用。

統(tǒng)計特征（Statistical Features）

統(tǒng)計特征可能是數(shù)據(jù)科學(xué)中最常用的統(tǒng)計概念。它通常是你在研究數(shù)據(jù)集時使用的第一種統(tǒng)計技術(shù)，包括偏差（bias）、方差（variance）、平均值（mean）、中位數(shù)（median）、百分位數(shù)（percentiles）等。這很好理解，在代碼中也非常容易實現(xiàn)。下圖可以說明這些特征。

人人都需要掌握的 5 個基本統(tǒng)計概念

一個基本的箱須圖（box- whisker-plot）

中間的那條線是數(shù)據(jù)的中位數(shù)（median），中位數(shù)比平均值（mean）更常用，因為它更不容易受到極端數(shù)值的影響。第一四分位數(shù)（first quartile，Q1）實際上是第25%的數(shù)，換句話說，是樣本所有數(shù)值由小到大排列后第25%的數(shù)字。第三四分位數(shù)（third quartile，Q3）是第75%的數(shù)，即樣本所有數(shù)值由小到大排列后第75%的數(shù)字。上限和下限即樣本數(shù)據(jù)非異常范圍內(nèi)的最大值和最小值。第一四分位數(shù)和第三四分位數(shù)組成箱須圖中的箱子（box plot），第一四分位數(shù)-下限以及第三四分位數(shù)-上限連接的線段即須（whisker）

箱須圖完美地說明了我們可以用基本統(tǒng)計特征得出什么結(jié)論：

當(dāng)箱子較短時，意味著樣本的數(shù)據(jù)差別不大，因為在較小范圍里有許多值。
當(dāng)箱子較長時，意味著樣本的數(shù)據(jù)差別很大，因為數(shù)據(jù)分散在較大范圍內(nèi)。
如果中位數(shù)接近箱子底部，那么就意味著樣本中更多數(shù)據(jù)的數(shù)值較小，呈左偏態(tài)分布；如果中位數(shù)接近箱子頂部，那么就意味著樣本中更多數(shù)據(jù)的數(shù)值較大，呈右偏態(tài)分布?；旧?，如果中位數(shù)的那條線不在箱子中間，那么就意味著數(shù)據(jù)分布偏態(tài)。
“須”很長？這意味著你的樣本數(shù)據(jù)有較高的標(biāo)準(zhǔn)差和方差，換句話說，數(shù)據(jù)分布分散。如果箱子一邊有很長的須，而另一邊較短，那么你的數(shù)據(jù)可能只在一個方向上更為分散。

所有這些信息都來自于很容易計算的簡單統(tǒng)計特征！當(dāng)你需要快速獲取有意義的數(shù)據(jù)統(tǒng)計圖時，你可以試著畫箱須圖。

概率分布（Probability Distributions）

概率能夠反映隨機事件出現(xiàn)的可能性大小。在數(shù)據(jù)科學(xué)中，概率通常被量化在0-1之間，概率為0意味著不可能事件（一定條件下必然不發(fā)生的事件），概率為1表示必然事件（一定條件下必然發(fā)生的事件）。概率分布是一個函數(shù)，表示實驗中所有可能值的概率。下圖可以幫你理解概率分布。

人人都需要掌握的 5 個基本統(tǒng)計概念

常見的概率分布。

均勻分布（左）、正態(tài)分布（中）、泊松分布（右）

均勻分布（Uniform Distribution）是3種概率分布中最基本的一種。它在區(qū)間內(nèi)只有一個值，也就是說在相同長度間隔的分布概率是等可能的，范圍之外的概率都是0。相當(dāng)于一個“開或關(guān)”的分布。我們也可以把它看作是一個有兩個類別的分類變量：0或者那個一定的值。你的分類變量可能有多個值，不僅僅是0，但我們可以把它看作多重均勻分布的分段函數(shù)。
正態(tài)分布（Normal distribution），又稱高斯分布（Gaussian Distribution），由其平均值和標(biāo)準(zhǔn)差定義。正態(tài)分布的對稱軸是樣本平均值，隨著樣本平均值的變化在坐標(biāo)軸上左右移動，標(biāo)準(zhǔn)差描述了正態(tài)分布的離散程度（即數(shù)據(jù)是廣泛分布還是高度集中）。它由平均數(shù)所在處開始，分別向左右兩側(cè)逐漸均勻下降。與其他分布（如泊松分布）相比，正態(tài)分布的標(biāo)準(zhǔn)偏差在所有方向上都是相同的。因此，通過正態(tài)分布，我們就可以清楚知道樣本的平均值和離散程度。
泊松分布（Poisson Distribution）和正態(tài)分布相似，但多了偏斜率。如果偏度值非常小，那么泊松分布在各個方向上的分布就和正態(tài)分布相似，相對均勻。但當(dāng)偏度值很大時，數(shù)據(jù)在不同方向上的分布就不同：在一個方向上，它將非常分散；而在另一個方向上，它將高度集中。泊松分布很適合描述單位時間內(nèi)隨機事件發(fā)生的次數(shù)。

還得說一句題外話，除了上述三種分布之外，還有其他非常多的概率分布，你都可以深入研究，但這三種分布已經(jīng)給我們提供了相當(dāng)多的價值。我們可以用均勻分布快速查看和解釋分類變量。如果看到高斯分布，那我們知道有許許多多算法，它們在默認(rèn)情況下都會執(zhí)行地非常優(yōu)異，我們應(yīng)該選擇它們。對于泊松分布，我們發(fā)現(xiàn)必須謹(jǐn)慎地選擇一種算法，它擁有足夠的魯棒性應(yīng)對時空的變量。

維數(shù)約簡（Dimensionality Reduction）

維數(shù)約簡這個術(shù)語很好理解：有一個數(shù)據(jù)集，我們想減少它的維度數(shù)量。在數(shù)據(jù)科學(xué)中，這個數(shù)量是特征變量的數(shù)量。維數(shù)約簡的意義就是降低原來的維數(shù)，并保證原數(shù)據(jù)庫的完整性，在約簡后的空間中執(zhí)行后續(xù)程序?qū)⒋蟠鬁p少運算量，提高數(shù)據(jù)挖掘效率，且挖掘出來的結(jié)果與原有數(shù)據(jù)集所獲得結(jié)果基本一致。更廣泛的說就是防止了維數(shù)災(zāi)難的發(fā)生?？聪聢D獲得更詳細(xì)的解釋：

人人都需要掌握的 5 個基本統(tǒng)計概念

維數(shù)約簡

立方體代表我們的樣本數(shù)據(jù)集，它有三個維度，共1000個點。以現(xiàn)有的計算能力，1000個點很容易就能處理，但處理更大范圍的數(shù)據(jù)還是會遇到問題。然而，僅僅從二維的角度來看數(shù)據(jù)集，比如從立方體的一側(cè)來看，我們可以看到區(qū)分所有的顏色還是很容易的。通過維數(shù)約簡，我們可以將三維數(shù)據(jù)投射（project）到二維平面上。這把我們需要計算的點數(shù)減少到100，有效地節(jié)約了大量的計算時間。

另一種維數(shù)約簡的方式是特征修剪（feature pruning）。利用特征修剪，我們基本可以刪去對我們的分析不重要的特征。例如，研究一個數(shù)據(jù)集之后，我們可能發(fā)現(xiàn)該數(shù)據(jù)集有10個特征，其中，有7個特征與輸出有很高的相關(guān)性，而其余3個相關(guān)性不高。那么這3個低相關(guān)性特征可能就不值得計算了，我們可以在不影響輸出的情況下從分析中刪掉它們。

最常用的維數(shù)約簡方法是主成分分析（PCA），本質(zhì)上是創(chuàng)建新的向量，這些向量可以盡可能多地反映原始變量的信息特征（即它們的相關(guān)性）。PCA可用于上述兩種維數(shù)約簡方式。在這個教程中可以獲得更多相關(guān)信息。

過采樣和欠采樣（Over and Under Sampling）

過采樣和欠采樣是用于分類問題的統(tǒng)計技術(shù)。有時，分類數(shù)據(jù)集可能過于偏向于一邊。例如，類別1有2000個樣本，類別2只有200個。我們能夠用來建模、預(yù)測的許多機器學(xué)習(xí)技術(shù)都沒法用了！但是，過采樣和欠采樣可以解決這個問題。請看這張圖：

人人都需要掌握的 5 個基本統(tǒng)計概念

欠采樣（左）和過采樣（右）

上圖里，兩張數(shù)據(jù)圖中藍(lán)色類別的樣本比橙色多多了。在這種情況下，我們有兩個預(yù)處理選項，可以幫助訓(xùn)練我們的機器學(xué)習(xí)模型。

欠采樣意味著我們從多數(shù)類中選擇一些數(shù)據(jù)，只使用和少數(shù)類數(shù)量一致的樣本。這種選擇不是隨便挑選的，而是要保證類的概率分布不變。這很容易！我們選取少量樣本，使樣本數(shù)據(jù)集更加均勻。

過采樣意味著創(chuàng)建少數(shù)類樣本的副本，使少數(shù)類與多數(shù)類擁有數(shù)量一致的樣本。副本創(chuàng)建需要保證少數(shù)類的概率分布不變。我們不需要收集更多的樣本就能使樣本數(shù)據(jù)集更加均勻。

貝葉斯統(tǒng)計（Bayesian Statistics）

想要完全理解為什么我們要用貝葉斯統(tǒng)計，首先需要理解頻率統(tǒng)計（Frequency Statistics）的缺陷。頻率統(tǒng)計是大多數(shù)人聽到“概率”一次時首先會想到的一種統(tǒng)計類型，頻率統(tǒng)計檢測一個事件（或者假設(shè)）是否發(fā)生，它通過長時間的試驗計算某個事件發(fā)生的可能性（試驗是在同等條件下進行的），唯一計算的數(shù)據(jù)是先驗數(shù)據(jù)（prior data）。

人人都需要掌握的 5 個基本統(tǒng)計概念

可以看這個例子。假如我給你一個骰子，問你擲出6的幾率是多少。大多數(shù)人會說是1/6。確實如此，如果做頻率分析，某人拋擲骰子10000次，計算每個數(shù)字出現(xiàn)的頻率，那么我們可以看到結(jié)果每個數(shù)字出現(xiàn)的頻率大約是1/6。

但如果有人告訴你，給你的骰子不那么規(guī)整，總是6朝上呢？由于頻率分析只考慮了之前的數(shù)據(jù)，上述分析中，骰子不規(guī)整的因素沒有被考慮進去。

而貝葉斯統(tǒng)計就考慮了這一點。我們可以用下圖的貝葉斯法則（Baye’s Theoram）來說明：

人人都需要掌握的 5 個基本統(tǒng)計概念

貝葉斯法則

方程中，H代表一個事件，E代表另一個，P即某事件發(fā)生的概率。

P(H)即先驗概率，基本上就是數(shù)據(jù)分析的結(jié)果，即之前事件H發(fā)生的概率。

P(E|H)被稱作相似度，指假設(shè)事件H成立時，事件E發(fā)生的概率。

P(E)指事件E成立的先驗概率，也被稱作標(biāo)準(zhǔn)化常量。

P(H|E)即后驗概率，指E發(fā)生后，發(fā)生H的概率。

例如，如果你想投擲骰子10000次，前1000次全擲出的是6，你很懷疑骰子不規(guī)整了。如果我告訴你骰子確實不規(guī)整，你是相信我，還是認(rèn)為這是個騙局呢？

如果頻率分析沒有什么缺陷，那么我們會比較自信地認(rèn)定接下來的投擲出現(xiàn)6的概率仍是1/6。而如果骰子確實不規(guī)整，或是不基于其自身的先驗概率及頻率分析，我們在預(yù)測接下來數(shù)字出現(xiàn)的概率時，就必須要考慮到骰子的因素。當(dāng)我們不能準(zhǔn)確知悉一個事物的本質(zhì)時，可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率。正如你從方程式中能能看到的，貝葉斯統(tǒng)計把所有因素都考慮在內(nèi)了。當(dāng)你覺得之前的數(shù)據(jù)不能很好地代表未來數(shù)據(jù)和結(jié)果的時候，就應(yīng)該使用貝葉斯統(tǒng)計。