在數(shù)據(jù)科學(xué)藝術(shù)的執(zhí)行中,統(tǒng)計可以說是一個強大的工具。從高層次來看,統(tǒng)計學(xué)是利用數(shù)學(xué)對數(shù)據(jù)進行分析的學(xué)科?;镜目梢暬ㄖ鶢顖D等)會給受眾一些深層的信息,但通過統(tǒng)計,我們可以用一種更富有信息驅(qū)動力和更有針對性的方式對數(shù)據(jù)進行操作。統(tǒng)計中的數(shù)學(xué)可以幫助我們對數(shù)據(jù)形成具體的結(jié)論,而不僅僅是猜測。 通過統(tǒng)計,我們可以獲得更深入、更細(xì)致入微的見解,能夠了解數(shù)據(jù)的確切結(jié)構(gòu),并在此基礎(chǔ)上了解如何應(yīng)用其他數(shù)據(jù)科學(xué)技術(shù)來獲取更多信息。今天,我們來看看數(shù)據(jù)科學(xué)家需要掌握的5個基本統(tǒng)計概念及其應(yīng)用。 統(tǒng)計特征(Statistical Features) 統(tǒng)計特征可能是數(shù)據(jù)科學(xué)中最常用的統(tǒng)計概念。它通常是你在研究數(shù)據(jù)集時使用的第一種統(tǒng)計技術(shù),包括偏差(bias)、方差(variance)、平均值(mean)、中位數(shù)(median)、百分位數(shù)(percentiles)等。這很好理解,在代碼中也非常容易實現(xiàn)。下圖可以說明這些特征。 一個基本的箱須圖(box- whisker-plot) 中間的那條線是數(shù)據(jù)的中位數(shù)(median),中位數(shù)比平均值(mean)更常用,因為它更不容易受到極端數(shù)值的影響。第一四分位數(shù)(first quartile,Q1)實際上是第25%的數(shù),換句話說,是樣本所有數(shù)值由小到大排列后第25%的數(shù)字。第三四分位數(shù)(third quartile,Q3)是第75%的數(shù),即樣本所有數(shù)值由小到大排列后第75%的數(shù)字。上限和下限即樣本數(shù)據(jù)非異常范圍內(nèi)的最大值和最小值。第一四分位數(shù)和第三四分位數(shù)組成箱須圖中的箱子(box plot),第一四分位數(shù)-下限以及第三四分位數(shù)-上限連接的線段即須(whisker) 箱須圖完美地說明了我們可以用基本統(tǒng)計特征得出什么結(jié)論:
所有這些信息都來自于很容易計算的簡單統(tǒng)計特征!當(dāng)你需要快速獲取有意義的數(shù)據(jù)統(tǒng)計圖時,你可以試著畫箱須圖。 概率分布(Probability Distributions) 概率能夠反映隨機事件出現(xiàn)的可能性大小。在數(shù)據(jù)科學(xué)中,概率通常被量化在0-1之間,概率為0意味著不可能事件(一定條件下必然不發(fā)生的事件),概率為1表示必然事件(一定條件下必然發(fā)生的事件)。概率分布是一個函數(shù),表示實驗中所有可能值的概率。下圖可以幫你理解概率分布。 常見的概率分布。 均勻分布(左)、正態(tài)分布(中)、泊松分布(右)
還得說一句題外話,除了上述三種分布之外,還有其他非常多的概率分布,你都可以深入研究,但這三種分布已經(jīng)給我們提供了相當(dāng)多的價值。我們可以用均勻分布快速查看和解釋分類變量。如果看到高斯分布,那我們知道有許許多多算法,它們在默認(rèn)情況下都會執(zhí)行地非常優(yōu)異,我們應(yīng)該選擇它們。對于泊松分布,我們發(fā)現(xiàn)必須謹(jǐn)慎地選擇一種算法,它擁有足夠的魯棒性應(yīng)對時空的變量。 維數(shù)約簡(Dimensionality Reduction) 維數(shù)約簡這個術(shù)語很好理解:有一個數(shù)據(jù)集,我們想減少它的維度數(shù)量。在數(shù)據(jù)科學(xué)中,這個數(shù)量是特征變量的數(shù)量。維數(shù)約簡的意義就是降低原來的維數(shù),并保證原數(shù)據(jù)庫的完整性,在約簡后的空間中執(zhí)行后續(xù)程序?qū)⒋蟠鬁p少運算量,提高數(shù)據(jù)挖掘效率,且挖掘出來的結(jié)果與原有數(shù)據(jù)集所獲得結(jié)果基本一致。更廣泛的說就是防止了維數(shù)災(zāi)難的發(fā)生??聪聢D獲得更詳細(xì)的解釋: 維數(shù)約簡 立方體代表我們的樣本數(shù)據(jù)集,它有三個維度,共1000個點。以現(xiàn)有的計算能力,1000個點很容易就能處理,但處理更大范圍的數(shù)據(jù)還是會遇到問題。然而,僅僅從二維的角度來看數(shù)據(jù)集,比如從立方體的一側(cè)來看,我們可以看到區(qū)分所有的顏色還是很容易的。通過維數(shù)約簡,我們可以將三維數(shù)據(jù)投射(project)到二維平面上。這把我們需要計算的點數(shù)減少到100,有效地節(jié)約了大量的計算時間。 另一種維數(shù)約簡的方式是特征修剪(feature pruning)。利用特征修剪,我們基本可以刪去對我們的分析不重要的特征。例如,研究一個數(shù)據(jù)集之后,我們可能發(fā)現(xiàn)該數(shù)據(jù)集有10個特征,其中,有7個特征與輸出有很高的相關(guān)性,而其余3個相關(guān)性不高。那么這3個低相關(guān)性特征可能就不值得計算了,我們可以在不影響輸出的情況下從分析中刪掉它們。 最常用的維數(shù)約簡方法是主成分分析(PCA),本質(zhì)上是創(chuàng)建新的向量,這些向量可以盡可能多地反映原始變量的信息特征(即它們的相關(guān)性)。PCA可用于上述兩種維數(shù)約簡方式。在這個教程中可以獲得更多相關(guān)信息。 過采樣和欠采樣(Over and Under Sampling) 過采樣和欠采樣是用于分類問題的統(tǒng)計技術(shù)。有時,分類數(shù)據(jù)集可能過于偏向于一邊。例如,類別1有2000個樣本,類別2只有200個。我們能夠用來建模、預(yù)測的許多機器學(xué)習(xí)技術(shù)都沒法用了!但是,過采樣和欠采樣可以解決這個問題。請看這張圖: 欠采樣(左)和過采樣(右) 上圖里,兩張數(shù)據(jù)圖中藍(lán)色類別的樣本比橙色多多了。在這種情況下,我們有兩個預(yù)處理選項,可以幫助訓(xùn)練我們的機器學(xué)習(xí)模型。 欠采樣意味著我們從多數(shù)類中選擇一些數(shù)據(jù),只使用和少數(shù)類數(shù)量一致的樣本。這種選擇不是隨便挑選的,而是要保證類的概率分布不變。這很容易!我們選取少量樣本,使樣本數(shù)據(jù)集更加均勻。 過采樣意味著創(chuàng)建少數(shù)類樣本的副本,使少數(shù)類與多數(shù)類擁有數(shù)量一致的樣本。副本創(chuàng)建需要保證少數(shù)類的概率分布不變。我們不需要收集更多的樣本就能使樣本數(shù)據(jù)集更加均勻。 貝葉斯統(tǒng)計(Bayesian Statistics) 想要完全理解為什么我們要用貝葉斯統(tǒng)計,首先需要理解頻率統(tǒng)計(Frequency Statistics)的缺陷。頻率統(tǒng)計是大多數(shù)人聽到“概率”一次時首先會想到的一種統(tǒng)計類型,頻率統(tǒng)計檢測一個事件(或者假設(shè))是否發(fā)生,它通過長時間的試驗計算某個事件發(fā)生的可能性(試驗是在同等條件下進行的),唯一計算的數(shù)據(jù)是先驗數(shù)據(jù)(prior data)。 可以看這個例子。假如我給你一個骰子,問你擲出6的幾率是多少。大多數(shù)人會說是1/6。確實如此,如果做頻率分析,某人拋擲骰子10000次,計算每個數(shù)字出現(xiàn)的頻率,那么我們可以看到結(jié)果每個數(shù)字出現(xiàn)的頻率大約是1/6。 但如果有人告訴你,給你的骰子不那么規(guī)整,總是6朝上呢?由于頻率分析只考慮了之前的數(shù)據(jù),上述分析中,骰子不規(guī)整的因素沒有被考慮進去。 而貝葉斯統(tǒng)計就考慮了這一點。我們可以用下圖的貝葉斯法則(Baye’s Theoram)來說明: 貝葉斯法則 方程中,H代表一個事件,E代表另一個,P即某事件發(fā)生的概率。 P(H)即先驗概率,基本上就是數(shù)據(jù)分析的結(jié)果,即之前事件H發(fā)生的概率。 P(E|H)被稱作相似度,指假設(shè)事件H成立時,事件E發(fā)生的概率。 P(E)指事件E成立的先驗概率,也被稱作標(biāo)準(zhǔn)化常量。 P(H|E)即后驗概率,指E發(fā)生后,發(fā)生H的概率。 例如,如果你想投擲骰子10000次,前1000次全擲出的是6,你很懷疑骰子不規(guī)整了。如果我告訴你骰子確實不規(guī)整,你是相信我,還是認(rèn)為這是個騙局呢? 如果頻率分析沒有什么缺陷,那么我們會比較自信地認(rèn)定接下來的投擲出現(xiàn)6的概率仍是1/6。而如果骰子確實不規(guī)整,或是不基于其自身的先驗概率及頻率分析,我們在預(yù)測接下來數(shù)字出現(xiàn)的概率時,就必須要考慮到骰子的因素。當(dāng)我們不能準(zhǔn)確知悉一個事物的本質(zhì)時,可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率。正如你從方程式中能能看到的,貝葉斯統(tǒng)計把所有因素都考慮在內(nèi)了。當(dāng)你覺得之前的數(shù)據(jù)不能很好地代表未來數(shù)據(jù)和結(jié)果的時候,就應(yīng)該使用貝葉斯統(tǒng)計。 |
|