小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

人人都需要掌握的 5 個基本統(tǒng)計概念

 圖書館收藏文庫 2019-01-07

在數(shù)據(jù)科學(xué)藝術(shù)的執(zhí)行中,統(tǒng)計可以說是一個強大的工具。從高層次來看,統(tǒng)計學(xué)是利用數(shù)學(xué)對數(shù)據(jù)進行分析的學(xué)科?;镜目梢暬ㄖ鶢顖D等)會給受眾一些深層的信息,但通過統(tǒng)計,我們可以用一種更富有信息驅(qū)動力和更有針對性的方式對數(shù)據(jù)進行操作。統(tǒng)計中的數(shù)學(xué)可以幫助我們對數(shù)據(jù)形成具體的結(jié)論,而不僅僅是猜測。

通過統(tǒng)計,我們可以獲得更深入、更細(xì)致入微的見解,能夠了解數(shù)據(jù)的確切結(jié)構(gòu),并在此基礎(chǔ)上了解如何應(yīng)用其他數(shù)據(jù)科學(xué)技術(shù)來獲取更多信息。今天,我們來看看數(shù)據(jù)科學(xué)家需要掌握的5個基本統(tǒng)計概念及其應(yīng)用。

統(tǒng)計特征(Statistical Features)

統(tǒng)計特征可能是數(shù)據(jù)科學(xué)中最常用的統(tǒng)計概念。它通常是你在研究數(shù)據(jù)集時使用的第一種統(tǒng)計技術(shù),包括偏差(bias)、方差(variance)、平均值(mean)、中位數(shù)(median)、百分位數(shù)(percentiles)等。這很好理解,在代碼中也非常容易實現(xiàn)。下圖可以說明這些特征。

人人都需要掌握的 5 個基本統(tǒng)計概念


一個基本的箱須圖(box- whisker-plot)

中間的那條線是數(shù)據(jù)的中位數(shù)(median),中位數(shù)比平均值(mean)更常用,因為它更不容易受到極端數(shù)值的影響。第一四分位數(shù)(first quartile,Q1)實際上是第25%的數(shù),換句話說,是樣本所有數(shù)值由小到大排列后第25%的數(shù)字。第三四分位數(shù)(third quartile,Q3)是第75%的數(shù),即樣本所有數(shù)值由小到大排列后第75%的數(shù)字。上限和下限即樣本數(shù)據(jù)非異常范圍內(nèi)的最大值和最小值。第一四分位數(shù)和第三四分位數(shù)組成箱須圖中的箱子(box plot),第一四分位數(shù)-下限以及第三四分位數(shù)-上限連接的線段即須(whisker)

箱須圖完美地說明了我們可以用基本統(tǒng)計特征得出什么結(jié)論:

  • 當(dāng)箱子較短時,意味著樣本的數(shù)據(jù)差別不大,因為在較小范圍里有許多值。
  • 當(dāng)箱子較長時,意味著樣本的數(shù)據(jù)差別很大,因為數(shù)據(jù)分散在較大范圍內(nèi)。
  • 如果中位數(shù)接近箱子底部,那么就意味著樣本中更多數(shù)據(jù)的數(shù)值較小,呈左偏態(tài)分布;如果中位數(shù)接近箱子頂部,那么就意味著樣本中更多數(shù)據(jù)的數(shù)值較大,呈右偏態(tài)分布?;旧?,如果中位數(shù)的那條線不在箱子中間,那么就意味著數(shù)據(jù)分布偏態(tài)。
  • “須”很長?這意味著你的樣本數(shù)據(jù)有較高的標(biāo)準(zhǔn)差和方差,換句話說,數(shù)據(jù)分布分散。如果箱子一邊有很長的須,而另一邊較短,那么你的數(shù)據(jù)可能只在一個方向上更為分散。

所有這些信息都來自于很容易計算的簡單統(tǒng)計特征!當(dāng)你需要快速獲取有意義的數(shù)據(jù)統(tǒng)計圖時,你可以試著畫箱須圖。

概率分布(Probability Distributions)

概率能夠反映隨機事件出現(xiàn)的可能性大小。在數(shù)據(jù)科學(xué)中,概率通常被量化在0-1之間,概率為0意味著不可能事件(一定條件下必然不發(fā)生的事件),概率為1表示必然事件(一定條件下必然發(fā)生的事件)。概率分布是一個函數(shù),表示實驗中所有可能值的概率。下圖可以幫你理解概率分布。

人人都需要掌握的 5 個基本統(tǒng)計概念


常見的概率分布。

均勻分布(左)、正態(tài)分布(中)、泊松分布(右)

  • 均勻分布(Uniform Distribution)是3種概率分布中最基本的一種。它在區(qū)間內(nèi)只有一個值,也就是說在相同長度間隔的分布概率是等可能的,范圍之外的概率都是0。相當(dāng)于一個“開或關(guān)”的分布。我們也可以把它看作是一個有兩個類別的分類變量:0或者那個一定的值。你的分類變量可能有多個值,不僅僅是0,但我們可以把它看作多重均勻分布的分段函數(shù)。
  • 正態(tài)分布(Normal distribution),又稱高斯分布(Gaussian Distribution),由其平均值和標(biāo)準(zhǔn)差定義。正態(tài)分布的對稱軸是樣本平均值,隨著樣本平均值的變化在坐標(biāo)軸上左右移動,標(biāo)準(zhǔn)差描述了正態(tài)分布的離散程度(即數(shù)據(jù)是廣泛分布還是高度集中)。它由平均數(shù)所在處開始,分別向左右兩側(cè)逐漸均勻下降。與其他分布(如泊松分布)相比,正態(tài)分布的標(biāo)準(zhǔn)偏差在所有方向上都是相同的。因此,通過正態(tài)分布,我們就可以清楚知道樣本的平均值和離散程度。
  • 泊松分布(Poisson Distribution)和正態(tài)分布相似,但多了偏斜率。如果偏度值非常小,那么泊松分布在各個方向上的分布就和正態(tài)分布相似,相對均勻。但當(dāng)偏度值很大時,數(shù)據(jù)在不同方向上的分布就不同:在一個方向上,它將非常分散;而在另一個方向上,它將高度集中。泊松分布很適合描述單位時間內(nèi)隨機事件發(fā)生的次數(shù)。

還得說一句題外話,除了上述三種分布之外,還有其他非常多的概率分布,你都可以深入研究,但這三種分布已經(jīng)給我們提供了相當(dāng)多的價值。我們可以用均勻分布快速查看和解釋分類變量。如果看到高斯分布,那我們知道有許許多多算法,它們在默認(rèn)情況下都會執(zhí)行地非常優(yōu)異,我們應(yīng)該選擇它們。對于泊松分布,我們發(fā)現(xiàn)必須謹(jǐn)慎地選擇一種算法,它擁有足夠的魯棒性應(yīng)對時空的變量。

維數(shù)約簡(Dimensionality Reduction)

維數(shù)約簡這個術(shù)語很好理解:有一個數(shù)據(jù)集,我們想減少它的維度數(shù)量。在數(shù)據(jù)科學(xué)中,這個數(shù)量是特征變量的數(shù)量。維數(shù)約簡的意義就是降低原來的維數(shù),并保證原數(shù)據(jù)庫的完整性,在約簡后的空間中執(zhí)行后續(xù)程序?qū)⒋蟠鬁p少運算量,提高數(shù)據(jù)挖掘效率,且挖掘出來的結(jié)果與原有數(shù)據(jù)集所獲得結(jié)果基本一致。更廣泛的說就是防止了維數(shù)災(zāi)難的發(fā)生??聪聢D獲得更詳細(xì)的解釋:

人人都需要掌握的 5 個基本統(tǒng)計概念


維數(shù)約簡

立方體代表我們的樣本數(shù)據(jù)集,它有三個維度,共1000個點。以現(xiàn)有的計算能力,1000個點很容易就能處理,但處理更大范圍的數(shù)據(jù)還是會遇到問題。然而,僅僅從二維的角度來看數(shù)據(jù)集,比如從立方體的一側(cè)來看,我們可以看到區(qū)分所有的顏色還是很容易的。通過維數(shù)約簡,我們可以將三維數(shù)據(jù)投射(project)到二維平面上。這把我們需要計算的點數(shù)減少到100,有效地節(jié)約了大量的計算時間。

另一種維數(shù)約簡的方式是特征修剪(feature pruning)。利用特征修剪,我們基本可以刪去對我們的分析不重要的特征。例如,研究一個數(shù)據(jù)集之后,我們可能發(fā)現(xiàn)該數(shù)據(jù)集有10個特征,其中,有7個特征與輸出有很高的相關(guān)性,而其余3個相關(guān)性不高。那么這3個低相關(guān)性特征可能就不值得計算了,我們可以在不影響輸出的情況下從分析中刪掉它們。

最常用的維數(shù)約簡方法是主成分分析(PCA),本質(zhì)上是創(chuàng)建新的向量,這些向量可以盡可能多地反映原始變量的信息特征(即它們的相關(guān)性)。PCA可用于上述兩種維數(shù)約簡方式。在這個教程中可以獲得更多相關(guān)信息。

過采樣和欠采樣(Over and Under Sampling)

過采樣和欠采樣是用于分類問題的統(tǒng)計技術(shù)。有時,分類數(shù)據(jù)集可能過于偏向于一邊。例如,類別1有2000個樣本,類別2只有200個。我們能夠用來建模、預(yù)測的許多機器學(xué)習(xí)技術(shù)都沒法用了!但是,過采樣和欠采樣可以解決這個問題。請看這張圖:

人人都需要掌握的 5 個基本統(tǒng)計概念


欠采樣(左)和過采樣(右)

上圖里,兩張數(shù)據(jù)圖中藍(lán)色類別的樣本比橙色多多了。在這種情況下,我們有兩個預(yù)處理選項,可以幫助訓(xùn)練我們的機器學(xué)習(xí)模型。

欠采樣意味著我們從多數(shù)類中選擇一些數(shù)據(jù),只使用和少數(shù)類數(shù)量一致的樣本。這種選擇不是隨便挑選的,而是要保證類的概率分布不變。這很容易!我們選取少量樣本,使樣本數(shù)據(jù)集更加均勻。

過采樣意味著創(chuàng)建少數(shù)類樣本的副本,使少數(shù)類與多數(shù)類擁有數(shù)量一致的樣本。副本創(chuàng)建需要保證少數(shù)類的概率分布不變。我們不需要收集更多的樣本就能使樣本數(shù)據(jù)集更加均勻。

貝葉斯統(tǒng)計(Bayesian Statistics)

想要完全理解為什么我們要用貝葉斯統(tǒng)計,首先需要理解頻率統(tǒng)計(Frequency Statistics)的缺陷。頻率統(tǒng)計是大多數(shù)人聽到“概率”一次時首先會想到的一種統(tǒng)計類型,頻率統(tǒng)計檢測一個事件(或者假設(shè))是否發(fā)生,它通過長時間的試驗計算某個事件發(fā)生的可能性(試驗是在同等條件下進行的),唯一計算的數(shù)據(jù)是先驗數(shù)據(jù)(prior data)。

人人都需要掌握的 5 個基本統(tǒng)計概念


可以看這個例子。假如我給你一個骰子,問你擲出6的幾率是多少。大多數(shù)人會說是1/6。確實如此,如果做頻率分析,某人拋擲骰子10000次,計算每個數(shù)字出現(xiàn)的頻率,那么我們可以看到結(jié)果每個數(shù)字出現(xiàn)的頻率大約是1/6。

但如果有人告訴你,給你的骰子不那么規(guī)整,總是6朝上呢?由于頻率分析只考慮了之前的數(shù)據(jù),上述分析中,骰子不規(guī)整的因素沒有被考慮進去。

而貝葉斯統(tǒng)計就考慮了這一點。我們可以用下圖的貝葉斯法則(Baye’s Theoram)來說明:

人人都需要掌握的 5 個基本統(tǒng)計概念


貝葉斯法則

方程中,H代表一個事件,E代表另一個,P即某事件發(fā)生的概率。

P(H)即先驗概率,基本上就是數(shù)據(jù)分析的結(jié)果,即之前事件H發(fā)生的概率。

P(E|H)被稱作相似度,指假設(shè)事件H成立時,事件E發(fā)生的概率。

P(E)指事件E成立的先驗概率,也被稱作標(biāo)準(zhǔn)化常量。

P(H|E)即后驗概率,指E發(fā)生后,發(fā)生H的概率。

例如,如果你想投擲骰子10000次,前1000次全擲出的是6,你很懷疑骰子不規(guī)整了。如果我告訴你骰子確實不規(guī)整,你是相信我,還是認(rèn)為這是個騙局呢?

如果頻率分析沒有什么缺陷,那么我們會比較自信地認(rèn)定接下來的投擲出現(xiàn)6的概率仍是1/6。而如果骰子確實不規(guī)整,或是不基于其自身的先驗概率及頻率分析,我們在預(yù)測接下來數(shù)字出現(xiàn)的概率時,就必須要考慮到骰子的因素。當(dāng)我們不能準(zhǔn)確知悉一個事物的本質(zhì)時,可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率。正如你從方程式中能能看到的,貝葉斯統(tǒng)計把所有因素都考慮在內(nèi)了。當(dāng)你覺得之前的數(shù)據(jù)不能很好地代表未來數(shù)據(jù)和結(jié)果的時候,就應(yīng)該使用貝葉斯統(tǒng)計。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多