小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

每個(gè)數(shù)據(jù)科學(xué)家應(yīng)該知道的概率分布

 CDA數(shù)據(jù)分析師 2019-08-04
出品 | CDA數(shù)據(jù)分析研究院,轉(zhuǎn)載須授權(quán)
原文 | https://www.kdnuggets.com/2019/07/5-probability-distributions-every-data-scientist-should-know.html

概率分布就像3D眼鏡。它們?cè)试S熟練的數(shù)據(jù)科學(xué)家識(shí)別其他完全隨機(jī)變量的模式。

在某種程度上,大多數(shù)其他數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)技能都基于對(duì)數(shù)據(jù)概率分布的某些假設(shè)。

這使得概率知識(shí)成為您作為統(tǒng)計(jì)學(xué)家構(gòu)建工具箱的基礎(chǔ)。如果您正在尋找如何成為數(shù)據(jù)科學(xué)家的第一步 。

不用多說,讓我們切入主題。

什么是概率分布?

在概率論和統(tǒng)計(jì)學(xué)中, 隨機(jī)變量 是一個(gè)隨機(jī)值的東西 ,比如“我看到的下一個(gè)人的身高”或“我下一個(gè)拉面碗里的廚師毛發(fā)量”。

給定一個(gè)隨機(jī)變量 X,我們想要一種描述它需要的值的方法。更重要的是,我們想要描述 該變量 獲取特定值x的可能性。

例如,如果 X 是“我的女朋友有多少只貓”,那么這個(gè)數(shù)字可能是1的非零概率。有人可能會(huì)認(rèn)為這個(gè)值甚至可能是5或10的非零概率。

然而,沒有辦法(因此沒有可能)一個(gè)人會(huì)有負(fù)面情緒的貓。

因此,我們想要一種明確的數(shù)學(xué)方法來表達(dá) 變量 X 可以采用的每個(gè)可能值 x,以及事件(X = x)的可能性 。

為了做到這一點(diǎn),我們定義函數(shù) P,使得 P(X = x) 是變量X 具有值 x的概率 。

對(duì)于間隔而不是離散值,我們也可以要求P(X x)。這將很快變得更加重要。

P 是變量的 密度函數(shù),它表征變量的 分布。

隨著時(shí)間的推移,科學(xué)家們開始意識(shí)到自然界中的許多事物,現(xiàn)實(shí)生活往往 表現(xiàn)相似,變量共享一個(gè)分布,或具有相同的密度函數(shù)(或類似的函數(shù)改變其中的一些常數(shù))。

有趣的是,對(duì)于 P 是一個(gè)實(shí)際的密度函數(shù),有些事情必須適用。

  • 對(duì)于任何值 x,P(X = x) <= 1。沒有比確定更確定的了。

  • 對(duì)于任何值 x,P(X = x)> = 0。事情是不可能的,但不是那么可能。

  • 和最后一個(gè):所有 P(X = x)的概率和對(duì)應(yīng)的 所有可能的值 X為1

最后一個(gè)意味著“X在宇宙中取任何價(jià)值的概率,必須加起來為1,因?yàn)槲覀冎浪鼤?huì)帶來 一些 “價(jià)值”。

離散與連續(xù)隨機(jī)變量分布

最后,隨機(jī)變量可以被認(rèn)為屬于兩組:離散連續(xù)隨機(jī)變量。

離散隨機(jī)變量

離散變量 具有一組離散的可能值,每個(gè)值都具有非零概率。

例如,如果我們說,當(dāng)翻轉(zhuǎn)硬幣時(shí)

X =“如果硬幣1是頭,0則是尾巴”

然后 P(X = 1)= P(X = 0)= 0.5

但是請(qǐng)注意,離散集合不必是有限的。

幾何分布,被用于建模的一些事件的概率的幾率 p 之后發(fā)生 ? 次。

它具有以下密度公式。

其中 k 可以采用具有正概率的任何非負(fù)值。

注意所有可能值的概率之和如何仍然 加起來為1。

連續(xù)隨機(jī)變量

如果你說

X =“從我頭上隨機(jī)拔毛的長度(以毫米為單位)”

X可以 采用哪些可能的值 ?我們都可能都認(rèn)為負(fù)值在這里沒有任何意義。

但是,如果你說它只是1毫米,而不是1.1853759 ......或類似的東西,我會(huì)懷疑你的測(cè)量技巧,或你的測(cè)量錯(cuò)誤報(bào)告。

連續(xù)隨機(jī)變量可以 在給定(連續(xù))間隔中取 任何值。

因此,如果我們為其所有可能值分配了 非零概率,則它們的總和 不會(huì)加起來為1。

為了解決這個(gè)問題,如果 X 是連續(xù)的,我們 為所有 k設(shè)置 P(X = x)= 0,而是為X賦予一個(gè)非零的機(jī)會(huì) 獲取某個(gè)間隔的值 。

為了表示在值 a 和 b之間放置X的概率,我們說P(a <X <b)

而不是僅僅在一個(gè)密度函數(shù)替換值,得到 P(A <X <B) 為 X 連續(xù)變量,你會(huì)集成 X的密度函數(shù) 。

現(xiàn)在您已經(jīng)知道了概率分布是什么,讓我們了解一些最常見的分布!

伯努利概率分布

具有伯努利分布的隨機(jī)變量是最簡(jiǎn)單的。

它代表一個(gè) 二進(jìn)制事件:“這件事發(fā)生” VS“這種情況沒有發(fā)生”,并采取了值 p作為其 唯一的參數(shù),它代表的 概率 是 會(huì)發(fā)生的事件。

具有參數(shù)p的伯努利分布的 隨機(jī)變量 B 將具有以下密度函數(shù):

P(B = 1)= p,P(B = 0)=(1-p)

這里 B = 1 表示事件發(fā)生,B = 0 表示事件 沒發(fā)生。

注意兩個(gè)概率如何加起來為1,因此B的其他值 都不可能。

均勻概率分布

有兩種均勻隨機(jī)變量:離散變量和連續(xù)變量。

離散均勻分布 將采取 (有限的) 值的集合 ,和的概率分配 的1 / n ,其中他們每個(gè)人,的 ? 是在元素的量 小號(hào)。

這樣,如果我的變量 Y 在{1,2,3}中是均勻的,則每個(gè)值出現(xiàn)的概率為33%。

骰子中可以找到離散均勻隨機(jī)變量的典型情況 ,其中典型的骰子具有一組值{1,2,3,4,5,6}。

連續(xù)均勻分布,相反,只需要 兩個(gè)值 a 和 b 作為參數(shù),和相同的密度分配給在每個(gè)值 在它們之間的間隔。

這意味著Y 在一個(gè)區(qū)間 (從 c 到 d) 取值的概率 與其大小 相對(duì)于整個(gè)區(qū)間(ba)的大小成比例

因此,如果 Y 在a 和 b之間均勻分布 ,那么

這樣,如果 Y 是1和2之間的均勻隨機(jī)變量,

P(1 <X <2)= 1 且 P(1 <X <1.5)= 0.5

Python的 random 包的 random 方法在0和1之間采樣均勻分布的連續(xù)變量。

有趣的是,可以證明, 在給定均勻隨機(jī)值生成器和一些微積分的情況下,可以對(duì) 任何其他分布進(jìn)行采樣 。

正態(tài)概率分布

通常分布的變量在自然界中很常見,它們實(shí)際上是常態(tài)。這實(shí)際上就是這個(gè)名字的來源。

如果你把所有的同事都圍起來并測(cè)量他們的高度,或者對(duì)它們進(jìn)行稱重并用結(jié)果繪制直方圖,則可能會(huì)接近正態(tài)分布。

當(dāng)我向您展示探索性數(shù)據(jù)分析示例時(shí),我實(shí)際上看到了這種效果 。

還可以證明,如果您 采用 任意隨機(jī)變量的樣本并對(duì) 這些度量進(jìn)行平均,并多次重復(fù)該過程,則該平均值也將具有 正態(tài)分布。這個(gè)事實(shí)非常重要,它被稱為統(tǒng)計(jì)學(xué)的基本定理。

通常分布的變量:

  • 是 對(duì)稱的,以均值為中心(通常稱為 μ)。

  • 可以在真實(shí)空間中獲取 所有值,但僅在5%的時(shí)間內(nèi)偏離規(guī)范的兩個(gè)sigma。

  • 是 幾乎無處不在。

大多數(shù)情況下,如果你測(cè)量任何經(jīng)驗(yàn)數(shù)據(jù)并且它是對(duì)稱的,假設(shè)它是正常的將有點(diǎn)工作。

例如,滾動(dòng) K 骰子并將結(jié)果相加將分配非常正常。

對(duì)數(shù)正態(tài)概率分布

對(duì)數(shù)正態(tài)概率分布是正常概率分布的較小,較不常見的。

如果變量 Y = log(X) 遵循正態(tài)分布, 則稱變量 X是對(duì) 數(shù)正態(tài)分布的。

當(dāng)在直方圖中繪制時(shí),對(duì)數(shù)正態(tài)概率分布是 不對(duì)稱的,并且如果它們的標(biāo)準(zhǔn)偏差更大則變得更加如此。

我認(rèn)為 對(duì)數(shù)正態(tài)分布 值得一提,因?yàn)?nbsp;大多數(shù)基于貨幣的變量都是 這樣的。

如果你看一下與錢有關(guān)的任何變量的概率分布,比如

  • 在某個(gè)銀行的最新轉(zhuǎn)賬上發(fā)送的金額。

  • 華爾街最新交易量。

  • 一組公司在特定季度的季度收益。

它們通常沒有正態(tài)的概率分布,但會(huì)更接近對(duì)數(shù)正態(tài)隨機(jī)變量。

(對(duì)于其他數(shù)據(jù)科學(xué)家:如果你能想到你在工作中遇到的任何其他經(jīng)驗(yàn)對(duì)數(shù)正態(tài)變量,請(qǐng)參閱評(píng)論中的內(nèi)容!尤其是財(cái)務(wù)之外的任何事情)

指數(shù)概率分布

指數(shù)概率分布也 隨處可見。

它們與稱為泊松過程的概率概念密切相關(guān) 。

直接從維基百科竊取, 泊松過程 是“ 事件以恒定的平均速率連續(xù)且獨(dú)立地發(fā)生的過程 ”。

所有這些意味著,如果:

  • 你有很多活動(dòng)。

  • 它們以一定的速率發(fā)生(  隨時(shí)間變化)。

  • 僅僅因?yàn)橐粋€(gè)發(fā)生了另一個(gè)發(fā)生的機(jī)會(huì)不改變。

然后你有一個(gè)泊松過程。

一些例子可能是來到服務(wù)器的請(qǐng)求,在超市中發(fā)生的交易,或在某個(gè)湖中捕魚的鳥類。

想象一下頻率為λ的泊松過程(比如,事件每秒發(fā)生一次)。

指數(shù)隨機(jī)變量模擬事件發(fā)生后下一個(gè)事件發(fā)生所需的時(shí)間。

有趣的是,在泊松過程中 ,事件可以在任何時(shí)間間隔內(nèi)發(fā)生在0到無窮大之間 (降低概率)的任何地方。

這意味著 無論您等待多久,事件都不會(huì)發(fā)生非零事件。這也意味著它可能在很短的時(shí)間內(nèi)發(fā)生很多次。

在課堂上,我們常常開玩笑的是巴士到達(dá)泊松過程。我認(rèn)為將WhatsApp消息發(fā)送給某些人時(shí)的響應(yīng)時(shí)間 也符合標(biāo)準(zhǔn)。

但是,λ參數(shù) 調(diào)節(jié) 事件的頻率

它將使 事件實(shí)際發(fā)生 的 預(yù)期時(shí)間以某個(gè)值為中心。

這意味著如果我們知道出租車每隔15分鐘通過我們的街區(qū),即使理論上我們 可以 永遠(yuǎn)等待它,我們也很可能不會(huì)等待30分鐘。

數(shù)據(jù)科學(xué)中的指數(shù)概率分布

這是指數(shù)分布隨機(jī)變量的密度函數(shù):

假設(shè)您有一個(gè)來自變量的樣本,并希望查看它是否可以使用指數(shù)分布變量建模。

最佳 λ參數(shù)可以很容易地估計(jì) 為采樣值平均值的倒數(shù)。

指數(shù)變量非常適合用非常罕見但巨大(和平均值)的異常值對(duì)任何概率分布進(jìn)行建模 。

這是因?yàn)樗鼈兛梢?nbsp;取任何非負(fù)值 但以較小值為中心,隨著值的增加頻率降低。

在特別是 異常繁重的樣本中,您可能希望將λ估計(jì)為中 位數(shù)而不是平均值,因?yàn)橹形粩?shù)對(duì)異常值更為 穩(wěn)健。你的里程可能會(huì)有所不同,所以一定要帶上一粒鹽。

結(jié)論

總而言之,作為數(shù)據(jù)科學(xué)家,我認(rèn)為學(xué)習(xí)基礎(chǔ)知識(shí)對(duì)我們很重要。

概率和統(tǒng)計(jì)可能不像深度學(xué)習(xí)或 無監(jiān)督機(jī)器學(xué)習(xí)那樣華而不實(shí) ,但它們是數(shù)據(jù)科學(xué)的 基石。特別是機(jī)器學(xué)習(xí)。

根據(jù)我的經(jīng)驗(yàn),提供具有功能的機(jī)器學(xué)習(xí)模型,而不知道他們遵循哪種分布,這是一個(gè)糟糕的選擇。

記住無處不在的指數(shù)和正態(tài)概率分布以及它們較小的對(duì)應(yīng)物,對(duì)數(shù)正態(tài)分布也是很好的 。

在訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),了解它們的屬性,用途和外觀會(huì) 改變游戲規(guī)則。在進(jìn)行任何類型的數(shù)據(jù)分析時(shí),記住它們通常也很好。

英文標(biāo)題:Probability Distributions Every Data Scientist Should Know

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多