這段時(shí)間跟大家出的很多文章都是偏娛樂型的,很多伙伴私信說之前講過的正態(tài)有些不懂,哈哈哈,也能理解,畢竟正態(tài)學(xué)起來不是一篇教程就能完全掌握的!為什么正態(tài)分布如此特殊?為什么大量數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的文章都圍繞正態(tài)分布進(jìn)行討論?今天再跟大家出了這篇Python學(xué)習(xí)教程文章,用一種簡單易懂的方式來介紹正態(tài)分布。 在機(jī)器學(xué)習(xí)的世界中,以概率分布為核心的研究大都聚焦于正態(tài)分布。本文將闡述正態(tài)分布的概率,并解釋它的應(yīng)用為何如此的廣泛,尤其是在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域,它幾乎無處不在。 我將會(huì)從基礎(chǔ)概念出發(fā),解釋有關(guān)正態(tài)分布的一切,并揭示它為何如此重要 文章結(jié)構(gòu)本文的主要內(nèi)容如下:
簡短的背景介紹
正態(tài)分布又名高斯分布 3 . 越簡單的模型越是常用,因?yàn)樗鼈兡軌虮缓芎玫慕忉尯屠斫?。正態(tài)分布非常簡單,這就是它是如此的常用的原因。 因此,理解正態(tài)分布非常有必要。 什么是概率分布?首先介紹一下相關(guān)概念。 考慮一個(gè)預(yù)測模型,該模型可以是我們的數(shù)據(jù)科學(xué)研究中的一個(gè)組件。
事件的概率越大,該事件越容易出現(xiàn)。
世界上存在著很多不同的概率分布,而最廣泛使用的就是正態(tài)分布了。 初遇正態(tài)分布我們可以畫出正態(tài)分布的概率分布曲線,可以看到該曲線是一個(gè)鐘型的曲線。如果變量的均值,模和中值相等,那么該變量就呈現(xiàn)正態(tài)分布。 如下圖所示,為正態(tài)分布的概率分布曲線: 理解和估計(jì)變量的概率分布非常重要。 下面列出的變量的分布都比較接近正態(tài)分布:
此外,生活中有大量的變量都是具有 x % 置信度的正態(tài)變量,其中,x<100。 什么是正態(tài)分布?正態(tài)分布只依賴于數(shù)據(jù)集的兩個(gè)特征:樣本的均值和方差。 均值——樣本所有取值的平均 方差——該指標(biāo)衡量了樣本總體偏離均值的程度 正態(tài)分布的這種統(tǒng)計(jì)特性使得問題變得異常簡單,任何具有正態(tài)分布的變量,都可以進(jìn)行高精度分預(yù)測。 值得注意的是,大自然中發(fā)現(xiàn)的變量,大多近似服從正態(tài)分布。 正態(tài)分布很容易解釋,這是因?yàn)椋?/p>
正態(tài)分布是我們熟悉的正常行為 為何如此多的變量都大致服從正態(tài)分布?這個(gè)現(xiàn)象可以由如下定理理解釋:當(dāng)在大量隨機(jī)變量上重復(fù)很多次實(shí)驗(yàn)時(shí),它們的分布總和將非常接近正態(tài)分布。 由于人的身高是一個(gè)隨機(jī)變量,并且基于其他隨機(jī)變量,例如一個(gè)人消耗的營養(yǎng)量,他們所處的環(huán)境,他們的遺傳等等,這些變量的分布總和最終是非常接近正態(tài)的。 這就是中心極限定理。 本文的核心:我們從上文的分析得出,正態(tài)分布是許多隨機(jī)分布的總和。 如果我們繪制正態(tài)分布密度函數(shù),那么它的曲線將具有以下特征: 如上圖所示,該鐘形曲線有均值為 100,標(biāo)準(zhǔn)差為1:
更進(jìn)一步,如上圖所示:
這使我們可以輕松估計(jì)變量的變化性,并給出相應(yīng)置信水平,它的可能取值是多少。例如,在上面的灰色鐘形曲線中,變量值在 99-101 之間的可能性為 68.2%。 正態(tài)概率分布函數(shù) 概率密度函數(shù)的形式如下: 概率密度函數(shù)基本上可以看作是連續(xù)隨機(jī)變量取值的概率。 正態(tài)分布是鐘形曲線,其中mean = mode = median。
標(biāo)準(zhǔn)差越大,樣品中的變化性越大。 如何使用 Python 探索變量的概率分布最簡單的方法是加載 data frame 中的所有特征,然后運(yùn)行以下腳本(使用pandas 庫):
該函數(shù)向我們展示了所有變量的概率分布。 變量服從正態(tài)分布意味著什么?如果我們將大量具有不同分布的隨機(jī)變量加起來,所得到的新變量將最終具有正態(tài)分布。這就是前文所述的中心極限定理。 服從正態(tài)分布的變量總是服從正態(tài)分布。 例如,假設(shè) A 和 B 是兩個(gè)具有正態(tài)分布的變量,那么: · A x B 是正態(tài)分布 · A + B 是正態(tài)分布 因此,使用正態(tài)分布,預(yù)測變量并在一定范圍內(nèi)找到它的概率會(huì)變得非常簡單。 樣本不服從正態(tài)分布怎么辦?我們可以將變量的分布轉(zhuǎn)換為正態(tài)分布。 我們有多種方法將非正態(tài)分布轉(zhuǎn)化為正態(tài)分布: 1.線性變換 一旦我們收集到變量的樣本數(shù)據(jù),我們就可以對樣本進(jìn)行線性變化,并計(jì)算Z得分:
2.使用 Boxcox 變換 我們可以使用 SciPy 包將數(shù)據(jù)轉(zhuǎn)換為正態(tài)分布: scipy.stats.boxcox(x, lmbda=None, alpha=None) 3.使用 Yeo-Johnson 變換 另外,我們可以使用 yeo-johnson 變換。 Python 的 sci-kit learn 庫提供了相應(yīng)的功能: sklearn.preprocessing.PowerTransformer(method=’yeojohnson’,standardize=True, copy=True) 正態(tài)分布的問題 由于正態(tài)分布簡單且易于理解,因此它也在預(yù)測研究中被過度使用。 假設(shè)變量服從正態(tài)分布會(huì)有一些顯而易見的缺陷。 例如,我們不能假設(shè)股票價(jià)格服從正態(tài)分布,因?yàn)閮r(jià)格不能為負(fù)。 因此,我們可以假設(shè)股票價(jià)格服從對數(shù)正態(tài)分布,以確保它永遠(yuǎn)不會(huì)低于零。 我們知道股票收益可能是負(fù)數(shù),因此收益可以假設(shè)服從正態(tài)分布。 假設(shè)變量服從正態(tài)分布而不進(jìn)行任何分析是愚蠢的。 變量可以服從Poisson,Student-t 或 Binomial 分布,盲目地假設(shè)變量服從正態(tài)分布可能導(dǎo)致不準(zhǔn)確的結(jié)果。 總結(jié)本文闡述了正態(tài)分布的概念和性質(zhì),以及它如此重要的原因。希望能幫助到正在學(xué)習(xí)Python教程的你。 |
|