小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

R語言相關(guān)性分析(下)

 生物_醫(yī)藥_科研 2019-07-23

相關(guān)性分析

cor函數(shù)的完整語法如下:

cor(x,y = NULLuse =“everything”,method = c(“pearson”,“kendall”,“spearman”))

也就是說相關(guān)性計(jì)算有三種方法:pearson、kendall和spearman。

1
pearson相關(guān)系數(shù)

算法如下:

代數(shù)算法比較難理解,但分子我們可以看到是個(gè)協(xié)方差,只是少了除以n-1,而分母是我們很熟悉的標(biāo)準(zhǔn)差,同樣少了除以n-1。可以看出分子分母都少了除以n-1,正好抵消。也就意味相關(guān)性系數(shù)就是協(xié)方差除以標(biāo)準(zhǔn)差。

甚至我們可以寫成:

其中cov既是協(xié)方差的縮寫,也是R中的函數(shù)名稱。如果想了解這個(gè)計(jì)公式,我們還要分為三個(gè)部分。

1

協(xié)方差

可以通俗地理解為:兩個(gè)變量在變化過程中的變化方向是否一致,以及一致的程度。

如果兩個(gè)變量,A變大,同時(shí)B也變大,說明兩個(gè)變量是同向變化的,這時(shí)協(xié)方差就是正的。A變大,同時(shí)B變小,說明兩個(gè)變量是反向變化的,這時(shí)協(xié)方差就是負(fù)的。從數(shù)值來看,協(xié)方差的數(shù)值越大,兩個(gè)變量同向程度也就越大。反之亦然。

公式:

如果有X,Y兩個(gè)變量,每個(gè)時(shí)刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個(gè)乘積,再對(duì)這每時(shí)刻的乘積進(jìn)行求和并求出均值。

首先x減去平均值,就意味著我們將平均值作為一個(gè)坐標(biāo)原點(diǎn)。減去平均值,就意味著,所有的x的取值都會(huì)根據(jù)這個(gè)原點(diǎn),重新調(diào)整數(shù)值(位置)。這樣我們就可以得到Xn(n = 1,2,3,,,)的變化程度。也就是距離原點(diǎn)的距離遠(yuǎn)近,這是在x變量中的變化程度。

那么同樣y變量中也做這樣的取值,得到Y(jié)n在Y變量中的變化程度。如果Xn與Yn變化一致。那么要是Xn大于均值,那么X -Xn就是正數(shù),Yn也是同樣的,因此這個(gè)數(shù)是正數(shù)。將n依次取每個(gè)值,就可以算出X變量與Y變量之間的每個(gè)取值時(shí)的變化協(xié)同性。

以上是理想狀態(tài)下,實(shí)際中,就算X變量與Y變量之間存在協(xié)同性,也可能出現(xiàn)這種情況:例如,在某個(gè)取值的時(shí)候,例如當(dāng)n=2時(shí)候,·X2-mean(x) < 0,而·Y2-mean(Y) > 0。但因?yàn)槲覀兪怯?jì)算每一個(gè)取值時(shí)的計(jì)算結(jié)果,最終算一個(gè)求和。所以如果X和Y變量存在協(xié)同性,那么最終的結(jié)果還是為正數(shù)。

當(dāng)然如果x變量與y變量反向相關(guān),計(jì)算的結(jié)果為負(fù)數(shù),代表負(fù)相關(guān)。

當(dāng)然,你可能還會(huì)想,n = 1,n = 2,n = 3…,每個(gè)時(shí)刻X,Y都在增大,而且X都比均值大,Y都比均值小,這種情況協(xié)方差不就是負(fù)的了?7個(gè)負(fù)值求平均肯定是負(fù)值?。?/span>也就是負(fù)相關(guān)。

但是X,Y都是增大的,明明同向變化的,這不就矛盾了?當(dāng)然不矛盾,因?yàn)檫@種情況是不可能的。Xn和Yn減去的是均值。均值既然就意味這肯定有低于均值的Xn和Yn啊。所以結(jié)果一定是有正有負(fù),看最后加和后,哪方更勝一籌。

這里,我們知道了協(xié)方差是可以衡量?jī)蓚€(gè)變量之間的協(xié)同變化程度的。

2

標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差,是我們較常遇見的。不論是高中的數(shù)學(xué)課本,還是后面大學(xué)和工作遇到的變異系數(shù),T檢驗(yàn)等統(tǒng)計(jì)檢驗(yàn)值都是需要標(biāo)準(zhǔn)差的。為什么標(biāo)準(zhǔn)差在統(tǒng)計(jì)中用到的這么多?

標(biāo)準(zhǔn)差可以衡量數(shù)據(jù)的分布狀況

公式:

從公式可以看出,標(biāo)準(zhǔn)差計(jì)算方法為,每一時(shí)刻變量值與變量均值之差再平方,求得一個(gè)數(shù)值,再將每一時(shí)刻這個(gè)數(shù)值相加后求平均,再開方。其中Xi - u同樣是以平均值為原點(diǎn),某一時(shí)刻下數(shù)值偏離的程度。 取平方值,是因?yàn)檫@個(gè)偏離程度有正有負(fù),如果想累加每一個(gè)時(shí)刻的偏離程度,需要取一個(gè)絕對(duì)值,平方是最好的絕對(duì)值的方法。

這樣累加后,我們就可以得到x變量中數(shù)據(jù)的整體偏離中心原點(diǎn)的程度。然后我們還需要除以觀察時(shí)刻的總數(shù),以抵消因?yàn)橛^察次數(shù)不同而產(chǎn)生的影響。因?yàn)橛^察次數(shù)越多,求和值肯定越大,所以要除以N。

還沒完,因?yàn)槲覀兤椒饺≈?,所以還需要開平方。

這里我們可以看到:

標(biāo)準(zhǔn)差得到的,是變量中數(shù)據(jù)的分散程度


3

相關(guān)性系數(shù)

根據(jù)上述,我們知道了協(xié)方差可以獲得兩個(gè)變量之間的協(xié)同變化程度,標(biāo)準(zhǔn)差可以知道變量的變化范圍。

協(xié)方差雖然可以衡量變化程度,但是還缺少一個(gè)統(tǒng)一的量綱,否則不能進(jìn)行比較。

例如:

 sunglass <- c(213,233,296,345,645,644,492,691,790,667,645,546,506,524,434,383,282,181,30,50,30) icecream <- c(215,236,300,350,651,651,500,700,800,678,657,559,520,539,450,400,300,200,50,30,50) cov(sunglass,icecream)#[1] 54091 cov(((sunglass)*0.01), ((icecream)*0.01))#[1] 5.4091 p1 <- qplot(sunglass,icecream) p2 <- qplot(((sunglass)*0.01), ((icecream)*0.01)) cowplot::plot_grid(p1,p2,nrow = 1,labels = c('p1','p2'),hjust = 0.05)

發(fā)現(xiàn)問題了吧,明明icecream和sunglass之間是一樣的變化協(xié)同程度,但因?yàn)椴▌?dòng)范圍的取值大小,就導(dǎo)致了cov(sunglass,icecream)是54091,而cov(((sunglass)*0.01), ((icecream)*0.01))就變成了5.4091。

但是明明趨勢(shì)和相關(guān)性程度是一致的,這就意味著協(xié)方差沒有考慮原始數(shù)據(jù)的分布范圍。因此我們還需要將這個(gè)值數(shù)放在一個(gè)量綱下,最好的量綱就是自己的原始數(shù)據(jù)分布情況。

這不正好需要標(biāo)準(zhǔn)差嗎。因此相關(guān)性系數(shù)的計(jì)算就是協(xié)方差/標(biāo)準(zhǔn)差:

2
spearman相關(guān)性系數(shù)

Pearson相關(guān)系數(shù)相關(guān),Spearman相關(guān)系數(shù)測(cè)量?jī)蓚€(gè)變量之間的關(guān)系。Spearman可以理解為Pearson相關(guān)系數(shù)的基于等級(jí)的版本,可以用于非正態(tài)分布且具有非線性關(guān)系的變量。此外,它不僅可用于連續(xù)數(shù)據(jù),還可用于序數(shù)屬性的分析。

是不是感覺有點(diǎn)蒙圈,但其實(shí)不難。spearman最大的差別在于,它不是根據(jù)原始數(shù)值來計(jì)算相關(guān)性,而是根據(jù)排序。

假設(shè)兩個(gè)隨機(jī)變量分別為X、Y,它們的元素個(gè)數(shù)均為N,兩個(gè)隨機(jī)變量取的第i(1<=i<=N)個(gè)值分別用Xi、Yi表示。對(duì)X、Y進(jìn)行排序(同時(shí)為升序或降序),得到兩個(gè)元素排行集合x、y,其中元素xi、yi分別為Xi在X中的排行以及Yi在Y中的排行。將集合x、y中的元素對(duì)應(yīng)相減得到一個(gè)排行差分集合d,其中di=xi-yi。

注意區(qū)分X和Y的大小寫。

我們知道了排名后,其實(shí)計(jì)算公式還是person那套算法

但是我們也可以發(fā)現(xiàn),直接計(jì)算排名,對(duì)那些非線性的相關(guān)性就會(huì)非常友好了。此外,還可以適用于非正態(tài)分布的數(shù)據(jù)。但作用也是有限的,不信你試試。

cor(tem,icecream,method ='spearman')cor(tem,icecream,method ='pearson')

所以至于選擇spearman還是選擇pearson來計(jì)算相關(guān)性,這個(gè)還要結(jié)合數(shù)據(jù)來說話。因此推薦先用pearson來計(jì)算,如果結(jié)果不好,就可以試試spearman。

3
cos余弦相似性

余弦相似性測(cè)量?jī)蓚€(gè)n維樣本向量的方向,而與其大小無關(guān)。它由兩個(gè)數(shù)值向量的點(diǎn)積計(jì)算,并且通過向量長(zhǎng)度的乘積進(jìn)行歸一化,因此接近1的輸出值表示高相似性。

4
Kendall相似性

和Spearman相關(guān)系數(shù)類似,Kendall計(jì)算排序變量之間的依賴關(guān)系,同樣適用非正態(tài)分布數(shù)據(jù)。Kendall 可以計(jì)算連續(xù)數(shù)據(jù)和有序數(shù)據(jù)。Kendall在已有排名變量的背景下,通過對(duì)錯(cuò)位的強(qiáng)烈懲罰來區(qū)別于Spearman的。

公式:

就是如果Xi與Yi的排序是一致的,就會(huì)得分,不一致就會(huì)減分。

今天的內(nèi)容就到這里啦~

參考資料:

[1] http://blog.sina.com.cn/s/blog_6aa3b1010102xkp5.html

[2] https://statistics./statistical-guides/spearmans-rank-order-correlation-statistical-guide.php

[3] http://www.hep.ph./~hallg/UG_2015/Pearsons.pdf

[4] http:///latex-and-statistics-formulas/

[5] https://www./data/correlation.html

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多