相關(guān)性分析 cor函數(shù)的完整語法如下: cor(x,y = NULL,use =“everything”,method = c(“pearson”,“kendall”,“spearman”)) 也就是說相關(guān)性計(jì)算有三種方法:pearson、kendall和spearman。 算法如下: 代數(shù)算法比較難理解,但分子我們可以看到是個(gè)協(xié)方差,只是少了除以n-1,而分母是我們很熟悉的標(biāo)準(zhǔn)差,同樣少了除以n-1。可以看出分子分母都少了除以n-1,正好抵消。也就意味相關(guān)性系數(shù)就是協(xié)方差除以標(biāo)準(zhǔn)差。 甚至我們可以寫成: 其中cov既是協(xié)方差的縮寫,也是R中的函數(shù)名稱。如果想了解這個(gè)計(jì)公式,我們還要分為三個(gè)部分。 1 協(xié)方差
如果兩個(gè)變量,A變大,同時(shí)B也變大,說明兩個(gè)變量是同向變化的,這時(shí)協(xié)方差就是正的。A變大,同時(shí)B變小,說明兩個(gè)變量是反向變化的,這時(shí)協(xié)方差就是負(fù)的。從數(shù)值來看,協(xié)方差的數(shù)值越大,兩個(gè)變量同向程度也就越大。反之亦然。 公式: 如果有X,Y兩個(gè)變量,每個(gè)時(shí)刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個(gè)乘積,再對(duì)這每時(shí)刻的乘積進(jìn)行求和并求出均值。 首先x減去平均值,就意味著我們將平均值作為一個(gè)坐標(biāo)原點(diǎn)。減去平均值,就意味著,所有的x的取值都會(huì)根據(jù)這個(gè)原點(diǎn),重新調(diào)整數(shù)值(位置)。這樣我們就可以得到Xn(n = 1,2,3,,,)的變化程度。也就是距離原點(diǎn)的距離遠(yuǎn)近,這是在x變量中的變化程度。 那么同樣y變量中也做這樣的取值,得到Y(jié)n在Y變量中的變化程度。如果Xn與Yn變化一致。那么要是Xn大于均值,那么X -Xn就是正數(shù),Yn也是同樣的,因此這個(gè)數(shù)是正數(shù)。將n依次取每個(gè)值,就可以算出X變量與Y變量之間的每個(gè)取值時(shí)的變化協(xié)同性。 以上是理想狀態(tài)下,實(shí)際中,就算X變量與Y變量之間存在協(xié)同性,也可能出現(xiàn)這種情況:例如,在某個(gè)取值的時(shí)候,例如當(dāng)n=2時(shí)候,·X2-mean(x) < 0,而·Y2-mean(Y) > 0。但因?yàn)槲覀兪怯?jì)算每一個(gè)取值時(shí)的計(jì)算結(jié)果,最終算一個(gè)求和。所以如果X和Y變量存在協(xié)同性,那么最終的結(jié)果還是為正數(shù)。
當(dāng)然,你可能還會(huì)想,n = 1,n = 2,n = 3…,每個(gè)時(shí)刻X,Y都在增大,而且X都比均值大,Y都比均值小,這種情況協(xié)方差不就是負(fù)的了?7個(gè)負(fù)值求平均肯定是負(fù)值?。?/span>也就是負(fù)相關(guān)。 但是X,Y都是增大的,明明同向變化的,這不就矛盾了?當(dāng)然不矛盾,因?yàn)檫@種情況是不可能的。Xn和Yn減去的是均值。均值既然就意味這肯定有低于均值的Xn和Yn啊。所以結(jié)果一定是有正有負(fù),看最后加和后,哪方更勝一籌。 這里,我們知道了協(xié)方差是可以衡量?jī)蓚€(gè)變量之間的協(xié)同變化程度的。 2 標(biāo)準(zhǔn)差 標(biāo)準(zhǔn)差,是我們較常遇見的。不論是高中的數(shù)學(xué)課本,還是后面大學(xué)和工作遇到的變異系數(shù),T檢驗(yàn)等統(tǒng)計(jì)檢驗(yàn)值都是需要標(biāo)準(zhǔn)差的。為什么標(biāo)準(zhǔn)差在統(tǒng)計(jì)中用到的這么多?
公式: 從公式可以看出,標(biāo)準(zhǔn)差計(jì)算方法為,每一時(shí)刻變量值與變量均值之差再平方,求得一個(gè)數(shù)值,再將每一時(shí)刻這個(gè)數(shù)值相加后求平均,再開方。其中Xi - u同樣是以平均值為原點(diǎn),某一時(shí)刻下數(shù)值偏離的程度。 取平方值,是因?yàn)檫@個(gè)偏離程度有正有負(fù),如果想累加每一個(gè)時(shí)刻的偏離程度,需要取一個(gè)絕對(duì)值,平方是最好的絕對(duì)值的方法。 這樣累加后,我們就可以得到x變量中數(shù)據(jù)的整體偏離中心原點(diǎn)的程度。然后我們還需要除以觀察時(shí)刻的總數(shù),以抵消因?yàn)橛^察次數(shù)不同而產(chǎn)生的影響。因?yàn)橛^察次數(shù)越多,求和值肯定越大,所以要除以N。 還沒完,因?yàn)槲覀兤椒饺≈?,所以還需要開平方。 這里我們可以看到:
3 相關(guān)性系數(shù) 根據(jù)上述,我們知道了協(xié)方差可以獲得兩個(gè)變量之間的協(xié)同變化程度,標(biāo)準(zhǔn)差可以知道變量的變化范圍。 協(xié)方差雖然可以衡量變化程度,但是還缺少一個(gè)統(tǒng)一的量綱,否則不能進(jìn)行比較。 例如:
發(fā)現(xiàn)問題了吧,明明icecream和sunglass之間是一樣的變化協(xié)同程度,但因?yàn)椴▌?dòng)范圍的取值大小,就導(dǎo)致了cov(sunglass,icecream)是54091,而cov(((sunglass)*0.01), ((icecream)*0.01))就變成了5.4091。 但是明明趨勢(shì)和相關(guān)性程度是一致的,這就意味著協(xié)方差沒有考慮原始數(shù)據(jù)的分布范圍。因此我們還需要將這個(gè)值數(shù)放在一個(gè)量綱下,最好的量綱就是自己的原始數(shù)據(jù)分布情況。 這不正好需要標(biāo)準(zhǔn)差嗎。因此相關(guān)性系數(shù)的計(jì)算就是協(xié)方差/標(biāo)準(zhǔn)差: 與Pearson相關(guān)系數(shù)相關(guān),Spearman相關(guān)系數(shù)測(cè)量?jī)蓚€(gè)變量之間的關(guān)系。Spearman可以理解為Pearson相關(guān)系數(shù)的基于等級(jí)的版本,可以用于非正態(tài)分布且具有非線性關(guān)系的變量。此外,它不僅可用于連續(xù)數(shù)據(jù),還可用于序數(shù)屬性的分析。 是不是感覺有點(diǎn)蒙圈,但其實(shí)不難。spearman最大的差別在于,它不是根據(jù)原始數(shù)值來計(jì)算相關(guān)性,而是根據(jù)排序。 假設(shè)兩個(gè)隨機(jī)變量分別為X、Y,它們的元素個(gè)數(shù)均為N,兩個(gè)隨機(jī)變量取的第i(1<=i<=N)個(gè)值分別用Xi、Yi表示。對(duì)X、Y進(jìn)行排序(同時(shí)為升序或降序),得到兩個(gè)元素排行集合x、y,其中元素xi、yi分別為Xi在X中的排行以及Yi在Y中的排行。將集合x、y中的元素對(duì)應(yīng)相減得到一個(gè)排行差分集合d,其中di=xi-yi。
我們知道了排名后,其實(shí)計(jì)算公式還是person那套算法 但是我們也可以發(fā)現(xiàn),直接計(jì)算排名,對(duì)那些非線性的相關(guān)性就會(huì)非常友好了。此外,還可以適用于非正態(tài)分布的數(shù)據(jù)。但作用也是有限的,不信你試試。
所以至于選擇spearman還是選擇pearson來計(jì)算相關(guān)性,這個(gè)還要結(jié)合數(shù)據(jù)來說話。因此推薦先用pearson來計(jì)算,如果結(jié)果不好,就可以試試spearman。 余弦相似性測(cè)量?jī)蓚€(gè)n維樣本向量的方向,而與其大小無關(guān)。它由兩個(gè)數(shù)值向量的點(diǎn)積計(jì)算,并且通過向量長(zhǎng)度的乘積進(jìn)行歸一化,因此接近1的輸出值表示高相似性。 和Spearman相關(guān)系數(shù)類似,Kendall計(jì)算排序變量之間的依賴關(guān)系,同樣適用非正態(tài)分布數(shù)據(jù)。Kendall 可以計(jì)算連續(xù)數(shù)據(jù)和有序數(shù)據(jù)。Kendall在已有排名變量的背景下,通過對(duì)錯(cuò)位的強(qiáng)烈懲罰來區(qū)別于Spearman的。 公式: 就是如果Xi與Yi的排序是一致的,就會(huì)得分,不一致就會(huì)減分。 今天的內(nèi)容就到這里啦~
|
|