小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

皮爾遜相關(guān)系數(shù)的學(xué)習(xí)

 imelee 2018-02-04

在統(tǒng)計學(xué)中,皮爾遜積矩相關(guān)系數(shù)(英語:Pearson product-moment correlation coefficient,又稱作 PPMCC或PCCs, 文章中常用r或Pearson’s r表示)用于度量兩個變量X和Y之間的相關(guān)(線性相關(guān)),其值介于-1與1之間。在自然科學(xué)領(lǐng)域中,該系數(shù)廣泛用于度量兩個變量之間的相關(guān)程度。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來的。這個相關(guān)系數(shù)也稱作“皮爾森相關(guān)系數(shù)r”。

皮爾遜相關(guān)系數(shù)的定義

兩個變量之間的皮爾遜相關(guān)系數(shù)定義為兩個變量之間的協(xié)方差和標準差的商。假設(shè)有兩個變量X、Y,那么兩變量間的皮爾遜相關(guān)系數(shù)可通過以下公式計算:

公式一:

1

公式二:

2

公式三:

3

公式四:

4

以上列出的四個公式等價,其中E是數(shù)學(xué)期望,cov表示協(xié)方差,N表示變量取值的個數(shù)。

皮爾遜相關(guān)系數(shù)的解釋

皮爾遜相關(guān)系數(shù)理解有兩個角度

1、以高中課本為例,將兩組數(shù)據(jù)首先做Z分數(shù)處理之后,然后兩組數(shù)據(jù)的乘積和除以樣本數(shù)。Z分數(shù)一般代表正態(tài)分布中數(shù)據(jù)偏離中心點的距離。等于變量減掉平均數(shù)再除以標準差。標準差則等于變量減掉平均數(shù)的平方和再除以樣本數(shù)最后再開方。所以我們可以將公式依次精簡為:

3

以下為python的實現(xiàn):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
from math import sqrt
#返回p1和p2的皮爾遜相關(guān)系數(shù)
def sim_pearson(prefs,p1,p2):
    #得到雙方曾評價過的物品列表
    si = {}
    for item in prefs[p1]:
        if item in prefs[p2]:
            si[item] = 1
    #得到列表元素個數(shù)
    n = len(si)
    #如果兩者沒有共同之處,則返回1
    if not n:
        return  1
    #對所有偏好求和
    sum1 = sum([perfs[p1][it] for it in si])
    sum2 = sum([perfs[p2][it] for it in si])
    #求平方和
    sum1Sq = sum([pow(prefs[p1][it],2) for it in si])
    sum2Sq = sum([pow(prefs[p2][it],2) for it in si])
    #求乘積之和
    pSum = sum([prefs[p1][it] * prefs[p2][it] for it in si])
    #計算皮爾遜評價值
    num = pSum -(sum1 * sum2 / 2)
    den = sqrt((sum1Sq - pow(sum1,2) / n) * (sum2Sq - pow((sum2,2) / 2)))
    if not den:
        return 0
    r = num/den
    return r

2、 按照大學(xué)的線性數(shù)學(xué)(幾何學(xué))的解釋,可以看做是兩組數(shù)據(jù)的向量夾角的余弦。

對于沒有中心化的數(shù)據(jù), 相關(guān)系數(shù)與兩條可能的回歸線y=gx(x) 和 x=gy(y) 夾角的余弦值一致。

1、n個數(shù)值組成的行(x1, x2, x3,… xn)稱為n維向量簡記為大寫字母X

                              
|X| = √x12+x22+x32+…+xn2     定義為向量X的模,向量X與Y的內(nèi)積為:   X·Y=x1*y1+x2*y2+..xn*yn

2、向量X及Y的向量夾角余弦按照下式計算:

X·Y
cosθ =                  
|X|×|Y|

3、向量夾角余弦約接近1說明兩向量相似度越高。

以下為Python的實現(xiàn):

1
2
3
import math,numpy
def cosine_distance(u, v):
    return numpy.dot(u, v) / (math.sqrt(numpy.dot(u, u)) * math.sqrt(numpy.dot(v, v)))

從以上解釋,也可以理解皮爾遜相關(guān)的約束條件:

  1. 兩個變量間有線性關(guān)系
  2. 變量是連續(xù)變量
  3. 變量均符合正態(tài)分布,且二元分布也符合正態(tài)分布
  4. 兩變量獨立

在實踐統(tǒng)計中一般只輸出兩個系數(shù),一個是相關(guān)系數(shù)也就是計算出來的相關(guān)系數(shù)大?。ㄔ?1到1之間),另一個是獨立樣本檢驗系數(shù),用來檢驗樣本一致性。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多