在統(tǒng)計學(xué)中,皮爾遜積矩相關(guān)系數(shù)(英語:Pearson product-moment correlation coefficient,又稱作 PPMCC或PCCs, 文章中常用r或Pearson’s r表示)用于度量兩個變量X和Y之間的相關(guān)(線性相關(guān)),其值介于-1與1之間。在自然科學(xué)領(lǐng)域中,該系數(shù)廣泛用于度量兩個變量之間的相關(guān)程度。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來的。這個相關(guān)系數(shù)也稱作“皮爾森相關(guān)系數(shù)r”。 皮爾遜相關(guān)系數(shù)的定義 兩個變量之間的皮爾遜相關(guān)系數(shù)定義為兩個變量之間的協(xié)方差和標準差的商。假設(shè)有兩個變量X、Y,那么兩變量間的皮爾遜相關(guān)系數(shù)可通過以下公式計算: 公式一: 公式二: 公式三: 公式四: 以上列出的四個公式等價,其中E是數(shù)學(xué)期望,cov表示協(xié)方差,N表示變量取值的個數(shù)。 皮爾遜相關(guān)系數(shù)的解釋 皮爾遜相關(guān)系數(shù)理解有兩個角度 1、以高中課本為例,將兩組數(shù)據(jù)首先做Z分數(shù)處理之后,然后兩組數(shù)據(jù)的乘積和除以樣本數(shù)。Z分數(shù)一般代表正態(tài)分布中數(shù)據(jù)偏離中心點的距離。等于變量減掉平均數(shù)再除以標準差。標準差則等于變量減掉平均數(shù)的平方和再除以樣本數(shù)最后再開方。所以我們可以將公式依次精簡為: 以下為python的實現(xiàn): 2、 按照大學(xué)的線性數(shù)學(xué)(幾何學(xué))的解釋,可以看做是兩組數(shù)據(jù)的向量夾角的余弦。 對于沒有中心化的數(shù)據(jù), 相關(guān)系數(shù)與兩條可能的回歸線y=gx(x) 和 x=gy(y) 夾角的余弦值一致。 1、n個數(shù)值組成的行(x1, x2, x3,… xn)稱為n維向量簡記為大寫字母X 2、向量X及Y的向量夾角余弦按照下式計算: X·Y 3、向量夾角余弦約接近1說明兩向量相似度越高。 以下為Python的實現(xiàn): 從以上解釋,也可以理解皮爾遜相關(guān)的約束條件:
在實踐統(tǒng)計中一般只輸出兩個系數(shù),一個是相關(guān)系數(shù)也就是計算出來的相關(guān)系數(shù)大?。ㄔ?1到1之間),另一個是獨立樣本檢驗系數(shù),用來檢驗樣本一致性。 |
|