小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例

 禁忌石 2023-07-29 發(fā)布于浙江

什么是相關(guān)性分析

相關(guān)性分析也稱為雙變量分析,主要關(guān)注找出變量之間是否存在關(guān)系,然后確定該關(guān)系的大小和作用。相關(guān)性分析在數(shù)據(jù)分析中扮演著關(guān)鍵的角色,幫助我們深入理解數(shù)據(jù)之間的關(guān)系,為更明智的決策提供依據(jù)。通常使用相關(guān)系數(shù)來衡量變量之間的相關(guān)程度。常見的相關(guān)系數(shù)包括皮爾遜相關(guān)系數(shù)(Pearson's correlation coefficient)、斯皮爾曼秩相關(guān)系數(shù)(Spearman's rank-order correlation coefficient)、肯德爾秩相關(guān)系數(shù)(Kendall's tau correlation coefficient)等。

  • 皮爾遜相關(guān)系數(shù)(Pearson's correlation coefficient )是最為常見的一種,它用于衡量兩個變量之間的線性關(guān)系程度。其取值范圍為-1到1。當(dāng)相關(guān)系數(shù)接近1時,說明兩個變量之間的正相關(guān)性非常強;當(dāng)相關(guān)系數(shù)接近-1時,說明兩個變量之間的負(fù)相關(guān)性非常強;當(dāng)相關(guān)系數(shù)接近0時,說明兩個變量之間沒有線性關(guān)系。

  • 斯皮爾曼秩相關(guān)系數(shù)(Spearman's rank-order correlation coefficient)在應(yīng)用于包含某種自然順序的變量時最為適用,例如起薪與不同學(xué)位(高中、學(xué)士、碩士等)之間的關(guān)系,或者年齡與收入之間的關(guān)系。它不對數(shù)據(jù)的分布做任何假設(shè)。

  • 肯德爾(Kendall's tau correlation coefficient)秩相關(guān)系數(shù),它用于排名配對。肯德爾相關(guān)系數(shù)的目的是確定兩個變量之間的依賴程度。如果相關(guān)系數(shù)的值為零,可以認(rèn)為變量X和Y彼此獨立。

最重要的是:相關(guān)性并不代表因果關(guān)系。相關(guān)性僅僅表明兩個變量之間存在某種聯(lián)系或關(guān)聯(lián),并不能說明其中一個變量的變化導(dǎo)致另一個變量發(fā)生變化的原因。因此,在進行相關(guān)性分析時,我們必須同時考慮其他因素,以免誤判。

皮爾遜相關(guān)系數(shù)

由卡爾·皮爾遜從弗朗西斯·高爾頓在1880年代提出的一個相似卻又稍有不同的想法演變而來,并且其數(shù)學(xué)公式由奧古斯特·布拉菲(Auguste Bravais)于1844年推導(dǎo)出和發(fā)表。這個相關(guān)系數(shù)也稱作“皮爾森相關(guān)系r”。

一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例

皮爾遜相關(guān)系數(shù)在范圍?1 ≤ r ≤ 1內(nèi)取任意實數(shù)值。

  • 最大值 r = 1 對應(yīng)于x和y之間存在完美的正相關(guān)線性關(guān)系,即較大的x值對應(yīng)于較大的y值,反之亦然。值 r > 0 表示x和y之間存在正相關(guān)關(guān)系。

  • 值 r = 0 對應(yīng)于x和y之間不存在線性關(guān)系。

  • 值 r < 0 表示x和y之間存在負(fù)相關(guān)關(guān)系。

  • 最小值 r = ?1 對應(yīng)于x和y之間存在完美的負(fù)相關(guān)線性關(guān)系。即較大的x值對應(yīng)于較小的y值,反之亦然。

Pearson's r ValueCorrelation Between x and yequal to 1perfect positive linear relationshipgreater than 0positive correlationequal to 0no linear relationshipless than 0negative correlationequal to -1perfect negative linear relationship

示例

下面的示例是對包括語文、數(shù)學(xué)、英語、物理和化學(xué)在內(nèi)的學(xué)科成績表進行相關(guān)性分析,探究學(xué)科之間是否存在關(guān)聯(lián)性。通過皮爾遜相關(guān)系數(shù)等方法,我們將揭示學(xué)科成績之間的相關(guān)性程度。

  • 利用SQL加載數(shù)據(jù)到DataFrame ,添加小的隨機數(shù)作為數(shù)據(jù)脫敏,不影響相關(guān)性分析

一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例
  • 利用dataFrame 相關(guān)函數(shù)corr函數(shù)進行皮爾遜相關(guān)系數(shù)矩陣輸出:

df3.corr()  ## Pearson's r
一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例

從相關(guān)系數(shù)矩陣可以觀察到學(xué)科成績之間普遍存在著一定程度的正相關(guān)性。具體而言:

  • 物理和數(shù)學(xué)成績之間的相關(guān)系數(shù)為0.858,表示這兩門科目成績之間呈現(xiàn)較強的正相關(guān)關(guān)系。

  • 物理和化學(xué)成績之間的相關(guān)系數(shù)為0.868,也呈現(xiàn)較強的正相關(guān)性。

  • 數(shù)學(xué)和化學(xué)成績之間的相關(guān)系數(shù)為0.839,同樣表現(xiàn)出較強的正相關(guān)關(guān)系。

  • 英語和數(shù)學(xué)、化學(xué)、物理成績之間的相關(guān)系數(shù)分別為0.821、0.794、0.802,均顯示了這門學(xué)科與其他科目之間的正相關(guān)性。

  • 語文與其他學(xué)科的相關(guān)系數(shù)在0.715到0.737之間,雖然略低于其他學(xué)科之間的相關(guān)性,但仍然表現(xiàn)出一定程度的正相關(guān)關(guān)系。

綜上所述,該學(xué)科成績表中的學(xué)科間普遍存在一定的正相關(guān)性,這意味著學(xué)生在某個學(xué)科表現(xiàn)較好時,其他學(xué)科的成績也可能相對較好。這種相關(guān)性可以為教育者和學(xué)生提供有價值的信息,幫助他們制定更有效的學(xué)習(xí)策略和學(xué)科優(yōu)化安排。但需要注意的是,相關(guān)性并不代表因果關(guān)系,學(xué)科成績之間的關(guān)聯(lián)可能受到其他復(fù)雜因素的影響,因此在做出任何決策時,仍需綜合考慮其他因素。

一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例

什么是秩相關(guān)系數(shù)

秩相關(guān)系數(shù)(Coefficient of Rank Correlation),又稱等級相關(guān)系數(shù),反映的是兩個隨機變量的的變化趨勢方向和強度之間的關(guān)聯(lián),是將兩個隨機變量的樣本值按數(shù)據(jù)的大小順序排列位次,以各要素樣本值的位次代替實際數(shù)據(jù)而求得的一種統(tǒng)計量。它是反映等級相關(guān)程度的統(tǒng)計分析指標(biāo),常用的等級相關(guān)分析方法有斯皮爾曼(Spearman)秩相關(guān)系數(shù)和肯德爾(Kendall)秩相關(guān)系數(shù)等。這里秩是秩序的秩,或者說排名、順序、等級的意思(ranked或者ranking)。

考慮兩個隨機變量X和Y,如果秩相關(guān)系數(shù)為正,則Y 隨著X的增加而增加;如果秩相關(guān)系數(shù)為負(fù),則Y隨著X的增加而減?。蝗绻认嚓P(guān)系數(shù)為0,則表示隨著Y的增減變化跟X的增減變化沒啥關(guān)系。當(dāng)Y和X越來越接近嚴(yán)格單調(diào)的函數(shù)關(guān)系時,秩相關(guān)系數(shù)在數(shù)值上就越來越大。當(dāng)秩相關(guān)系數(shù)為1或者-1時,就表明Y隨著X的增加而嚴(yán)格單調(diào)增加或單調(diào)減小。

在實際應(yīng)用中,有時獲得的原始資料沒有具體的數(shù)據(jù)表現(xiàn),只能用等級來描述某種現(xiàn)象,要分析現(xiàn)象之間的相關(guān)關(guān)系,就只能用秩相關(guān)系數(shù)。

斯皮爾曼秩相關(guān)系數(shù)

斯皮爾曼秩相關(guān)系數(shù)(The Spearman's rank coefficient of correlation)是秩相關(guān)(rank correlation)的一種非參數(shù)度量(nonparametric measure)。得名于英國統(tǒng)計學(xué)家Charles Spearman,通常記為希臘字母'ρ' (rho)( often called Spearman's rho)。

在討論斯皮爾曼相關(guān)系數(shù)之前,首先要理解皮爾遜相關(guān)(Pearson's correlation),斯皮爾曼相關(guān)可以看作是皮爾遜相關(guān)的非參數(shù)版本(nonparametric version)。皮爾遜相關(guān)是關(guān)于兩個隨機變量之間的線性關(guān)系強度的統(tǒng)計度量(statistical measure),而斯皮爾曼相關(guān)考察的是兩者單調(diào)關(guān)系(monotonic relationship)的強度,通俗地說就是兩者在變大或變小的趨勢上多大程度上保持步調(diào)一致,哪怕沒有保持比例關(guān)系。計算皮爾遜相關(guān)系數(shù)時使用的是數(shù)據(jù)樣本值本身,而計算斯皮爾曼相關(guān)系數(shù)使用的是數(shù)據(jù)樣本排位位次值(有時候數(shù)據(jù)本身就是位次值,有時候數(shù)據(jù)本身不是位次值,則在計算斯皮爾曼相關(guān)系數(shù)之前要先計算位次值)。

能夠適用皮爾遜相關(guān)的場合當(dāng)然是優(yōu)先使用皮爾遜相關(guān),但是在有些場合,皮爾遜相關(guān)所需要的前提假設(shè)不能得到滿足,這時就可以考慮使用斯皮爾曼相關(guān),比如說以下一些情況下:

  • 如果你的數(shù)據(jù)展現(xiàn)的是非線性關(guān)系,或者不是正態(tài)分布的。

  • 如果至少有一方數(shù)據(jù)是序數(shù)類型(ordinal)而非數(shù)值類型。比如說,如果數(shù)據(jù)的賦值為'第一、第二、第三、... '你就是在處理序數(shù)類型數(shù)據(jù)。更具具體一點的例子就是,比如說你考察兩個球隊在歷年聯(lián)賽中的戰(zhàn)績之間的關(guān)系,那么你得到的數(shù)據(jù)可能是這樣的:A隊在2010~2020年間的聯(lián)賽排名為{1,2,4,5,...,2}, B隊在2010~2020年間的聯(lián)賽排名為{2,1,3,6,...,4}。這兩個數(shù)據(jù)就是序數(shù)類型的數(shù)據(jù),考察它們的相關(guān)性你使用皮爾遜相關(guān)系數(shù)就不妥當(dāng)。

  • 如果數(shù)據(jù)中有明顯的異常值(outliers)。與皮爾遜相關(guān)不同,斯皮爾曼相關(guān)對于異常值不太敏感,因為它是基于排序位次進行計算,實際數(shù)值之間的差異大小對計算結(jié)果沒有直接影響。

計算公式

取決于觀測數(shù)據(jù)中有沒有位次相同的數(shù)據(jù)(the same rank assigned to two or more observations),斯皮爾曼相關(guān)系數(shù)可以通過以下兩種方法進行計算。當(dāng)沒有位次相同的數(shù)據(jù)時,可以用一個更簡單的公式,如下所示:

一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例

其中: di 表示第i個數(shù)據(jù)對的位次值之差 n 總的觀測樣本數(shù)

如果觀測樣本中存在位次相同的數(shù)據(jù),則需要使用如下所示的全版本的計算公式:

一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例

示例

  • 為了展示手工計算斯皮爾曼秩相關(guān)系數(shù),我們?nèi)我膺x出10條物理和語文成績進行分析。

一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例
import seaborn as snssns.scatterplot(x='pyts', y='chin', data=df)
一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例
  • 計算d 和d^2:

df['pyts_rank'] = df['pyts'].rank()df['chin_rank'] = df['chin'].rank()df['d'] = df['pyts_rank'] - df['chin_rank']df['d2'] = df['d'].apply(lambda x: x*x)df
一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例
  • 計算Spearman's Rank Correlation Coefficient

def spearman_rank(df):    sum_d2 = sum(df['d2'])    n = len(df['d2'])    r = 1 - sum_d2*6/((n*n-1)*n)    return rr = spearman_rank(df)print(f'Spearman's Rank Correlation Coefficient is: {r}')
  • corr函數(shù) 計算Spearman's Rank Correlation Coefficient:

一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例

肯德爾秩相關(guān)系數(shù)

肯德爾(Kendall)的Tau相關(guān)系數(shù)(Kendall's tau correlation coefficient)是一種用于衡量兩個變量之間等級關(guān)系(順序關(guān)系)的相關(guān)性指標(biāo)。它不依賴于數(shù)據(jù)的具體數(shù)值,而是根據(jù)數(shù)據(jù)的秩次(排序)來計算相關(guān)性。肯德爾Tau相關(guān)系數(shù)常用于對有序等級數(shù)據(jù)進行相關(guān)性分析。

考慮兩個變量X和Y,假設(shè)有n個數(shù)據(jù)點。首先,對X和Y的每個數(shù)據(jù)點進行秩次排名,得到它們的秩次Rx和Ry。然后,計算出對所有兩兩數(shù)據(jù)點(i點,j點)之間的秩次對(Rxi-Rxj, Ryi-Rxj)中有多少對秩次對符號(正負(fù)號)相符的對和秩次對符合(正負(fù)號)不相符的對。秩次對相符的對表示在兩個變量中,數(shù)據(jù)點的排序順序是一致的,秩次不相符的對表示數(shù)據(jù)點在兩個變量中的排序順序是不一致的。

然后,根據(jù)秩次相符對數(shù)目和秩次不相符對數(shù)目,計算肯德爾Tau相關(guān)系數(shù)(τ):

τ = (秩次相符對數(shù)目 - 秩次不相符對數(shù)目) / (秩次相符對數(shù)目 + 秩次不相符對數(shù)目)

肯德爾Tau相關(guān)系數(shù)的取值范圍在-1到1之間。當(dāng)τ接近于1時,表示兩個變量的秩次之間存在完全的正相關(guān)關(guān)系;當(dāng)τ接近于-1時,表示兩個變量的秩次之間存在完全的負(fù)相關(guān)關(guān)系;當(dāng)τ接近于0時,表示兩個變量的秩次之間幾乎沒有相關(guān)關(guān)系。

肯德爾Tau相關(guān)系數(shù)適用于有序等級數(shù)據(jù),特別是當(dāng)數(shù)據(jù)之間存在等級關(guān)系,但數(shù)值之間的差異不具有實際意義或不可測量時,它便是一種比較合適的相關(guān)性度量方法。

示例

  • 引入示例數(shù)據(jù)

一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例
一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例
  • 計算秩次

df['pyts_rank'] = df['pyts'].rank()df['chin_rank'] = df['chin'].rank()df
一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例
  • 計算肯德爾(Kendall's tau correlation coefficient)秩相關(guān)系數(shù)

s=0for i in range(df.shape[0]):  for j in range(i+1,df.shape[0]):    if (df['pyts_rank'][i]-df['pyts_rank'][j])*(df['chin_rank'][i]-df['chin_rank'][j])>0:      s+=1    else:      s-=1print('Kendall\'s tau Rank Correlation Coefficient is:',s/(df.shape[0]*(df.shape[0]-1))*2)
一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例
  • corr函數(shù) 計算肯德爾(Kendall's tau correlation coefficient)秩相關(guān)系數(shù)

一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例

相關(guān)性≠因果性

雖然相關(guān)性分析在數(shù)據(jù)分析中非常重要,但我們需要牢記一些關(guān)鍵的注意事項。其中最重要的一點是:相關(guān)性并不代表因果關(guān)系。兩個變量之間的相關(guān)性只是表明它們之間存在某種聯(lián)系或關(guān)聯(lián),而不能確定其中一個變量的變化一定會導(dǎo)致另一個變量發(fā)生變化。因此,在進行相關(guān)性分析時,我們必須同時考慮其他因素,以避免誤判。

下面分別舉一個生活中和數(shù)據(jù)分析工作中實際場景的例子,以更好地理解這個概念。

生活中的例子

假設(shè)我們觀察到城市的冰淇淋銷量與游泳池的使用量之間存在正相關(guān)性。即隨著氣溫升高,冰淇淋銷量和游泳池的使用量都增加。然而,我們不能簡單地得出結(jié)論認(rèn)為冰淇淋銷量的增加會直接導(dǎo)致游泳池使用量的增加,或者游泳池使用量的增加是會導(dǎo)致冰淇淋銷量增加。實際上,這兩者之間可能只是因為炎熱的天氣而導(dǎo)致的結(jié)果,而不能把其中一個的變化作為另外一個發(fā)生變化的原因。

數(shù)據(jù)分析中的例子

在一份銷售數(shù)據(jù)的分析中,我們可能會發(fā)現(xiàn)銷售額與廣告投入之間存在正相關(guān)性。然而,僅僅依據(jù)相關(guān)性并不能確定廣告投入是直接導(dǎo)致銷售額增加的原因。也可能有其他因素,如產(chǎn)品品質(zhì)、市場需求等,這些因素同樣會對銷售額產(chǎn)生影響。因此,在進行決策時,我們需要綜合考慮這些因素,而不是僅僅依賴于相關(guān)性分析的結(jié)果。

相關(guān)性分析的局限性

盡管相關(guān)性分析可以幫助我們理解不同變量之間的關(guān)系,但也存在一些局限性,主要體現(xiàn)在以下幾個方面:

  1. 相關(guān)性分析只能衡量線性關(guān)系:相關(guān)性分析主要適用于線性關(guān)系的測量,對于非線性關(guān)系,其表現(xiàn)可能甚至不如預(yù)期。在存在非線性關(guān)系的情況下,使用其他的相關(guān)系數(shù)或采用非線性分析方法可能更為合適。

  2. 僅適用于兩個變量之間的關(guān)系:相關(guān)性分析只能測量兩個變量之間的關(guān)系,而現(xiàn)實中往往存在多個變量之間的相互作用。在這種情況下,我們需要采用更為復(fù)雜的統(tǒng)計模型,如回歸分析等,用來探究多個變量之間的關(guān)聯(lián)。

  3. 相關(guān)性可能是偶然的:在一些情況下,兩個變量之間的相關(guān)性可能只是偶然的,而并不表示它們之間存在真正的因果關(guān)系。在進行相關(guān)性分析時,我們必須謹(jǐn)慎,而不應(yīng)該輕易將相關(guān)性解釋為因果關(guān)系,避免產(chǎn)生誤導(dǎo)性的結(jié)論。

相關(guān)性分析是數(shù)據(jù)分析中一個非常重要的環(huán)節(jié),它可以幫助我們了解數(shù)據(jù)之間的關(guān)系,為我們做出更好的決策提供依據(jù)。在實際應(yīng)用中,我們需要根據(jù)具體問題來選擇恰當(dāng)?shù)南嚓P(guān)系數(shù)進行分析,并注意相關(guān)性分析的局限性和相關(guān)注意事項。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多