在微生物NGS測(cè)序領(lǐng)域的高分文章中,PCA(主成分分析)和PCoA(主坐標(biāo)分析)會(huì)很常見。甚至在RNA分析領(lǐng)域,很多研究和文章也會(huì)依據(jù)基因的表達(dá)量作PCA和PCoA分析。 常見的PCA和PCoA分析以下圖的形式呈現(xiàn): 很明顯,我們可以通過分析坐標(biāo)軸中樣本和樣本之間的距離直觀地看到2個(gè)樣本或2組樣本之間的菌群差異性。若2個(gè)樣本或2組樣本之間的直線距離較近,則表示這2個(gè)樣本或2組樣本的菌群差異性較小;相反,若2個(gè)樣本或2組樣本之間的直線距離較遠(yuǎn),則表示它們之間菌群差異性較大。所以,PCA和PCoA所呈現(xiàn)的結(jié)果,具有直觀性(直接看兩點(diǎn)之間的距離)和完整性(呈現(xiàn)所有樣本),且數(shù)據(jù)易于分析和解讀(大家都看得懂)。 那么,PCA和PCoA是如何定義的?PCA和PCoA之間是否有區(qū)別?何時(shí)該選用PCA或何時(shí)該選用PCoA?PCA和PCoA背后的分析原理如何?相信這些問題是比較困擾讀者的。
PCA和PCoA的定義 PCA(Principal Components Analysis)即主成分分析,也稱主分量分析或主成分回歸分析法,首先利用線性變換,將數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中;然后再利用降維的思想,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上。這種降維的思想首先減少數(shù)據(jù)集的維數(shù),同時(shí)還保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征,最終使數(shù)據(jù)直觀呈現(xiàn)在二維坐標(biāo)系。 PCoA(Principal Co-ordinates Analysis)分析即主坐標(biāo)分析,可呈現(xiàn)研究數(shù)據(jù)相似性或差異性的可視化坐標(biāo),是一種非約束性的數(shù)據(jù)降維分析方法,可用來研究樣本群落組成的相似性或相異性。它與PCA類似,通過一系列的特征值和特征向量進(jìn)行排序后,選擇主要排在前幾位的特征值,找到距離矩陣中最主要的坐標(biāo),結(jié)果是數(shù)據(jù)矩陣的一個(gè)旋轉(zhuǎn),它沒有改變樣本點(diǎn)之間的相互位置關(guān)系,只是改變了坐標(biāo)系統(tǒng)。兩者的區(qū)別為PCA是基于樣本的相似系數(shù)矩陣(如歐式距離)來尋找主成分,而PCoA是基于距離矩陣(歐式距離以外的其他距離)來尋找主坐標(biāo)。 好吧,定義比較抽象,我們還是無法看懂看透PCA和PCoA。不急,下面的文字很重要~~~
PCA和PCoA的區(qū)別 1.PCA的理解 a. 假如有3個(gè)實(shí)驗(yàn)樣本,它們共有1個(gè)物種x,那么我們其實(shí)可以用物種x的相對(duì)豐度來表示樣本和樣本之間的差異。這樣我們就可以畫一個(gè)一維坐標(biāo)軸,將這3個(gè)樣本的物種x的豐度表示在一維軸線上,如下圖所示: 此時(shí)數(shù)據(jù)不發(fā)生偏移,樣本和樣本之間的距離代表樣本之間的物種豐度差異(實(shí)際上樣本A和B間的距離即為A中的物種x的豐度與B中物種x的豐度的差值)。 b. 假如有3個(gè)實(shí)驗(yàn)樣本,它們共有2個(gè)物種:x和y。那么我們其實(shí)可以用物種x和物種y的相對(duì)豐度來在二維坐標(biāo)系中定位樣本。A=(x1,y1), B=(x2,y2),C=(x3,y3),如下圖所示: 此時(shí)數(shù)據(jù)不發(fā)生偏移,樣本和樣本之間的距離代表樣本之間的物種豐度差異。 c. 假如有3個(gè)實(shí)驗(yàn)樣本,它們共有k個(gè)物種: x, y, z…………k。那么我們其實(shí)可以用物種x, y, z…………k的豐度來定位樣本A=(x1,y1,z1……………k1)。同理,樣本B與C也可以用這種形式表示。細(xì)心的同學(xué)可以發(fā)現(xiàn),其實(shí)A=(x1,y1,z1……………k1)是一組向量,而且是k維向量(A=(x1)是一維向量,A=(x1,y1)是二維向量,A=(x1,y1,z1)是三維向量)。但是k維向量無法在二維坐標(biāo)系(平面)中表示(一維和二維向量可以,如上a和b兩種情況)。此時(shí)我們要么將K維向量作出一些取舍,如削去一些不重要的向量?jī)H保留2個(gè)關(guān)鍵向量(削去一些不重要的物種僅保留2個(gè)關(guān)鍵物種);要么將K維向量投射到二維坐標(biāo)系中(降維),但是此時(shí)數(shù)據(jù)便會(huì)損失,例如下圖,我們將二維坐標(biāo)系中的數(shù)據(jù)投射到一維坐標(biāo)系中,實(shí)際數(shù)據(jù)會(huì)折扣掉一部分(A和B的直線距離為5,投射到x軸的一維距離為4,投射到y(tǒng)軸的一維距離為3。從第一維坐標(biāo)軸上觀察A和B的距離只有4,從第二維坐標(biāo)軸上觀察A和B的距離只有3。)。 因此將k維空間的數(shù)據(jù)投射到二維空間上(降維),就會(huì)產(chǎn)生數(shù)據(jù)損失,此時(shí)坐標(biāo)軸的貢獻(xiàn)率就不再是100%,而是小于100%(而a和b兩種情況無需降維處理,因此貢獻(xiàn)率為100%)。此時(shí)數(shù)據(jù)如下圖所示: 因降維處理,數(shù)據(jù)發(fā)生損失,樣本和樣本之間的距離代表樣本之間的物種豐度差異。 那么如何來選擇投影?這就是定義當(dāng)中所提到的“使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上”。 2.PCoA的理解 a. 假如有2個(gè)實(shí)驗(yàn)樣本,它們都有很多物種,那么我們可以用Bray-Curtis或UniFrac(或其他算法)計(jì)算每個(gè)樣本的物種組成差異度(用一個(gè)數(shù)值表示物種相對(duì)豐度),數(shù)值之間的差異就代表了2個(gè)樣本的物種相對(duì)豐度的差異。這樣我們就可以畫一個(gè)一維坐標(biāo)軸,將這2個(gè)樣本表示在一維軸線上,如下圖所示: 此時(shí)數(shù)據(jù)不發(fā)生偏移,樣本和樣本之間的距離代表樣本之間的物種豐度差異。 b. 假如有3個(gè)實(shí)驗(yàn)樣本,同樣可以用Bray-Curtis或UniFrac(或其他算法)計(jì)算每個(gè)樣本的物種組成差異度(用一個(gè)數(shù)值表示物種相對(duì)豐度),數(shù)值之間的差異就代表了每2個(gè)樣本的物種相對(duì)豐度的差異。這樣我們就可以畫一個(gè)二維坐標(biāo)軸(三點(diǎn)組成一個(gè)面),將這3個(gè)樣本表示在二維軸線上,如下圖所示: 此時(shí)數(shù)據(jù)不發(fā)生偏移,樣本和樣本之間的距離代表樣本之間的物種豐度差異。 c. 以此類推,假如有n個(gè)實(shí)驗(yàn)樣本,同樣可以用Bray-Curtis或UniFrac(或其他算法)計(jì)算每個(gè)樣本的物種組成差異度(用一個(gè)數(shù)值表示物種相對(duì)豐度),數(shù)值之間的差異就代表了每2個(gè)樣本的物種相對(duì)豐度的差異。這樣我們就可以畫一個(gè)n-1維坐標(biāo)軸,將這n個(gè)樣本表示在n-1維空間中。但是n-1維空間無法在平面上表示(一維和二維除外,三維勉強(qiáng)可以),因此只能利用矩陣呈現(xiàn),如下圖所示: 若要將n-1維的數(shù)據(jù)在二維坐標(biāo)系中呈現(xiàn),需降維處理,即將n-1維的數(shù)據(jù)投影到二維空間當(dāng)中,方法與思路同PCA類似。此時(shí),2個(gè)坐標(biāo)軸的貢獻(xiàn)率均小于100%,如下圖所示: 因降維處理,數(shù)據(jù)發(fā)生損失,樣本和樣本之間的距離代表樣本之間的物種豐度差異。 這個(gè)時(shí)候, PCA和PCoA就好理解了。我們?cè)倩剡^頭看定義“PCA是基于樣本的相似系數(shù)矩陣(如歐式距離)來尋找主成分,而PCoA是基于距離矩陣(歐式距離以外的其他距離)來尋找主坐標(biāo)”,其實(shí)淺顯地來理解,就是上面這么回事。 我們知道了PCA和PCoA的定義,也理解了PCA和PCoA的區(qū)別,那么它們?cè)摵螘r(shí)選用,以及背后的算法如何?欲知后事如何,且聽下回分解。 特此聲明: 1、 本文僅供讀者理解,不涉及專業(yè)學(xué)術(shù)論證; 2、 本文為小編的一點(diǎn)感悟心得,非常歡迎各位業(yè)界同行的討論與交流,同時(shí)也非常歡迎各位專家老師的指正,您的一個(gè)問題會(huì)使我們共同進(jìn)步! 參考文獻(xiàn): [1] Aleksandra Checinska et al., Microbiomes of the dust particles collected from the International Space Station and Spacecraft Assembly Facilities. Microbiome. 2015 [2] Zhiman Yang et al., Enhanced methane production via repeated batch bioaugmentation pattern of enriched microbial consortia. Bioresource Technology. 2016 |
|