input文件介紹OTU(Operational taxonomic unit),操作分類單元在二代測序中,每個sample都會測到許多許多序列: 即每個sample對應(yīng)每個OTU中的序列reads數(shù)目。如sample1在OTU1中有2個序列reads數(shù)目。如下所示的OTU_table即豐度。相對豐度則以每個sample(每行)為100%,計算各OTU的reads數(shù)目占一個sample中所有的reads數(shù)目的百分比。
OTU是對相似性序列進(jìn)行聚類,將海量測序序列聚類成數(shù)量較少的分類單元,并且每個OTU提供一個代表序列,基于它進(jìn)行后續(xù)物種注釋及分析,更加簡便和清晰。 各OTU的代表序列(.fasta)以下為一個代表序列內(nèi)容示例: 物種注釋信息將OTU代表序列分別與數(shù)據(jù)庫進(jìn)行比對,給每個OTU追溯到其物種來源。劃分到界(Kingdom)、門(Phylum)、綱(Class)、目(Order)、科(Family)、屬(Genus)、種(Species)。雖然不同軟件及流程output的物種注釋格式可能不一致,但內(nèi)容大同小異,均包含了上述信息。 其形式一般為每個OTU對應(yīng)以下一條物種注釋信息。有些公司測序并初步分析給出OTUtable, 在每行OTU后面直接附上了注釋信息。 物種進(jìn)化樹為了研究OTU序列所代表的物種進(jìn)化關(guān)系,我們通過OTU代表序列之間的相似性構(gòu)建物種進(jìn)化樹,代表每個OTU的進(jìn)化關(guān)系。其后綴名為.tree, 可以用figtree軟件打開。 各樣本的多樣性指數(shù):α-diversity的inputα-diversity是用于回答“一個樣本中有多少個物種?”的。所以α多樣性指數(shù)是針對每個樣本的。最簡單的一種指數(shù)為richness,即每個樣本中OTU的個數(shù)。 距離矩陣: β-diversity的inputβ-diversity是用于回答“兩個樣本之間的相似程度如何?”這樣的問題。它比較兩個樣本之間的相似度或者差異程度,并給這兩個樣本計算一個值,通常在0-1之間,以距離矩陣的形式呈現(xiàn)??梢杂^察到它是對稱的,因為兩兩樣本之間相似性的值是一樣的。 分析內(nèi)容物種構(gòu)成及優(yōu)勢物種以下為一篇文章中的示例: Phylum level microbial compositions of faeces, lavage and tissue samples.
Tong M, Li X, Wegener Parfrey L, Roth B, Ippoliti A, et al. (2013) A Modular Organization of the Human Intestinal Mucosal Microbiota and Its
Association with Inflammatory Bowel Disease. PLoS ONE 8(11): e80702. doi:10.1371/journal.pone.0080702 可以大概理解為根據(jù)以上5個組的phylum level相對豐度繪制barplot, 觀察到相對豐度最大的物種則為優(yōu)勢物種。在上圖中為Firmicutes和Bacteroidetes。 α-diversity包括rarefaction curve, rank abundance curve, 各項多樣性指數(shù)的組間差異等。 rarefaction curve(稀釋曲線) 在每個樣本中不斷抽樣,每次都隨機抽取一定數(shù)量的序列,以抽取到的序列構(gòu)建OTU。其核心在于resampling。隨著抽取的序列數(shù)目不斷增加,其構(gòu)建的OTU個數(shù)從迅速增加到趨于平坦,則說明抽樣的數(shù)目合理,更多的序列不會再增加更多信OTU個數(shù)。即測序深度達(dá)到了要求。其橫軸為每次抽取的read counts, 縱軸為以抽取的read counts構(gòu)建的OTU個數(shù)。qiime可以生成rarefaction curve, 也可以用R實現(xiàn)。 rank abundance curve 來自wiki 通過它可以了解優(yōu)勢物種有哪些。如果rank abundance curve很陡峭(即一開始很高,然后一個大跳水降很低),說明在樣本中有明確的優(yōu)勢物種,且占了很大的比例。拖尾的物種豐度比較稀少。如果它下降的比較平緩,說明各物種都占有一定比例。當(dāng)然你也可以根據(jù)樣本分組在一個圖中畫多個rank abundance curve. 還可以根據(jù)一組樣本,以相對豐度均值為縱軸畫圖,如下所示: 出自https:///marschmi/133626 各項多樣性指數(shù)的組間差異 根據(jù)各樣本的多樣性指數(shù):α-diversity的input(即每個樣本對應(yīng)一種多樣性指數(shù)的數(shù)值)和分組信息文件(即根據(jù)科學(xué)問題,將樣本分成不同的類別,而分析的意義在于尋找不同類別之間的差異)。 可以用R將結(jié)果可視化。有時候是分多個組,需要注意使用哪種統(tǒng)計方法。可以參考統(tǒng)計檢驗簡單小結(jié) fake data β-diversity目前常以距離矩陣作為input,使用PERMANOVA做組間差異比較,判斷組間物種構(gòu)成是否有差異,并以主坐標(biāo)軸分析Principal Coordinates Analysis (PCoA, = Multidimensional scaling, MDS) 產(chǎn)生的新坐標(biāo)繪圖進(jìn)行可視化。 PERMANOVA(Permutational (nonparametric) MANOVA)是適用于距離矩陣的非參數(shù)統(tǒng)計檢驗方法, 可以通過R中vegan包的adonis()實現(xiàn)。具體統(tǒng)計原理不做詳敘,可以參考這個鏈接。其在R中使用要點有三個:
對16s微生物組數(shù)據(jù)而言,組間物種構(gòu)成的差異以PERMANOVA的統(tǒng)計檢驗結(jié)果為準(zhǔn),PcoA(MDS)所作的二維或三維散點圖為可視化手段,為更直觀的展現(xiàn)組間差異。 biomarkermarker, 在微生物組物種層面上,如果某個物種的相對豐度在兩組(或多組)間存在有統(tǒng)計學(xué)意義的差異,即該物種的豐度高低可以有效區(qū)分不同組別,則這個物種為這兩組(或多組)的biomarker. 目前我們常用傳統(tǒng)統(tǒng)計學(xué)方法,boruta及lefse來挑選marker物種。傳統(tǒng)的統(tǒng)計學(xué)及boruta方法靠python或者R代碼完成并可視化,lefse為包裝好的軟件,可以使用web端版本直接輸入input文件,選擇參數(shù)運行即可得結(jié)果,也可以在linux系統(tǒng)中安裝lefse軟件,在終端運行并得到結(jié)果。 傳統(tǒng)統(tǒng)計學(xué)方法 fake data example
當(dāng)然不一定非要用heatmap和boxplot來展示結(jié)果,可視化方法是靈活的,需要根據(jù)具體科學(xué)問題來變通。 boruta和lefse Lefse有在線使用的網(wǎng)站,也可以下載軟件到linux系統(tǒng)中在終端使用。它的原理是先使用非參數(shù)檢驗Kruskal-Wallis test檢測所有物種在指定組別中的顯著性,然后用wilcoxon rank-sum test兩兩比較。LEfSe采用線性判別分析(LDA)來估算每個物種的豐度對差異效果影響的大小,應(yīng)該是線性模型的原理。其網(wǎng)頁版基本上跟著以上鏈接上傳文件,按照提示指引輸入分組信息及各項參數(shù),就可以得到biomarker分析結(jié)果。其優(yōu)點在于方便省心,圖好看且使用廣泛。 對與marker的挑選沒有一個固定的方法標(biāo)準(zhǔn),比方說什么情況下適合用哪種方法之類的。就使用了16s數(shù)據(jù)的各種文獻(xiàn)來看,用哪種方法的都有。 功能分析:PICRUStPICRUST也是可以安裝在linux系統(tǒng)上的軟件,用于物種功能預(yù)測分析。在16s數(shù)據(jù)中并不十分推薦,因為其在16s中的功能預(yù)測有一定局限性。但是目前也有很多文獻(xiàn)將功能分析納入了分析結(jié)果中。功能分析僅供參考,需要結(jié)合科學(xué)問題慎重考慮。 另外也有人做出了分析網(wǎng)站http://www./faces/home.xhtml可以直接上傳符合格式要求的OTU table, meta文件及物種信息就可以輸出一系列上文提到的各種分析結(jié)果,操作輕松,不用寫代碼。但是在數(shù)據(jù)形式不尋常,比方說對于時間序列,單個樣本的重復(fù)測量結(jié)果,分組復(fù)雜的數(shù)據(jù),需要進(jìn)行數(shù)據(jù)預(yù)處理的數(shù)據(jù)(比如需要取對數(shù)等)并不能完全依賴包辦型的分析網(wǎng)站。不論是代碼、軟件還是包辦的分析網(wǎng)站都只是分析工具,需要根據(jù)具體科學(xué)問題,合理使用它們。 |
|