上回給大家講述了16S測(cè)序分析流程,應(yīng)各位小伙伴們的要求,本期的宏基因組測(cè)序分析來(lái)啦~ - 概述 - 宏基因組測(cè)序?qū)嶒?yàn)流程 - 宏基因組分析流程 - 文章分析思路 - 常見(jiàn)問(wèn)題 - 相關(guān)名詞解釋 - 參考文獻(xiàn) 16S rDNA擴(kuò)增子測(cè)序(16S rDNA amplicons sequencing)和鳥(niǎo)槍法宏基因組測(cè)序(whole metageome shotgun sequencing)都是研究微生物組的重要方法,那么問(wèn)題來(lái)了:這兩者到底有什么區(qū)別呢?什么情況下做16S測(cè)序?什么情況下做宏基因組測(cè)序? 概述 先要來(lái)說(shuō)說(shuō)什么是宏基因組測(cè)序: 宏基因組 ( Metagenome) (也稱元基因組)。是由 Handelsman 等 1998 年提出的新名詞, 其定義為“the genomes of the total microbiota found in nature” , 即生境中全部微小生物遺傳物質(zhì)的總和。它包含了可培養(yǎng)的和未可培養(yǎng)的微生物的基因, 目前主要指環(huán)境樣品中的細(xì)菌和真菌的基因組總和。 宏基因組學(xué) (或元基因組學(xué), metagenomics)就是一種以環(huán)境樣品中的微生物群體基因組為研究對(duì)象, 以功能基因篩選和/或測(cè)序分析為研究手段, 以微生物多樣性、 種群結(jié)構(gòu)、 進(jìn)化關(guān)系、 功能活性、 相互協(xié)作關(guān)系及與環(huán)境之間的關(guān)系為研究目的的新的微生物研究方法。 宏基因組測(cè)序(Metagenomics Sequencing)是對(duì)環(huán)境樣品中全部微生物的總DNA進(jìn)行高通量測(cè)序,主要研究微生物種群結(jié)構(gòu)、基因功能、微生物之間的相互協(xié)作關(guān)系以及微生物與環(huán)境之間的關(guān)系。宏基因組測(cè)序研究擺脫了微生物分離純培養(yǎng)的限制,擴(kuò)展了微生物資源的利用空間,為環(huán)境微生物群落的研究提供了有效工具。 高通量測(cè)序平臺(tái) 16S擴(kuò)增子測(cè)序和宏基因組測(cè)序的主要區(qū)別如下: 測(cè)序原理不同 16S rDNA基因存在于所有細(xì)菌的基因組中,具有高度的保守性。該序列包含9個(gè)高變區(qū)和10個(gè)保守區(qū)(如下圖),通過(guò)對(duì)某一段高變區(qū)序列(V4區(qū)或V3-V4區(qū))進(jìn)行PCR擴(kuò)增后進(jìn)行測(cè)序,得到300-500bp左右的序列。 細(xì)菌16S rDNA基因 宏基因組測(cè)序則是將微生物基因組DNA隨機(jī)打斷成500bp的小片段,然后在片段兩端加入通用引物進(jìn)行PCR擴(kuò)增測(cè)序,再通過(guò)組裝的方式,將小片段拼接成較長(zhǎng)的序列。 研究目的不同 16S測(cè)序主要研究群落的物種組成、物種間的進(jìn)化關(guān)系以及群落的多樣性。 宏基因組測(cè)序在16S測(cè)序分析的基礎(chǔ)上還可以進(jìn)行基因和功能層面的深入研究,宏基因組測(cè)序可以回答這樣的問(wèn)題"who is there?"和 "what are they doing?"。 物種鑒定分辨率不同 16S測(cè)序得到的序列很多注釋不到種水平,而宏基因組測(cè)序則能鑒定微生物到種水平甚至菌株水平。 對(duì)于16S測(cè)序而言,任何一個(gè)高變區(qū)或幾個(gè)高變區(qū),盡管具有很高的特異性,但是某些物種(尤其是分類水平較低的種水平)在這些高變區(qū)可能非常相近,能夠區(qū)分它們的特異性片段可能不在擴(kuò)增區(qū)域內(nèi)。 宏基因組測(cè)序通過(guò)對(duì)微生物基因組隨機(jī)打斷,并通過(guò)組裝將小片段拼接成較長(zhǎng)的序列。因此,在物種鑒定過(guò)程中,宏基因組測(cè)序具有較高的優(yōu)勢(shì)。 Tips:通常情況下,建議同時(shí)結(jié)合宏基因組測(cè)序和16S測(cè)序兩種技術(shù)手段,可以更高效、更準(zhǔn)確地研究微生物群落組成結(jié)構(gòu)、多樣性以及功能情況。 如果樣本污染宿主DNA比較嚴(yán)重,例如腸道粘膜樣本,直接宏基因組測(cè)序會(huì)產(chǎn)生大量的宿主污染,為了降低實(shí)驗(yàn)成本,可以使用16S測(cè)序。 如果想快速鑒定未知病原感染,直接通過(guò)metagenome測(cè)序可以鑒定是細(xì)菌、真菌或者是病毒感染。 宏基因組測(cè)序?qū)嶒?yàn)流程 從環(huán)境(如土壤、海洋、淡水、腸道等)中采集實(shí)驗(yàn)樣本,將原始采樣樣本或已提取的 DNA 樣本低溫運(yùn)輸(0℃以下),對(duì)樣品進(jìn)行樣品檢測(cè)。檢測(cè)合格的 DNA 樣品,進(jìn)行文庫(kù)構(gòu)建以及文庫(kù)檢測(cè),檢測(cè)合格的文庫(kù)將采用 Illumina 高通量測(cè)序平臺(tái)進(jìn)行測(cè)序,測(cè)序得到的下機(jī)數(shù)據(jù)(Raw Data)將用于后期信息分析。 為保證測(cè)序數(shù)據(jù)的準(zhǔn)確性、可靠性,對(duì)樣品檢測(cè)、建庫(kù)、測(cè)序每一個(gè)生產(chǎn)步驟都嚴(yán)格把控,從根本上確保高質(zhì)量數(shù)據(jù)的產(chǎn)出,具體的實(shí)驗(yàn)流程圖如下: 實(shí)驗(yàn)流程圖 DNA樣品檢測(cè) 對(duì) DNA 樣品的檢測(cè)主要包括 3 種方法: 1) 瓊脂糖凝膠電泳(AGE)分析 DNA 的純度和完整性; 2) Nanodrop 檢測(cè) DNA 的純度(OD260/280 比值); 3) Qubit 對(duì) DNA 濃度進(jìn)行精確定量; 文庫(kù)構(gòu)建及質(zhì)檢 檢測(cè)合格的 DNA 樣品用超聲波破碎儀隨機(jī)打斷成長(zhǎng)度約為350bp的片段,經(jīng)末端修復(fù)、3’端加A、加測(cè)序接頭、純化、片段選擇、PCR 擴(kuò)增等步驟完成整個(gè)文庫(kù)制備。 文庫(kù)構(gòu)建完成后,先用電泳及Nanodrop進(jìn)行初步定量,對(duì)濃度>=15ng/ul的文庫(kù)進(jìn)行Qubit定量,用毛細(xì)管電泳對(duì)文庫(kù)的插入片段大小進(jìn)行檢測(cè),插入片段大小符合預(yù)期后,使用qPCR方法對(duì)文庫(kù)的有效濃度進(jìn)行準(zhǔn)確定量(文庫(kù)有效濃度>3nM),以保證文庫(kù)上機(jī)質(zhì)量。 上機(jī)測(cè)序 建庫(kù)質(zhì)檢合格后,把不同文庫(kù)按照有效濃度及目標(biāo)下機(jī)數(shù)據(jù)量的需求,混合后進(jìn)行Illumina測(cè)序。 宏基因組分析流程 下面先放一張宏基因組分析流程圖,供小伙伴們快速了解一下。 信息分析流程圖 測(cè)序數(shù)據(jù)預(yù)處理 ?常規(guī)數(shù)據(jù)質(zhì)控工具 ?FASTX-Toolkit (http://hannonlab./fastx_toolkit/commandline.html) ?Cutadapt (https://github.com/marcelm/cutadapt) ?Trimmomatic (http://www./cms/?page=trimmomatic) ?Sickle (https://github.com/najoshi/sickle) ?去除宿主污染 A member of the SOAP (Short Oligonucleotide Analysis Package). It is an updated version of SOAP software for short oligonucleotide alignment. ?Bowtie (http:///projects/bowtie-bio/files/) An ultrafast, memory-efficient short read aligner, which aligns short DNA sequences (reads) to the human genome at a rate of over 25 million 35-bp reads per hour. 采用 Illumina 測(cè)序平臺(tái)測(cè)序獲得的原始數(shù)據(jù)(Raw Data)存在一定比例低質(zhì)量數(shù)據(jù),里面含有帶接頭的、重復(fù)的,以及測(cè)序質(zhì)量很低的reads,這些 reads 會(huì)影響組裝和后續(xù)分析,為了保證后續(xù)分析的結(jié)果準(zhǔn)確可靠,需要對(duì)原始的測(cè)序數(shù)據(jù)進(jìn)行預(yù)處理,獲取用于后續(xù)分析的有效數(shù)據(jù)(Clean Data)。 可以使用過(guò)濾軟件 ,可以從任意一段切除低質(zhì)量的堿基,同時(shí)還支持滑窗過(guò)濾,根據(jù)情況設(shè)定滑窗的大小和閾值,當(dāng)滑窗內(nèi)的堿基質(zhì)量與設(shè)定的閾值進(jìn)行比較,如果數(shù)值低于閾值則切除整個(gè)滑窗的堿基。高通量測(cè)序一般會(huì)包括接頭序列以及引物片段,可以使用 來(lái)去除這些序列。 例如具體處理步驟如下: 1) 去除所含低質(zhì)量堿基(質(zhì)量值≤38)超過(guò)一定比例(默認(rèn)設(shè)為 40bp)的 reads; 2) 去除 N 堿基達(dá)到一定比例的 reads(默認(rèn)設(shè)為10bp); 數(shù)據(jù)處理信息統(tǒng)計(jì)表 注:RawData 表示下機(jī)原始數(shù)據(jù);CleanData 表示過(guò)濾得到的有效數(shù)據(jù);CleanQ20,CleanQ30 表示 CleanData 中測(cè)序錯(cuò)誤率小于0.01(質(zhì)量值大于 20)和 0.001(質(zhì)量值大于 30)的堿基數(shù)目的百分比;Clean_GC(%) 表示 CleanData 中堿基的 GC 含量;Effective(%) 表示有效數(shù)據(jù)( CleanData )與原始數(shù)據(jù)( RawData )的百分比。 物種注釋metaphlan2 主頁(yè):http://segatalab.cibio./tools/metaphlan2/ 從Clean read出發(fā),使用metaphlan2軟件分析,獲得不同分類層級(jí)的物種豐度表。 MetaPhlAn2是分析微生物群落(細(xì)菌、古菌、真核生物和病毒)組成的工具,它在宏基因組研究中非常有用,只需一條命,即可獲得微生物的物種豐度信息。同時(shí)配合自帶的腳本可進(jìn)一步統(tǒng)計(jì)和可視化。 MetaPhlAn2整理了超過(guò)17000個(gè)參考基因組,包括13500個(gè)細(xì)菌和古菌,3500個(gè)病毒和110種真核生物,匯編整理了>1百萬(wàn)類群特異的標(biāo)記基因,可以實(shí)現(xiàn): 精確的分類群分配 準(zhǔn)確估計(jì)物種的相對(duì)豐度 種水平精度 株鑒定與追蹤 超快的分析速度 Duy Tin Truong, Eric Franzosa, Timothy L Tickle, Matthias Scholz, George Weingart, Edoardo Pasolli, Adrian Tett, Curtis Huttenhower, and Nicola SegataMetaPhlAn2 for enhanced metagenomic taxonomic profilingNature Methods 12, 902–903 (2015) 看看軟件主要能干什么 分析人類微生物組(HMP)數(shù)據(jù),在樣本間進(jìn)行層級(jí)聚類 人類微生物組數(shù)據(jù)多時(shí)間點(diǎn)普氏(Prevotella copri )菌株水平的指紋 使用實(shí)例 定量物種譜 一條命令就可以從原始數(shù)據(jù)得到物種的相對(duì)豐度?。?/p> 最常用的是使用雙端壓縮fastq文件,參數(shù)--nproc調(diào)用多個(gè)線程,并輸出比較結(jié)果 例如人類腸道的數(shù)據(jù),一般幾個(gè)小時(shí)內(nèi)就出結(jié)果了。 輸出結(jié)果為各層級(jí)物種相對(duì)豐度值,可以直接作為lefse的輸入文件。 批量處理多個(gè)樣品 假如我們有1-20一共20個(gè)樣本,調(diào)用for循環(huán)并轉(zhuǎn)后臺(tái)并行處理 樣品物種譜合并 mergemetaphlantables.py命令可以將每個(gè)樣品結(jié)果表合并,程序位于程序的utils目錄中,請(qǐng)自行添加環(huán)境變量或使用絕對(duì)路徑。合并時(shí)支持輸入文件多個(gè)文件空格分隔,或使用通配符(如下)。可結(jié)合sed刪除樣本名中共有部分,精簡(jiǎn)樣品名方便可視化簡(jiǎn)潔美觀 獲得了矩陣表,下面可以進(jìn)行各種統(tǒng)計(jì)分析與可視化啦! 種相對(duì)豐度概況 從不同分類層級(jí)的相對(duì)豐度表出發(fā),選取出在各樣品中的最大相對(duì)豐度排名前 15 的物種,繪制出各樣品對(duì)應(yīng)的物種注釋結(jié)果在不同分類層級(jí)上的相對(duì)豐度柱形圖。 門(mén)水平菌落結(jié)構(gòu)柱狀圖 基于GraPhlAn的分類學(xué)組成信息可視化 注:分類等級(jí)樹(shù)展示了樣本總體中,從門(mén)到屬(從內(nèi)圈到外圈依次排列)所有分類單元(以節(jié)點(diǎn)表示)的等級(jí)關(guān)系,節(jié)點(diǎn)大小對(duì)應(yīng)于該分類單元的平均相對(duì)豐度,字母上的陰影顏色同對(duì)應(yīng)節(jié)點(diǎn)顏色一致。 功能注釋humann2 Species-level functional profiling of metagenomes and metatranscriptomes Nature Methods, Article, 2018-10-30 第一作者: Eric A. Franzosa, Lauren J. McIver 通訊作者:Curtis Huttenhower 主要單位:哈佛醫(yī)學(xué)院統(tǒng)計(jì)系;哈佛和麻省理工博德(Broad)研究所 humman2是一套分析流程,它包括調(diào)用metaphlan流程來(lái)分析物種組成,和自身分析功能基因和代謝通路組成。HUMAnN2 Workflow Metagenome 組裝和注釋 Metagenome 組裝 兩種常見(jiàn)策略: 1 基于序列overlap關(guān)系進(jìn)行拼接 2 基于de Bruijn圖進(jìn)行組裝 由于現(xiàn)階段的主流測(cè)序方法是二代短片段測(cè)序,序列短而且數(shù)目龐大,如果利用overlap關(guān)系直接進(jìn)行組裝,這要求每對(duì)reads之間都進(jìn)行一次序列比較,這會(huì)很耗費(fèi)時(shí)間,而且結(jié)果并不可靠。為迎合二代測(cè)序的特點(diǎn),一種基于k-mer的de Bruijn組裝策略則成為更有效的解決方法。 能用于宏基因組組裝的軟件有很多,如metavelvet,SOAPdenovo,megahit,ibda-ud,metaspades等。 1、SOAPdenovo SOAPdenovo is a novel short-read assembly method that can build a de novo draft assembly for the human-sized genomes, which specially designed to assemble Illumina GA short reads. 2、MEGAHIT MEGAHIT is a single node assembler for large and complex metagenomics NGS reads, such as soil. Compare to SOAPdenovo, it generates longer contigs and consumes less memory. 3、IDBA-UD IDBA-UD is a iterative De Bruijn Graph De Novo Assembler for Short Reads Sequencing data with Highly Uneven Sequencing Depth. 4、SPAdes和metaSPAdes An assembly toolkit containing various assembly pipelines, which works with Illumina or IonTorrent reads and is capable of providing hybrid assemblies using PacBio, Oxford Nanopore and Sanger reads. 如下是三種主流軟件分析,運(yùn)行所消耗時(shí)間、內(nèi)存比較: https://2017-cicese-metagenomics./en/latest/assemble.html 目前MEGAHIT在現(xiàn)有組裝軟件中,資源消耗基本上是最低的,因此很適合宏基因組中的復(fù)雜環(huán)境樣品。 還有上面介紹過(guò)的軟件SPAdes,無(wú)論單菌、宏基因組還是宏病毒組都表現(xiàn)不錯(cuò) metaSPAdes: a new versatile metagenomics assembler)中顯示即使在復(fù)雜環(huán)境(土壤),組裝效果也大大優(yōu)于megahit、IDBA-UD等,但是沒(méi)有megahit資源消耗低。 以下使用 SOAPdenovo[1]進(jìn)行Metagenome 組裝為例。 從各樣品質(zhì)控后的Clean reads出發(fā),組裝主要分為3步:?jiǎn)螛颖窘M裝,多樣本組裝結(jié)果合并和豐度過(guò)濾。 1) 經(jīng)過(guò)預(yù)處理后得到Clean Data,使用SOAPdenovo[1]組裝軟件進(jìn)行組裝分析(Assembly Analysis); 2) 對(duì)于單個(gè)樣品,首先選取一個(gè)K-mer(默認(rèn)選取55)進(jìn)行組裝,得到該樣品的組裝結(jié)果;組裝參數(shù):-d1,-M3,-R,-u,-F 3) 將組裝得到的Scaffolds從N連接處打斷,得到不含N的序列片段,稱為Scaftigs(i.e.,continuous sequences within scaffolds); 4) 將各樣品質(zhì)控后的CleanData采用SoapAligner軟件比對(duì)至各樣品組裝后的Scaftigs上,獲取未被利用上的PE reads;比對(duì)參數(shù):-u,-2,-m200 5) 將各樣品未被利用上的reads放在一起,進(jìn)行混合組裝,考慮到計(jì)算消耗和時(shí)間消耗,只選取一個(gè)kmer進(jìn)行組裝(默認(rèn)-K55),其他組裝參數(shù)與單樣品組裝參數(shù)相同; 6) 將混合組裝的Scaffolds從N連接處打斷,得到不含N的Scaftigs序列; 7) 對(duì)于單樣品和混合組裝生成的Scaftigs,過(guò)濾掉500bp以下的片段,并進(jìn)行統(tǒng)計(jì)分析和后續(xù)基因預(yù)測(cè); 各樣品組裝結(jié)果基本信息統(tǒng)計(jì) 說(shuō)明:SampleID為樣品名稱;Total Length表示組裝得 Scaftigs 的總長(zhǎng); Scaftigs 表示組裝得到的Scaftigs 總條數(shù); N50,N90 表示將 Scaftigs 按照長(zhǎng)度進(jìn)行排序,然后由長(zhǎng)到短加和,當(dāng)加和值達(dá)到 Scaftigs 總長(zhǎng)的 50%,90%時(shí)的 Scaftigs 的長(zhǎng)度值;Max len 表示組裝得到的最長(zhǎng) Scaftigs 的長(zhǎng)度值;Min len表示組裝得到的最長(zhǎng) Scaftigs 的長(zhǎng)度值。 樣品的scaftigs長(zhǎng)度分布統(tǒng)計(jì)如下: 單個(gè)樣品scaftigs長(zhǎng)度分布統(tǒng)計(jì) 各樣品scaftigs數(shù)目統(tǒng)計(jì): 所有樣品scaftigs數(shù)目統(tǒng)計(jì)圖 組裝結(jié)果質(zhì)量評(píng)估工具 MetaQUAST 基因預(yù)測(cè)及豐度分析 基因預(yù)測(cè)及豐度分析基本步驟 1) 從各樣品及混合組裝的 Scaftigs(>=500bp)出發(fā),采用MetaGeneMark進(jìn)行ORF (OpenReading Frame) 預(yù)測(cè),并從預(yù)測(cè)結(jié)果出發(fā),過(guò)濾掉長(zhǎng)度小于 100nt的信息;預(yù)測(cè)參數(shù):采用默認(rèn)參數(shù)進(jìn)行 3) 采用SoapAligner,將各樣品的 Clean Data 比對(duì)至初始 gene catalogue,計(jì)算得到基因在各樣品中比對(duì)上的reads 數(shù)目;比對(duì)參數(shù):-m 200, -x 400, identity ≥ 95% 4)過(guò)濾掉在各個(gè)樣品中支持 reads 數(shù)目 5)從比對(duì)上的 reads 數(shù)目及基因長(zhǎng)度出發(fā),計(jì)算得到各基因在各樣品中的豐度信息 6)基于 gene catalogue 中各基因在各樣品中的豐度信息,進(jìn)行基本信息統(tǒng)計(jì),core-pan 基因分析,樣品間相關(guān)性分析,及基因數(shù)目韋恩圖分析。 Gene catalogue 基本信息 說(shuō)明:ORFs NO. 表示 gene catalogue 中基因的數(shù)目;integrity:start 表示只含有起始密碼子的基因數(shù)目及百分比;integrity:end 表示只含有終止密碼子的基因數(shù)目及百分比;integrity:none 表示沒(méi)有起始密碼子也沒(méi)有終止密碼子的基因數(shù)目及百分比;integrity:all 表示完整基因(既有起始密碼子也有終止密碼子)數(shù)目的百分比;Total Len.(Mbp) 表示 gene catalogue 中基因的總長(zhǎng),單位是百萬(wàn);Average Len. 表示 gene catalogue 中基因的平均長(zhǎng)度;GC Percent 表示預(yù)測(cè)的 gene catalogue 中基因的整體 GC 含量值。 gene catalogue 長(zhǎng)度分布統(tǒng)計(jì) core-pan 基因分析 從基因在各樣品中的豐度表出發(fā),可以獲得各樣品的基因數(shù)目信息,通過(guò)隨機(jī)抽取不同數(shù)目的樣品,可以獲得不同數(shù)目樣品組合間的基因數(shù)目,由此我們構(gòu)建和繪制了 Core 和 Pan 基因的稀釋曲線,圖片展示如下: core-pan 基因稀釋曲線 組間基因數(shù)目差異分析 為了考察組與組間的基因數(shù)目差異情況,繪制了組間基因數(shù)目差異箱圖,展示結(jié)果如下: 組間基因數(shù)目差異小提琴圖 說(shuō)明:圖中,橫坐標(biāo)為各個(gè)分組信息;縱坐標(biāo)為基因數(shù)目。 基因數(shù)目韋恩圖分析 為了考察指定樣品(組)間的基因數(shù)目分布情況,分析不同樣品(組)之間的基因共有、特有信息,繪制了韋恩圖(Venn Graph)或花瓣圖,展示結(jié)果如下: 基因數(shù)目韋恩圖(花瓣圖)分析 說(shuō)明:圖中,每個(gè)圈代表一個(gè)樣品;圈和圈重疊部分的數(shù)字代表樣品之間共有的基因個(gè)數(shù);沒(méi)有重疊部分的數(shù)字代表樣品的特有基因個(gè)數(shù)。 基于基因豐度的樣品間相關(guān)性分析 樣品間基因豐度相關(guān)性是檢驗(yàn)實(shí)驗(yàn)可靠性和樣本選擇是否合理性的重要指標(biāo)。相關(guān)系數(shù)越接近1,表明樣品之間基因豐度模式的相似度越高。 說(shuō)明:圖中不同顏色代表相關(guān)系數(shù)的高低,相關(guān)系數(shù)與顏色間的關(guān)系見(jiàn)有圖圖例說(shuō)明。 基于物種豐度的降維分析1) PCA分析 主成分分析PCA(Principal component analysis)是一種研究數(shù)據(jù)相似性或差異性的可視化方法,通過(guò)一系列的特征值和特征向量進(jìn)行排序后,選擇主要的前幾位特征值,采取降維的思想,PCA 可以找到距離矩陣中最主要的坐標(biāo),結(jié)果是數(shù)據(jù)矩陣的一個(gè)旋轉(zhuǎn),它沒(méi)有改變樣品點(diǎn)之間的相互位置關(guān)系,只是改變了坐標(biāo)系統(tǒng)。PCA 可以觀察個(gè)體或群體間的差異。下圖每一個(gè)點(diǎn)代表一個(gè)樣本,相同顏色的點(diǎn)來(lái)自同一個(gè)分組,兩點(diǎn)之間距離越近表明兩者的群落構(gòu)成差異越小。 PCA圖 說(shuō)明:種水平PCA分析,橫坐標(biāo)表示第一主成分,百分比則表示第一主成分對(duì)樣品差異的貢獻(xiàn)值;縱坐標(biāo)表示第二主成分,百分比表示第二主成分對(duì)樣品差異的貢獻(xiàn)值;圖中的每個(gè)點(diǎn)表示一個(gè)樣品,同一個(gè)組的樣品使用同一種顏色表示。 2) NMDS分析 NMDS(Non-metric Multidimensional scaling)非度量多維尺度分析是一種將多維空間的研究對(duì)象(樣本或變量)簡(jiǎn)化到低維空間進(jìn)行定位、分析和歸類,同時(shí)又保留對(duì)象間原始關(guān)系的數(shù)據(jù)分析方法。適用于無(wú)法獲得研究對(duì)象間精確的相似性或相異性數(shù)據(jù),僅能得到他們之間等級(jí)關(guān)系數(shù)據(jù)的情形。其基本特征是將對(duì)象間的相似性或相異性數(shù)據(jù)看成點(diǎn)間距離的單調(diào)函數(shù),在保持原始數(shù)據(jù)次序關(guān)系的基礎(chǔ)上,用新的相同次序的數(shù)據(jù)列替換原始數(shù)據(jù)進(jìn)行度量型多維尺度分析。其特點(diǎn)是根據(jù)樣品中包含的物種信息,以點(diǎn)的形式反映在多維空間上,而對(duì)不同樣品間的差異程度,則是通過(guò)點(diǎn)與點(diǎn)間的距離體現(xiàn)的,最終獲得樣品的空間定位點(diǎn)圖。 NMDS圖 組間差異物種的LEfSe分析 為了篩選組間具有顯著差異的物種Biomarker,首先通過(guò)秩和檢驗(yàn)的方法檢測(cè)不同分組間的差異物種并通過(guò)LDA(線性判別分析)實(shí)現(xiàn)降維并評(píng)估差異物種的影響大小,即得到LDA score;組間差異物種的LEfSe分析結(jié)果包括三部分,分別是LDA值分布柱狀圖,進(jìn)化分支圖(系統(tǒng)發(fā)育分布)和組間具有統(tǒng)計(jì)學(xué)差異的Biomarker在不同組中豐度比較圖。差異物種的LDA值分布圖和進(jìn)化分支圖如下: 常用功能數(shù)據(jù)庫(kù)注釋 功能注釋主要是基于功能同源的序列往往具有序列相似性的原理,將去冗余后的基因蛋白序列,與不同的蛋白功能數(shù)據(jù)庫(kù)進(jìn)行序列比對(duì), 然后用比對(duì)到的序列的功能作為目標(biāo)序列的功能。 從 gene catalogue 出發(fā),進(jìn)行代謝通路(KEGG)[6,7],同源基因簇(eggNOG)[8],碳水化合物酶(CAZy)的功能注釋和豐度分析?;谖锓N豐度表和功能豐度表,可以進(jìn)行豐度聚類分析,PCA和NMDS 降維分析,Anosim分析,樣品聚類分析;當(dāng)有分組信息時(shí),可以進(jìn)行Metastat和LEfSe多元統(tǒng)計(jì)分析以及代謝通路比較分析,挖掘樣品之間的物種組成和功能組成差異。 目前常用的功能數(shù)據(jù)庫(kù)主要有: KEGG,全稱Kyoto Encyclopedia of Genes and Genomes,是一個(gè)關(guān)于基因功能注釋方面的綜合性數(shù)據(jù)庫(kù),包括基因的功能,分類,代謝通路(KEGG Pathway數(shù)據(jù)庫(kù), 是KEGG最核心的數(shù)據(jù)庫(kù))等諸多方面的信息。 KEGG 數(shù)據(jù)庫(kù)于 1995 年由 Kanehisa Laboratories 推出 0.1 版,目前發(fā)展為一個(gè)綜合性數(shù)據(jù)庫(kù),其中最核心的為KEGG PATHWAY 和 KEGG ORTHOLOGY 數(shù)據(jù)庫(kù)。在 KEGG ORTHOLOGY 數(shù)據(jù)庫(kù)中,將行使相同功能的基因聚在一起,稱為Ortholog Groups (KO entries),每個(gè) KO 包含多個(gè)基因信息,并在一至多個(gè) pathway 中發(fā)揮作用。 KEGG Pathway數(shù)據(jù)庫(kù)將生物代謝通路劃分為6大類(A級(jí)分類),分別為:新陳代謝(Metabolism)、遺傳信息處理(Genetic Information Processing)、 環(huán)境信息處理(Environmental Information Processing)、細(xì)胞過(guò)程(Cellular Processes)、生物體系統(tǒng)(Organismal Systems)、 人類疾?。℉uman Diseases),其中每大類又被系統(tǒng)分類為B、C、D3個(gè)級(jí)別。 其中B級(jí)分類目前包括有 43 種子功能;C級(jí)分類即為代謝通路圖;D級(jí)分類為每個(gè)代謝通路圖的具體注釋信息。 eggNOG 數(shù)據(jù)庫(kù)是利用 Smith-Waterman 比對(duì)算法對(duì)構(gòu)建的基因直系同源簇 (Orthologous Groups) 進(jìn)行功能注釋, eggNOG(v4.5)目前涵蓋了2031個(gè)物種,構(gòu)建了包含25個(gè)大類,約19萬(wàn)個(gè)直系同源簇。 CAZy 數(shù)據(jù)庫(kù)是研究碳水化合物酶的專業(yè)級(jí)數(shù)據(jù)庫(kù),主要涵蓋 6 大功能類:糖苷水解酶(Glycoside Hydrolases ,GHs), 糖基轉(zhuǎn)移酶(Glycosyl Transferases,GTs),多糖裂合酶(Polysaccharide Lyases,PLs),碳水化合物酯酶(Carbohydrate Esterases,CEs), 輔助氧化還原酶(Auxiliary Activities , AAs)和碳水化合物結(jié)合模塊(Carbohydrate-Binding Modules, CBMs)。 其中每一個(gè)大類有可以分類很多小的家族,比如CE1,CE2等等,注釋結(jié)果中的CE0表示沒(méi)有小家族分類的結(jié)果。 功能注釋基本步驟 1)使用DIAMOND軟件將 Unigenes 與各功能數(shù)據(jù)庫(kù)進(jìn)行比對(duì)(blastp,evalue ≤ 1e-5); 2)比對(duì)結(jié)果過(guò)濾:對(duì)于每一條序列的 比對(duì)結(jié)果,選取 score 最高的比對(duì)結(jié)果(one HSP > 60 bits)進(jìn)行后續(xù)分析; 3)從比對(duì)結(jié)果出發(fā),統(tǒng)計(jì)不同功能層級(jí)的相對(duì)豐度(各功能層級(jí)的相對(duì)豐度等于注釋為該功能層級(jí)的基因的相對(duì)豐度之和),其中,KEGG 數(shù)據(jù)庫(kù)劃分為 5 個(gè)層級(jí),eggNOG 數(shù)據(jù)庫(kù)劃分為 3 個(gè)層級(jí),CAZy 數(shù)據(jù)庫(kù)劃分為 3 個(gè)層級(jí),各數(shù)據(jù)庫(kù)的詳細(xì)劃分層級(jí)如下所示: 4)從功能注釋結(jié)果及基因豐度表出發(fā),獲得各個(gè)樣品在各個(gè)分類層級(jí)上的基因數(shù)目表,對(duì)于某個(gè)功能在某個(gè)樣品中的基因數(shù)目,等于在注釋為該功能的基因中,豐度不為 0 的基因數(shù)目; 5)從各個(gè)分類層級(jí)上的豐度表出發(fā),進(jìn)行注釋基因數(shù)目統(tǒng)計(jì),相對(duì)豐度概況展示,豐度聚類熱圖展示,PCA和NMDS降維分析,基于功能豐度的Anosim組間(內(nèi))差異分析,代謝通路比較分析,組間功能差異的Metastat和LEfSe分析。 注釋基因數(shù)目統(tǒng)計(jì) 從 Unigenes 注釋結(jié)果出發(fā),繪制各個(gè)數(shù)據(jù)庫(kù)的注釋基因數(shù)目統(tǒng)計(jì)圖,展示結(jié)果如下圖所示: 各數(shù)據(jù)庫(kù)注釋基因數(shù)目統(tǒng)計(jì)圖 說(shuō)明:從上至下依次為CAZy,eggNOG 的 Unigenes 注釋數(shù)目統(tǒng)計(jì)圖。橫坐標(biāo)軸是各數(shù)據(jù)庫(kù)中 level1 各功能類的代碼,代碼的解釋見(jiàn)對(duì)應(yīng)的圖例說(shuō)明。 功能相對(duì)豐度概況 從各數(shù)據(jù)庫(kù) level1 的相對(duì)豐度表出發(fā),繪制出各個(gè)數(shù)據(jù)庫(kù)中,各樣品對(duì)應(yīng)的在 level1 層級(jí)上的豐度統(tǒng)計(jì)圖。 KEGG: Eggnog: 功能注釋在 level1 上的相對(duì)豐度柱形圖 說(shuō)明:從上至下依次為 Kegg,eggNOG 的結(jié)果展示。縱軸表示注釋到某功能類的相對(duì)比例;橫軸表示樣品名稱;各顏色區(qū)塊對(duì)應(yīng)的功能類別見(jiàn)右側(cè)圖例。 功能相對(duì)豐度聚類分析 根據(jù)所有樣品在各個(gè)數(shù)據(jù)庫(kù)中的功能注釋及豐度信息,選取豐度排名前 35 的功能及它們?cè)诿總€(gè)樣品中的豐度信息繪制熱圖,并從功能差異層面進(jìn)行聚類。 Kegg: Eggnog: 功能豐度聚類熱圖 說(shuō)明:從上至下依次為 KEGG, eggNOG 的結(jié)果展示。橫向?yàn)闃悠沸畔?;縱向?yàn)楣δ茏⑨屝畔ⅲ?/p> 基于功能豐度的降維分析 基于不同數(shù)據(jù)庫(kù)在各個(gè)分類層級(jí)的功能豐度進(jìn)行 PCA 和 NMDS 降維 分析,如果樣品的功能組成越相似,則它們?cè)诮稻S圖中的距離越接近?;贙EGG的KO功能豐度進(jìn)行PCA和NMDS 分析的結(jié)果展示如下: 抗生素抗性基因注釋 抗生素的濫用導(dǎo)致人體和環(huán)境中微生物群落發(fā)生不可逆的變化,對(duì)人體健康和生態(tài)環(huán)境造成風(fēng)險(xiǎn),因此抗性基因的相關(guān)研究受到了研究者的廣泛關(guān)注。 目前,抗生素抗性基因的研究主要利用ARDB(Antibiotic Resistance Genes Database)數(shù)據(jù)庫(kù)和CARD(Comprehensive Antibiotic Resistance Database)數(shù)據(jù)庫(kù)來(lái)注釋抗生素抗性基因。通過(guò)該數(shù)據(jù)庫(kù)的注釋,可以找到抗生素抗性基因(Antibiotic Resistance Genes ,ARGs)及其抗性類型(Antibiotic Resistance Class)以及這些基因所耐受的抗生素種類( Antibiotic)等信息。 抗性基因豐度概況 依據(jù)耐受的抗生素種類豐度結(jié)果,提取豐度前15抗生素種類繪制柱狀圖如下: 不同抗生素抗性基因在各樣品中的豐度柱形圖 注:橫軸為樣品,縱軸為抗生素抗性基因 抗性基因類型豐度聚類分析 根據(jù)抗性基因類型的豐度表,繪制聚類熱圖: 注:橫軸為樣品,縱軸為抗性基因類型,不同顏色達(dá)標(biāo)圖例中對(duì)應(yīng)的豐度范圍。 組間抗性基因數(shù)目差異分析 注:橫軸為分組,縱軸為抗性基因類型數(shù)目 物種間相關(guān)性網(wǎng)絡(luò)分析 機(jī)器學(xué)習(xí)算法 分類器是通過(guò)特征工程中的特征選擇的方法挑選出若干不同級(jí)別的bio-markers,并根據(jù)bio-markers來(lái)構(gòu)建的一種分類模型,它采用分類評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型效果的好壞,目的是用于識(shí)別疾病與健康人群。 分類器是來(lái)自機(jī)器學(xué)習(xí)中的分類算法,包括Logistictic回歸、Support Vector Machine (SVM)、Random Forest、人工神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯等。除了分類算法,特征選擇對(duì)分類性能也會(huì)有直接的影響,特征選擇就是在我們獲得的給定特征集中選擇出與分類相關(guān)的特征子集的過(guò)程。 分類評(píng)價(jià)指標(biāo)是用來(lái)評(píng)價(jià)分類器分類性能好壞的一種指標(biāo),常見(jiàn)的評(píng)價(jià)指標(biāo)有正確率、錯(cuò)誤率、靈敏度、特異度、精度、Matthews correlation coefficient (MCC)、Receiver operating characteristic (ROC)。其中MCC和ROC不受分組樣本數(shù)量影響;ROC是根據(jù)一系列不同的二分類方式,以真陽(yáng)性率(靈敏度)為縱坐標(biāo),假陽(yáng)性率(1-特異度)為橫坐標(biāo)繪制的曲線,直觀描繪了分類器在TP和FP間的trade-off。 AUC (area under curve)是ROC曲線下方面積之和,它以數(shù)值的形式來(lái)評(píng)估分類器的好壞,AUC的取值范圍在(0.5, 1.0)范圍內(nèi),AUC的值越大,分類的性能就越好。若分類評(píng)價(jià)指標(biāo)最終顯示分類器性能不佳,則需重新構(gòu)建分類器直至分類性能達(dá)到穩(wěn)定為止。 分類器的引入對(duì)于構(gòu)建用于臨床診斷的基于腸道微生物的檢測(cè)方法具有重要意義。 文章分析思路 文章分析思路:整體概述——物種組成——功能組成——關(guān)聯(lián)分析——因果關(guān)系驗(yàn)證 文章主要結(jié)果 樣本背景、數(shù)據(jù)評(píng)估、物種、功能描述 物種組成整體差異和分組具體差異 功能組成整體差異和分組具體差異 環(huán)境因子與微生物組的關(guān)系 菌群或單菌移植到無(wú)菌小鼠體內(nèi),驗(yàn)證因果關(guān)系 常見(jiàn)問(wèn)題 16S擴(kuò)增子和宏基因組分析結(jié)果為什么存在差別? 1、兩者的實(shí)驗(yàn)方法存在較大差異: 16S是先擴(kuò)增后測(cè)序,而且不同物種DNA的擴(kuò)增有偏好;在宏基因組測(cè)序中,得到的相對(duì)物種豐度的差異與測(cè)序深度、DNA提取以及測(cè)序的方法都密切相關(guān); 2、兩者采用的物種注釋方法及數(shù)據(jù)庫(kù)都存在著一定差別: 16S采用的是將16S rDNA與Greengenes/Silva數(shù)據(jù)庫(kù)進(jìn)行比對(duì)注釋,只能注釋到細(xì)菌或古菌;而宏基因組則是將預(yù)測(cè)得到的基因與NR數(shù)據(jù)庫(kù)或特定的marker基因數(shù)據(jù)庫(kù)比對(duì)從而進(jìn)行注釋,宏基因組注釋得到的物種信息更為全面,不僅包括細(xì)菌,還包括真菌、古菌以及病毒等。 很多文章在物種豐度水平更多使用16s的結(jié)果,而功能注釋則使用metagenome的結(jié)果。 宏基因組分析策略 宏基因組研究主要有兩種分析策略: 第一種有參考基因組,直接將reads比對(duì)到參考基因組上進(jìn)行研究。 第二種為無(wú)參考基因組,需要通過(guò)序列組裝、基因預(yù)測(cè)、再進(jìn)行物種功能注釋,是一種基于de novo組裝的研究。 我們平時(shí)所做的宏基因組研究大多數(shù)是把兩種研究方法結(jié)合起來(lái)。 為什么基因組的組裝不完整? 宏基因組組裝的效果主要跟以下幾個(gè)因素有關(guān):樣本的測(cè)序數(shù)據(jù)量,物種多樣且豐度分布不均勻等,這些因素都會(huì)造成宏基因組組裝比細(xì)菌等單物種的組裝更加困難,這也是目前宏基因組研究中有待突破的重點(diǎn)。 隨著測(cè)序讀長(zhǎng)不斷增加,測(cè)序質(zhì)量的不斷提高,將三代測(cè)序數(shù)據(jù)應(yīng)用到宏基因組中將是未來(lái)研究的一大方向。 為什么不把所有樣本合并在一起進(jìn)行組裝? 不同樣本中物種豐度差異很大,如果把所有樣本都混合在一起,對(duì)服務(wù)器的要求很高(例如需要大內(nèi)存服務(wù)器),將會(huì)大大增加數(shù)據(jù)的復(fù)雜度,組裝效果可能會(huì)更差。 宏基因組測(cè)序的測(cè)序技術(shù)選擇,二代測(cè)序還是三代? 二代測(cè)序的短讀長(zhǎng)限制了contig的長(zhǎng)度,基因之間的物理位置很難準(zhǔn)確確定。 隨著三代測(cè)序技術(shù)成熟,基于三代PacBio的SMRT單分子測(cè)序和Nanopore長(zhǎng)讀長(zhǎng)特性可以跨越大的重復(fù)區(qū)域,使得宏基因組拼接組裝效果有了很大程度的提高,能組裝出更長(zhǎng)的contig,增加了完整基因的數(shù)量,可以對(duì)復(fù)雜的重復(fù)區(qū)域進(jìn)行分析。 宏基因組測(cè)序深度的選擇? 1)由于受到測(cè)序深度及測(cè)序成本的影響,在現(xiàn)在的宏基因組文章中,測(cè)序數(shù)據(jù)量一般選擇大于5G,可以測(cè)出樣品中絕大多數(shù)的微生物,但是對(duì)于一些低豐度的物種,因?yàn)闇y(cè)序深度的原因,確實(shí)很有可能會(huì)組裝不出來(lái); 2)在宏基因組分析中,也一般多關(guān)注的是較高豐度物種的組成情況,如果要對(duì)低豐度物種進(jìn)行特殊分析,一般需要加大測(cè)序數(shù)據(jù)量,或者在前期提取過(guò)程中經(jīng)過(guò)一些特殊的處理,盡可能的富集出多的低豐度物種,再進(jìn)行測(cè)序分析。 關(guān)于宏基因組的測(cè)序量,這個(gè)要根據(jù)樣品的復(fù)雜度來(lái)看: 如果diversity比較低,例如像人腸道之類的, 每個(gè)樣品測(cè)個(gè)5-10Gb的數(shù)據(jù)就可以了,對(duì)于復(fù)雜樣品,例如土壤,致使測(cè)序幾十到幾百G,也可能也會(huì)深度不足。 如果不知道樣品的diversity,一般建議先對(duì)樣品做一個(gè) 16S rRNA測(cè)序的survey,來(lái)看一下你的樣品里面大致有多少種微生物。 抗性基因和毒力基因分析所用數(shù)據(jù)庫(kù)是什么? 隨著人們對(duì)抗性基因相關(guān)研究的廣泛關(guān)注,我們宏基因組的標(biāo)準(zhǔn)分析中推出了抗性基因的相關(guān)分析。并且,由于自2009年ARDB數(shù)據(jù)庫(kù)再無(wú)更新,因此我們目前所用的抗性基因數(shù)據(jù)庫(kù)為CARD數(shù)據(jù)庫(kù)。 VFDB(Virulence Factors Database)數(shù)據(jù)庫(kù)用來(lái)注釋毒力基因。 環(huán)境因子與微生物組的關(guān)系 RDA 或者CCA定義是基于對(duì)應(yīng)分析發(fā)展而來(lái)的一種排序方法,將對(duì)應(yīng)分析與多元回歸分析相結(jié)合。此分析是主要用來(lái)反映菌群與環(huán)境因子之間關(guān)系。RDA是基于線性模型,CCA 是基于單峰模型。分析可以檢測(cè)環(huán)境因子、樣品、菌群三者之間的關(guān)系或者兩兩之間的關(guān)系。 注:圖中數(shù)字表示樣品名,不同顏色或形狀表示不同環(huán)境或條件下的樣本組;箭頭表示環(huán)境因子;圖中藍(lán)色上三角表示不同屬的細(xì)菌;物種與環(huán)境因子之間的夾角代表物種與環(huán)境因子間的正、負(fù)相關(guān)關(guān)系(銳角:正相關(guān);鈍角:負(fù)相關(guān);直角:無(wú)相關(guān)性);由不同的樣本向各環(huán)境因子做垂線,投影點(diǎn)越相近說(shuō)明樣本間該環(huán)境因子屬性值越相似,即環(huán)境因子對(duì)樣品的影響程度相當(dāng)。 如何進(jìn)行腸型分析? 2011年腸型(Enterotypes)概念第一次被提出,腸型被分為3種Bacteroides (enterotype 1), Prevotella (enterotype 2) and Ruminococcus (enterotype 3),文中指出: 1)在不同的腸道樣本中,均有明顯的類別存在; 2)3類腸型中的優(yōu)勢(shì)菌,在不同樣本中是不同的。 影響腸型結(jié)果的各種因素: 1)不同聚類方法、距離計(jì)算方式最終得到的腸型會(huì)有不同 2)不同OTU的層級(jí)得到的腸型不同 3)不同測(cè)序區(qū)域得到的腸型不同 4)OTU的計(jì)算策略得到的腸型不同 5)測(cè)序策略得到的腸型不同 腸型分類器的在線使用 腸型在線分類器主頁(yè): http:///基于MetaHIT數(shù)據(jù)集,建立了一個(gè)基于屬水平的在線分類器(基于HMP1和中國(guó)二型糖尿病 ) 宏基因組測(cè)序能否鑒定到菌株水平? CAG (co-abundance gene group) CAG方法是2014年在《自然?生物技術(shù)》雜志上報(bào)道出來(lái)的人體腸道宏基因組數(shù)據(jù)分析方法。這種方法的思想和MGS的思想有一定相同之處,都利用了這樣一種思想或理論:在同一個(gè)株或種中的基因,這些基因的豐度在群體中具有豐度一致性。為了解決使用MGS方法時(shí)僅關(guān)注基因標(biāo)記的局限性,canopy算法被用來(lái)鑒定共豐富基因簇(CAG),CAG分析基于基因豐度鑒定物種,并且每個(gè)CAG可以被看作是部分微生物或完整微生物。 當(dāng)基因豐度表包含足夠數(shù)量的樣本時(shí),可以應(yīng)用canopy算法來(lái)識(shí)別CAG。canopy算法使用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)作為閾值,在對(duì)只有1個(gè)基因的canopies進(jìn)行第一輪聚類和過(guò)濾之后,根據(jù)簇的平均豐度,使用Pearson相關(guān)系數(shù)作為閾值再次被應(yīng)用到canopy算法中,第二輪簇可以包含重疊基因。 因此,對(duì)于出現(xiàn)在多于1個(gè)簇中的基因,基因及其相關(guān)簇之間的距離能夠被確定,對(duì)于每個(gè)重疊基因,選擇最近的簇。最后,選擇含有超過(guò)700個(gè)基因的簇最可能是含有細(xì)菌基因組部分的CAG。 基于CAG分析的結(jié)果,可以在人腸道微生物群中鑒定出可能顯著影響宿主的未分類或難以理解的微生物(也稱為生物暗物質(zhì))。在過(guò)去的研究中,生物暗物質(zhì)一般被忽略,因此,許多疾病相關(guān)的腸道微生物可能未被檢測(cè)到。CAG中的重疊群和基因可以產(chǎn)生無(wú)法從當(dāng)前的細(xì)菌基因組數(shù)據(jù)庫(kù)獲得的大量新信息。 兩款鑒定到菌株的軟件 PanPhlAn:PanPhlAn - Strain-level resolution in Metagenomics(一種基于菌株特異性泛基因組學(xué)的分析方法) ConStrains: ConStrains identifies microbial strains in metagenomic datasets 相關(guān)名詞解釋 De novo測(cè)序從頭測(cè)序,無(wú)需任何參考序列,直接對(duì)一個(gè)物種進(jìn)行測(cè)序,然后進(jìn)行拼接、組裝成該物種的基因組序列圖譜。 建庫(kù)在基因組隨機(jī)打斷的片段上機(jī)前,為保證在測(cè)序時(shí)有足夠的數(shù)據(jù)強(qiáng)度支持,所進(jìn)行的基于PCR反應(yīng)的片段擴(kuò)增,區(qū)別于通常說(shuō)的基于Fosmid/BAC等載體的建立文庫(kù)。 Paired-End測(cè)序雙末端測(cè)序,對(duì)插入片段兩端進(jìn)行測(cè)序,產(chǎn)生具有Paired-End關(guān)系的reads。 測(cè)序策略sequences strategyPE100:即Paired-End (100,100),采用雙末端測(cè)序法對(duì)插入片段兩端進(jìn)行讀長(zhǎng)為100 bp的高通量測(cè)序。 讀長(zhǎng)測(cè)序儀所能獲取的實(shí)際長(zhǎng)度,即reads的長(zhǎng)度,例如:90bp、125bp、300bp。 Raw data(reads)即下機(jī)數(shù)據(jù),原始的reads。 Clean data(reads)即下機(jī)數(shù)據(jù)經(jīng)過(guò)去接頭污染、過(guò)濾低質(zhì)量reads、去duplication(針對(duì)大片段數(shù)據(jù))等之后,實(shí)際用于組裝及分析的數(shù)據(jù)。 Contig序列由來(lái)源于同一基因組,具有overlapping關(guān)系的reads拼接而成的片段。 Scaffold序列又稱super Contig,通過(guò)reads的Paired-End關(guān)系將Contig連接,并用N補(bǔ)充其中的內(nèi)洞而形成。 N50/N90將組裝所得片段(Scaffold/Contig)按照從長(zhǎng)到短排序并累加求和,累加值達(dá)到基因組總長(zhǎng)度一半時(shí)的片段長(zhǎng)度即是該組裝結(jié)果的N50值,通常用來(lái)衡量組裝情況;N90與之類似,即累加長(zhǎng)度為基因組總長(zhǎng)90%時(shí),該片段的長(zhǎng)度。 基因集(Gene Catalog)由所有樣本中檢測(cè)到的基因構(gòu)成的集合。 非冗余基因集(Non-redundant Gene Catalog)將所有樣本的基因以一定的閾值進(jìn)行聚類,每個(gè)類別取最長(zhǎng)的基因作為代表序列。 物種分類學(xué)注釋:將基因集序列與參考數(shù)據(jù)庫(kù)比對(duì),并根據(jù)分類學(xué)譜系系統(tǒng)得到該序列的物種分類地位,從而分析得到整個(gè)基因集的物種信息; COG功能注釋:將基因集序列與COG參考數(shù)據(jù)庫(kù)比對(duì),獲得基因集的同源聚類蛋白群的相應(yīng)功能注釋信息; KEGG功能注釋:將基因集序列與KEGG的基因組數(shù)據(jù)庫(kù)比對(duì),獲得基因集在代謝、酶、反應(yīng)和功能模塊方面的注釋信息。 CAZy數(shù)據(jù)庫(kù)注釋:將基因集序列與特殊數(shù)據(jù)庫(kù)比對(duì),如 CAZy數(shù)據(jù)庫(kù)(Carbohydrate-Active enZYmes Database,碳水化合物活性酶) CARD數(shù)據(jù)庫(kù)(Comprehensive Antibiotic Resistance Database,抗生素抗性基因), 獲得基因集特殊的功能信息 |
|
來(lái)自: liufuqiang0909 > 《待分類》