導(dǎo)讀 微生物是人體的重要組成部分,人體微生物的基因數(shù)目遠(yuǎn)遠(yuǎn)超過人體自身基因數(shù)。其中,腸道微生物是人體微生物組的主體,口腔、皮膚、陰道微生物均為人體微生物組的重要組成部分。有研究表明,人體不同部位的微生物組成更是存在很大差異1。 人類基因組計(jì)劃完成之后,人體微生物組研究逐漸提上日程:美國(guó)國(guó)立衛(wèi)生研究院于2007年底啟動(dòng)人體微生物組計(jì)劃(Human Microbiome Project, HMP)旨在通過對(duì)人體微生物遺傳和代謝的整體研究,了解人體微生物組;緊隨其后,歐盟于2008年初啟動(dòng)人體腸道宏基因組學(xué)計(jì)劃(Metagenomics of the Human Intestinal Tract, MetaHIT),旨在通過對(duì)比疾病人群,解析人體微生物與健康或疾病的關(guān)系,促進(jìn)人類健康。 由于微生物在代謝及免疫調(diào)節(jié)等方面的重要作用,與人體健康密切相關(guān)。所以,近年來,微生物研究也已成為各大科研機(jī)構(gòu)的研究熱點(diǎn),微生物相關(guān)產(chǎn)品和應(yīng)用更是層出不窮。以微生物為研究對(duì)象的宏基因組學(xué)研究也變得火熱起來。 加上,近年來,高通量測(cè)序技術(shù)的快速發(fā)展,使得測(cè)序成本大大降低,大規(guī)模宏基因組研究更是得以迅速開展。作為宏基因組研究的重要工具,宏基因組鳥槍法測(cè)序技術(shù)使我們能夠從基因水平、物種水平、功能水平全方位刻畫微生物組;宏基因組關(guān)聯(lián)分析作為宏基因組研究的一種重要分析方法,其探究微生物與多種復(fù)雜疾病如2型糖尿病、肥胖等的關(guān)系,也為疾病預(yù)防、診斷、治療提供了新的思路。 本次特別邀請(qǐng)了深圳華大生命科學(xué)研究院宏基因組研究所的研究團(tuán)隊(duì),結(jié)合宏基因組已有研究基礎(chǔ)與當(dāng)前宏基因組關(guān)聯(lián)分析的進(jìn)展,對(duì)大規(guī)模宏基因組研究思路作一總結(jié)和概述。 16s rRNA基因擴(kuò)增子測(cè)序與宏基因組鳥槍法測(cè)序 不同于單一物種的基因組研究,宏基因組研究以環(huán)境樣品中全部微生物基因組為研究對(duì)象,其豐富的物種多樣性成為宏基因組研究的難點(diǎn)。 16S rRNA基因擴(kuò)增子測(cè)序方法以分類學(xué)標(biāo)記基因?yàn)榛A(chǔ),能夠鑒定樣品中存在的微生物種類,研究微生物與疾病之間的關(guān)系。其中,16S rRNA基因擴(kuò)增子測(cè)序相關(guān)的研究表明,腸道菌群失調(diào)可能是許多疾病的關(guān)鍵因素。然而,該方法產(chǎn)生的數(shù)據(jù)在低層次的物種分類水平上缺乏一定的分辨能力,加上其產(chǎn)生的數(shù)據(jù)缺乏功能水平的信息,此方法應(yīng)用范圍有限。 而隨著2代測(cè)序技術(shù)的發(fā)展,宏基因組鳥槍法測(cè)序技術(shù)能夠對(duì)微生物群落中全部DNA序列進(jìn)行描述,提供所有物種分類水平和功能通路上的基因豐度的信息,為宏基因組學(xué)相關(guān)研究的開展提供了技術(shù)支持。 非冗余參考基因集的構(gòu)建 宏基因組研究中以基因譜、物種譜和功能譜來描述微生物組,下游分析均以此為基礎(chǔ)展開。如果想讓不同樣品的基因豐度具有可比性,一個(gè)統(tǒng)一且完整的參考基因集顯得尤為重要。
2010年,以 MetaHIT 計(jì)劃為背景,覃俊杰2 等人建立了第一個(gè)人體腸道菌群非冗余參考基因集:從124個(gè)歐洲人腸道菌群中鑒定到3.3M個(gè)微生物基因,是人類基因集的300倍。【非冗余基因集去除了不同菌種之間的冗余基因以及不同樣品之間共有的冗余基因?!吭摶蚣?span>包含了該人群隊(duì)列中絕大多數(shù)的腸道微生物基因,并且大部分基因在人群中共有;此外,該研究證實(shí)了在宏基因組研究中,短序列可以用于復(fù)雜環(huán)境中基因的鑒定;并通過對(duì)腸道宏基因組和腸細(xì)菌基因組進(jìn)行功能分析,為宏基因組研究確定了基本的研究思路。在此之后,大多數(shù)人類腸道微生物研究都基于參考基因集數(shù)據(jù)庫(kù)進(jìn)行。
但由于數(shù)據(jù)庫(kù)構(gòu)建方法以及樣本來源的地域差異,不同的橫向研究結(jié)果難以比較。2014年,李俊樺3 等人根據(jù)來自三個(gè)大洲、共1267個(gè)人體腸道微生物樣本,結(jié)合511個(gè)腸道相關(guān)的原核生物基因組信息,構(gòu)建了一個(gè)包含約9.9M個(gè)基因的高質(zhì)量人類腸道微生物基因集數(shù)據(jù)庫(kù)(Integrated genecatalog, IGC)(圖1)。該數(shù)據(jù)庫(kù)包含了絕大多數(shù)腸道微生物的基因。以此數(shù)據(jù)庫(kù)為基礎(chǔ),該團(tuán)隊(duì)發(fā)現(xiàn)中國(guó)和丹麥人群樣本的腸道菌群在物種組成和功能組成上均存在顯著差異,表明地域差異可能造成腸道菌群特征的差異。
2016年,謝海亮4 等人對(duì)已有的9.9M IGC基因集進(jìn)行了進(jìn)一步更新。他們通過對(duì)250名英國(guó)成年雙胞胎進(jìn)行糞便菌群宏基因組測(cè)序,鑒定到約5.9M個(gè)非冗余基因,與9.9M IGC 基因集整合后建立了綜合性的腸道菌群參考基因集,發(fā)現(xiàn)約11.4M個(gè)基因。 非冗余參考基因集的構(gòu)建和完善為大規(guī)模宏基因組研究的開展奠定了基礎(chǔ)。 圖1 9.9M非冗余參考基因集構(gòu)建流程 BGISEQ-500 得益于高通量測(cè)序技術(shù)的快速發(fā)展,超大規(guī)模的宏基因組研究成為必然趨勢(shì),而更大樣本量的宏基因組鳥槍法測(cè)序依賴于高通量、高性價(jià)比的測(cè)序平臺(tái)。 2015年,華大發(fā)布新一代測(cè)序系統(tǒng) BGISEQ-500,該測(cè)序系統(tǒng)采用了優(yōu)化的聯(lián)合探針錨定聚合技術(shù)(cPAS)和改進(jìn)的DNA納米球(DNB)核心測(cè)序技術(shù),新平臺(tái)在全基因組測(cè)序、RNA-seq 及 small RNA-seq 等方面展開全面應(yīng)用,相關(guān)成果陸續(xù)在 Cell,GigaScience 等高影響因子雜志刊發(fā)表5,6,7。那么 BGISEQ-500 在宏基因組研究中表現(xiàn)如何? 2017年,方超15 等人對(duì)新型高通量測(cè)序平臺(tái) BGISEQ-500 應(yīng)用于宏基因組領(lǐng)域的性能進(jìn)行了綜合評(píng)估,并將其性能與IlluminaHiSeq 2000與HiSeq 4000平臺(tái)的性能進(jìn)行對(duì)比。從數(shù)據(jù)質(zhì)量、基因豐度、物種豐度等方面分別對(duì)平臺(tái)內(nèi)穩(wěn)定性及不同平臺(tái)的一致性做了評(píng)估。結(jié)果顯示BGISEQ-500平臺(tái)內(nèi)具有極高的技術(shù)可重復(fù)性,平臺(tái)內(nèi)的建庫(kù)重復(fù)與技術(shù)重復(fù)的物種豐度相關(guān)性高達(dá)0.97(圖2);跨平臺(tái)間物種豐度相關(guān)性也可達(dá)到0.948 (圖3),高準(zhǔn)確度及高度技術(shù)可重復(fù)性表明 BGISEQ500 測(cè)序平臺(tái)對(duì)于開展宏基因組研究具有可行性。 圖2 BGISEQ-500平臺(tái)內(nèi)技術(shù)重復(fù)與建庫(kù)重復(fù)的物種豐度相關(guān)性 圖3 BGISEQ-500與Hiseq 2000/4000跨平臺(tái)的物種豐度相關(guān)性 宏基因組關(guān)聯(lián)分析 宏基因組關(guān)聯(lián)分析 (Metagenome-wide association study, MGWAS)是研究特定環(huán)境中的微生物,并將微生物(物種,基因)與表型關(guān)聯(lián)起來的一種方法,是探究微生物群落及其功能與人體疾病相關(guān)的機(jī)制的有效的方法。
2012年,MGWAS 首次由覃俊杰等在探究2型糖尿病與人體腸道菌群的相關(guān)關(guān)系的論文中提出,論文還基于“不同樣品種來自相同微生物組的一類基因應(yīng)該有相同的豐度變化模式”這一原理提出了 MLG(Metagenomic linkage group)這一基因聚類的方法。該研究共鑒定出52,484個(gè)2型糖尿病相關(guān)的分子標(biāo)記8 (圖4)。 圖4 2型糖尿病腸道微生物的分類學(xué)和功能特征 圖4注釋: 隨后 MWGAS 廣泛應(yīng)用于肝硬化,大腸癌,類風(fēng)濕性關(guān)節(jié)炎,肥胖癥等復(fù)雜疾病與腸道菌群的關(guān)聯(lián)研究中9,10,11,12。 2016年, 賈慧玨與王俊對(duì) MGWAS 的技術(shù)及進(jìn)展進(jìn)行系統(tǒng)總結(jié)13(圖5): 圖5 宏基因組關(guān)聯(lián)分析流程 圖5注釋: (1)實(shí)驗(yàn)設(shè)計(jì),群體選擇。 (2)采集人體腸黏膜,口腔,皮膚,陰道,胎盤,糞便等處的樣本。 (3)對(duì)這些樣本進(jìn)行宏基因組鳥槍測(cè)序。經(jīng)過質(zhì)量控制,測(cè)序得到的序列(reads)被重新組裝成更長(zhǎng)的序列(contigs),這些contigs共同組成宏基因 組。 (4)將contig比對(duì)到高質(zhì)量的參考基因集上,可以得到基因的豐度,基因的 注釋(即對(duì)基因進(jìn)行形態(tài)學(xué)注釋)和基因的功能信息。 (5)基于“不同樣品種來自相同微生物組的一類基因應(yīng)該有相同的豐度變化模 式”這一原理對(duì)宏基因組學(xué)的數(shù)據(jù)集中的基因進(jìn)行聚類?;诓煌南嚓P(guān)系數(shù) 和算法,這些聚類方法包括建立MLG,MGC或者M(jìn)GS。 (6)通過Wilcoxon秩和檢驗(yàn),spearman’s相關(guān)系數(shù)等統(tǒng)計(jì)學(xué)方法,可以在物 種,基因,基因的功能單位,MLG層面,功能通路等不同層面來進(jìn)行與個(gè)體 表型進(jìn)行關(guān)聯(lián); (7)對(duì)關(guān)聯(lián)分析的結(jié)果進(jìn)行交叉驗(yàn)證,控制假陽(yáng)性率;如果有需要,還可進(jìn) 一步進(jìn)行實(shí)驗(yàn)驗(yàn)證。 2017年,采用 MGWAS 和 MLG 方法,深圳華大生命科學(xué)研究院和上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院的研究人員進(jìn)行了肥胖相關(guān)基因的分類學(xué)研究和功能研究12(圖6)。 圖6 肥胖患者和正常人的MLG差異圖 圖6注釋: 研究結(jié)果顯示肥胖患者菌群的物種多樣性和基因豐度比正常人群偏低,擬桿菌門和厚壁菌門的比值也偏低;從功能分析來看,肥胖患者對(duì)碳水化合物的利用率升高,促炎癥因子,芳香族氨基酸和支鏈氨基酸的產(chǎn)生升高。 MGWAS 分析中,應(yīng)用最普遍實(shí)驗(yàn)設(shè)計(jì)主要是 Case-control (病例對(duì)照研究)?;?Case-control 模型的宏基因組關(guān)聯(lián)分析主要可以顯示腸道菌群的組成結(jié)構(gòu)在健康人群和疾病人群里的差異;找到和疾病相關(guān)聯(lián)的 metagenomic markers,并利用這些 marker,在一定的準(zhǔn)確率的情況下劃分疾病人群和健康人群。同時(shí)基于 Case-control 模型的 MGWAS 有其局限性,主要體現(xiàn)在不能明確疾病和菌群之間的因果關(guān)系,即不能明確疾病的發(fā)病機(jī)理??v向研究、干預(yù)模型和動(dòng)物模型、多組學(xué)分析等方法則顯示可能有助于因果關(guān)系的探究14。 基于腸道基因集的構(gòu)建,以及一些相關(guān)方法學(xué)的開發(fā),MGWAS現(xiàn)在已經(jīng)成功應(yīng)用于對(duì)多種復(fù)雜疾病生物學(xué)標(biāo)志的鑒定,比如:2型糖尿病,肥胖,肝硬化,結(jié)腸癌等。未來,我們期望通過時(shí)間序列分析,多組學(xué)方法以及動(dòng)物模型的構(gòu)建,進(jìn)一步豐富和完善我們對(duì)腸道微生態(tài)的了解。也期望 MGWAS 方法最終能為人類復(fù)雜疾病的診斷和治療提供寶貴的信息。 參考文獻(xiàn) 1. Huttenhower, C. et al. Structure, function and diversity of the healthy human microbiome. Nature 486, 207–214 (2012). 2. Balzola, F., Bernstein, C., Ho, G. T. & Lees, C. A human gut microbial gene catalogue established by metagenomic sequencing: Commentary. Inflamm. Bowel Dis. Monit. 11, 28 (2010). 3. Li, J. et al. An integrated catalog of reference genes in the human gut microbiome. Nat. Biotechnol. 32, 834–841 (2014). 4. Xie, H. et al. Shotgun Metagenomics of 250 Adult Twins Reveals Genetic and Environmental Impacts on the Gut Microbiome. Cell Syst. 3, 572–584.e3 (2016). 5. Huang, J. et al. A reference human genome dataset of the BGISEQ-500 sequencer. Gigascience 6, 1–9 (2017). 6. Fehlmann, T. et al. cPAS-based sequencing on the BGISEQ-500 to explore small non-coding RNAs. Clin. Epigenetics 8, 123 (2016). 7. Chen, K. et al. Methyltransferase SETD2-Mediated Methylation of STAT1 Is Critical for Interferon Antiviral Activity. Cell 170, 492–506.e14 (2017). 8. Qin, J. et al. A metagenome-wide association study of gut microbiota in type 2 diabetes. Nature 490, 55–60 (2012). 9. Qin, N. et al. Alterations of the human gut microbiome in liver cirrhosis. Nature 513, 859–864 (2014). 10. Feng, Q. et al. Gut microbiome development along the colorectal adenoma–carcinoma sequence. Nat. Commun. 6, 6528 (2015). 11. Zhang, X. et al. The oral and gut microbiomes are perturbed in rheumatoid arthritis and partly normalized after treatment. Nat. Med. 21, 895–905 (2015). 12. Liu, R. et al. Gut microbiome and serum metabolome alterations in obesity and after weight-loss intervention. Nat. Med. 23, 859–868 (2017). 13. Wang, J. & Jia, H. Metagenome-wide association studies: fine-mining the microbiome. Nat. Rev. Microbiol. 14, 508–522 (2016). 14. Gilbert, J. A. et al. Microbiome-wide association studies link dynamic microbial consortia to disease. Nature 535, 94–103 (2016). 15. Fang, Ch. Zhong H, et al. Assessment of the cPAS-based BGISEQ-500 platform for metagenomic sequencing.(submitted)
|
|