使用hifiasm-meta進行Hifi長讀宏基因組序列組裝 Metagenome assembly of high-fidelity long reads with hifiasm-meta Article,2022-05-09 Nature methods, [IF 48] DOI:https:///10.1038/s41592-022-01478-3 原文鏈接:https://www./articles/s41592-022-01478-3 第一作者:Xiaowen Feng 通訊作者:Heng Li (李恒) 合作作者:Haoyu Cheng;Daniel Portik 主要單位: 哈佛大學醫(yī)學院生物醫(yī)學信息系 (Department of Biomedical Informatics, Harvard Medical School, Boston, MA, USA) Dana-Farber癌癥研究所數(shù)據(jù)中心 (Department of Data Sciences, Dana-Farber Cancer Institute, Boston, MA, USA) 太平洋生物科技公司(Pacific Biosciences, Menlo Park, CA, USA) - 摘 要 - 宏基因組樣本的從頭組裝是研究微生物群落的常用方法。當前針對短讀長或錯誤率高的長讀長開發(fā)的宏基因組組裝軟件尚未對組裝準確的長讀長序列進行優(yōu)化。因此,我們開發(fā)了hifiasm-meta,一種利用近期出現(xiàn)的高精度的宏基因組數(shù)據(jù)進行宏基因組組裝的軟件。通過使用七個經(jīng)驗數(shù)據(jù)集進行評估,hifiasm-meta在每個數(shù)據(jù)集重建了數(shù)十到數(shù)百個完整的閉環(huán)細菌基因組,始終優(yōu)于其他宏基因組組裝軟件。 專業(yè)詞匯
- 主要內(nèi)容 - 短讀長宏基因組組裝通常能產(chǎn)生長度為數(shù)十千堿基(kbp)的重疊群,約為細菌基因組大小的1%。截至2019年9月,經(jīng)過多年的宏基因組測序,只有62個完整的細菌基因組從宏基因組樣本中組裝而成。盡管當前可以使用分箱算法將短的重疊群聚類到宏基因組組裝基因組(MAG)中,但是分箱會產(chǎn)生較高的錯誤率,導致下游分析復雜化或錯誤。短讀長MAG的局限性,激發(fā)了metaFlye的開發(fā),唯一已發(fā)表的專門用于長讀長宏基因組組裝的軟件。metaFlye是基于Flye開發(fā)的,其適用于錯誤率約10%的嘈雜長讀長數(shù)據(jù)組裝,不適用于PacBio產(chǎn)生的高準確度數(shù)據(jù)組裝,并且對于單物種HiFi組裝來說是次優(yōu)的。為了充分利用長而精確的HiFi讀長的全部優(yōu)勢,我們開發(fā)了hifiasm-meta,將作者早期開發(fā)的hifiasm應用到宏基因組樣本組裝中。 與單個物種的組裝相比,宏基因組組裝帶來了幾個獨特的挑戰(zhàn),例如PacBio HiFi數(shù)據(jù)中讀長長度差異較大,以及某些單倍型的高倍性與低覆蓋率相結合。作者在hifiasm-meta中做了幾個重大改變來應對這些挑戰(zhàn)。首先,hifiasm-meta具有讀長選擇步驟,可以減少高豐度菌株的覆蓋率,而不會丟失低豐度菌株的數(shù)據(jù)。其次,在組裝圖的構建過程中,hifiasm-meta試圖保護低覆蓋率基因組中的序列,這些序列可能被視為嵌合序列并被原始hifiasm丟棄。第三,hifiasm-meta 只有在推斷出與讀長完全重疊的其他序列來自同一單倍型時,才會丟棄包含的序列,這減少了由內(nèi)含序列而引起的重疊群斷點。第四,在初始圖構建之后,hifiasm-meta使用測序深度信息來修剪unitig,假設來自同一菌株的unitigs往往具有相似的覆蓋率。它還嘗試連接來自不同單倍型的單元,以修補剩余的組裝間隙。這些策略使hifiasm-meta在進行高精度宏基因組裝時更加健全。
表1. 評估組裝的宏基因組數(shù)據(jù)集 N50是基因組拼接之后一個評價指標,將拼接得到的所有的序列,根據(jù)序列大小從大到小進行排序,然后逐步開始累加,當加和長度超過總長一半時,加入的序列長度即為N50長度。 堿基的質(zhì)量值(QV),在生物物理學中是堿基識別出錯概率的整數(shù)映射,Q=-10*lgP,其中P為堿基識別出錯的概率。 然后,作者在真實數(shù)據(jù)集上評估了三個HiFi宏基因組組裝軟件的性能(表1)。由于缺乏它們的真實成分信息,作者使用了CheckM評估每個組裝數(shù)據(jù)集的完整度和污染水平。作者根據(jù)最低信息要求定義質(zhì)量等級。從綿羊A腸道樣本中,hifiasm-meta重建了323個長度超過1Mb的重疊群(圖1a),其總長度為651 Mb。其中,根據(jù)CheckM的評估,176個MAGs定義為接近完整的基因組(圖1b)。大多數(shù)未能達到接近完整的基因組的長重疊群是由于不完整,而不是由于污染。在176個接近完整的hifiasm-meta重疊群中,有134個是閉環(huán)的(圖1b),與HiCanu(71個閉環(huán)的接近完整的重疊群)和metaFlye(47個)相比有明顯的改進。我們將hifiasm-meta,HiCanu和metaFlye組裝產(chǎn)生的重疊群相互對齊,研究了它們之間的相似性。作者發(fā)現(xiàn)分別有86%和94%的閉環(huán)的接近完整的HiCanu和metaFlye組裝重疊群在hifiasm-meta組裝中也是閉環(huán)的,并且長度相似。其余閉環(huán)的接近完整的HiCanu和metaFlye重疊群通過hifiasm-meta組裝成了一個線性重疊群或兩個線性重疊群。Hifiasm-meta可以重建其他組裝軟件產(chǎn)生的大多數(shù)高質(zhì)量重疊群。此外,除了四對mash距離在0.62–0.92%之間的重疊群以外,其他hifiasm閉環(huán)重疊群之間的mash距離大多在1%以上??傮w來說,高發(fā)散度(超過幾個百分點)的菌株通常被組裝為不相連的重疊群;少數(shù)低發(fā)散度的菌株用馬賽克重疊群表示;許多混合發(fā)散的菌株可能導致復雜的裝配圖,并且組裝起來最具挑戰(zhàn)性。 為了從非環(huán)形重疊群中重建MAG,作者應用了MetaBAT2分箱算法到每個組裝數(shù)據(jù)集。由于MetaBAT2未針對長讀長組裝數(shù)據(jù)進行優(yōu)化,可能會錯誤地將同一物種的不同菌株分組到一個MAG中,甚至偶爾將兩個閉環(huán)的重疊群分為一組,這些MAGs將被CheckM視為受到污染。為了改善分箱質(zhì)量,作者將閉環(huán)的重疊群分成了單獨的分箱基因組。最后,作者用三種組裝軟件從每個綿羊A的組裝基因組中鑒定出了超過110個中等或高質(zhì)量的非閉環(huán)MAGs(圖1b)。而hifiasm-meta總是能鑒定更多的高質(zhì)量MAGs。 隨后,作者將hifiasm-meta應用于更大的綿陽B數(shù)據(jù)集中(表1),并獲得了379個近乎完整的MAGs和279個閉環(huán)的重疊群。Bickhart等研究人員使用metaFlye組裝了組合的綿羊A和綿羊B數(shù)據(jù)集,并結合Hi-C數(shù)據(jù)將組裝的重疊群分箱為MAGs。他們報告了通過DAS Tool評估的44個閉環(huán)的重疊群和428個接近完整的MAGs。為了進行直接比較,作者在他們的組裝結果上運行了 CheckM,并確定了241個接近完整的MAGs。比較下來,hifiasm-meta僅用HiFi數(shù)據(jù)便產(chǎn)生了一個更連續(xù)的組裝。 對于雞和四個人類腸道宏基因組數(shù)據(jù)集(表1),hifiasm-meta始終比HiCanu和metaFlye產(chǎn)生更多的閉環(huán)重疊群和更多的MAGs(圖1b)。hifiasm-meta和metaFlye在污泥數(shù)據(jù)集上具有相當?shù)男阅埽鶅?yōu)于HiCanu。相比較于綿羊A腸道樣本,所有組裝工具產(chǎn)生的MAGs都更少。為了了解這在多大程度上是由sheepA數(shù)據(jù)集的高數(shù)據(jù)量引起的,作者隨機抽樣了綿羊B,它代表與綿陽A相同的樣本,但是在SequelII中測序,并且具有與humanO1相似的讀長長度分布,其大約有18Gb的序列,與humanO1和污泥的數(shù)據(jù)集大小相當。在縮減的樣本數(shù)據(jù)集上,作者可以組裝出70個閉環(huán)的重疊群,遠遠超過humanO1和污泥中的閉環(huán)重疊群數(shù)量。這表明數(shù)據(jù)量確實會影響組裝質(zhì)量,但更連續(xù)的綿羊A裝配可能與樣本的組成更相關。 圖1. 宏基因組組裝實例數(shù)據(jù)。 a. 來自綿羊A樣本的hifiasm-meta組裝的長度超過300 kb的重疊群的質(zhì)量得分。根據(jù)CheckM報告,污染度小于5%的MAG被保留。 b. CheckM評估結果。根據(jù)CheckM評估結果,完整性≥90%,污染水平≤5%的為“接近完整的MAG”;完整度≥70%,污染≤10%的則為“高質(zhì)量MAG”;完整度≥50%的為“中等質(zhì)量的MAG”。“HumanPooled”代表了四個人類腸道樣本的共同組裝。 c. 四個人類腸道樣本中hifiasm-meta共同組裝的長的重疊群的組成。每個柱子代表一個長度≥1 Mb的重疊群。每種顏色對應每個人類腸道樣本。柱子頂部的標記表示重疊群是閉環(huán)的。 d. 來自共同組裝的人類腸道MAGs的系統(tǒng)發(fā)育樹。彩色分支對應于GTDB-Tk注釋的不同門的細菌 。如果MAG中 90% 的序列分別來自雜食/素食志愿者樣本,則MAGs是雜食/素食志愿者特異的。 在四個人類腸道數(shù)據(jù)集中,兩個是從雜食志愿者那里收集的,另外兩個是從素食主義者那里收集的。每個數(shù)據(jù)集代表一個由四個獨立個體組成的混合數(shù)據(jù)(表1)。作者進一步將四個數(shù)據(jù)集匯集在一起并共同組裝它們,通過在最終的 hifiasm-meta組裝結果中報告的contig名稱,作者可以根據(jù)序列來源去識別每個重疊群的組成。作者發(fā)現(xiàn),絕大多數(shù)大≥1 Mb的重疊群,以及幾乎所有≥1 Mb的閉環(huán)重疊群,要么是雜食志愿者特異性的,要么是素食主義者特有的(圖1c),而兩個雜食志愿者樣品的重疊群充分混合了并不可區(qū)分,兩個素食樣品也是如此。 雜食志愿者和素食主義者的樣本在共同組裝的MAGs中也可很好地區(qū)分,盡管雜食志愿者和素食主義者的特異性MAGs在系統(tǒng)發(fā)育樹中交叉存在(圖1d);在這個系統(tǒng)發(fā)育樹中,有20個屬由三個或更多MAGs組成,其中17個屬包含雜食志愿者和素食主義者特定的MAG。這表明hifiasm-meta組裝更善于解開微生物之間微妙的組成差異。此外,值得注意的是,七個閉環(huán)重疊群的分支(在圖1d的東北方向)經(jīng)CheckM檢驗有75-79%的完整性,但它們都有5S,16S和23S核糖體RNA基因和大于18個轉移RNA基因。 在計算性能方面,hifiasm-meta 在 18 個 CPU 線程上花費了 大約48 小時來組裝sheepA和雞數(shù)據(jù)集,而人類腸道樣本則花費了大約3 小時。在這些數(shù)據(jù)集上,它與metaFlye一樣快,并且始終比HiCanu快幾倍。hifiasm-meta比 metaFlye 和HiCanu使用更多的內(nèi)存,在進行sheepA和雞腸樣本組裝時消耗大約200 Gb的內(nèi)存。hifiasm-meta在8.9天內(nèi)組裝了最大的sheepB數(shù)據(jù)集,并在峰值使用了724 Gb內(nèi)存。 在短讀長測序時代,宏基因組組裝很少被認為是重建全基因組的方法。但是這種觀點因長讀長組裝的最新發(fā)展而改變。針對長而準確的HiFi讀長進行了組裝優(yōu)化,hifiasm-meta進一步推動了宏基因組組裝的發(fā)展。它可以在無需人工干預的條件下從一個深度測序的樣品中組裝更多的閉環(huán)MAGs,多于之前發(fā)布的所有閉環(huán)MAGs。這種高質(zhì)量的宏基因組組裝可能會從根本上改變宏基因組分析的實踐,并揭示微生物群落的生物學和生物醫(yī)學意義。 - 方 法 - ① hifiasm-meta算法概述 hifiasm-meta的工作流程包括可自定義的讀長輸入、序列糾錯、序列重疊信息查找、字符串圖構建和組裝圖清理。糾錯和序列重疊步驟與原始 hifiasm 基本相同。我們添加了可選的讀長選擇,并改進了其余步驟。 ② 輸入讀長的可選下采樣 如果啟用了讀長選擇,hifiasm-meta首先粗略地猜測對于整個數(shù)據(jù)集是否有太多的對齊計算要執(zhí)行。這是通過檢查錨點來完成的,并且不需要執(zhí)行比對。如果三分之二的序列具有超過300個目標對齊序列,我們將繼續(xù)進行選擇。我們從一個空哈希表開始記錄 k-mer 計數(shù),并每記錄2000個值進行一次遍歷。在批處理中,對于遇到的每個讀長,我們收集其規(guī)范的 k-mers 并查詢哈希表以了解它們的出現(xiàn)情況。使用三個百分數(shù),3%、5%和10%分別對照相應的閾值10、50和50進行檢查。如果任何百分位數(shù)低于給定閾值,則保留序列?;驹硎牵斢幸恍┖币姷膋-mers時,我們希望保留序列,因為當丟棄這些低頻率的序列會導致信息丟失時。值得注意的是,這里的“稀有 k-mers”不一定全局罕見,如果輸入被打亂,讀長選擇結果可能會發(fā)生變化。我們假設輸入不是特別排序的。處理完批處理中的所有讀長后,作者用它們更新k-mer計數(shù)哈希表(丟棄讀長的 k-mers 也被計算在內(nèi))。讀長選擇的終止標準是保留的讀長總數(shù)已超過所需計數(shù),或者已處理所有序列。 ③ 改進嵌合體檢測 在組裝圖構建之前,原始的hifiasm將讀長視為嵌合體,如果讀長的中間部分未被其他讀長覆蓋,則丟棄它。由于統(tǒng)計波動,覆蓋到低豐度基因組的讀長可能具有這種未覆蓋區(qū)域。hifiasm-meta的設定則是如果讀長的兩端與五個或更少的其他讀長重疊,則禁用啟發(fā)式搜索。這個額外的閾值提高了低豐度基因組的連續(xù)性。 ④ contained reads的處理 構造字符串圖的標準過程會丟棄較長序列中包含的更長的序列。如果contained reads和較長的序列實際上映射在不同的單倍型上,這可能會導致組裝間隙。原始的hifiasm通過在圖構建后通過contained reads來修補這些間隙,而hifiasm-meta是在圖構建之前解決這個問題。如果推斷出與序列完全重疊的其他序列來自不同的單倍型,則它保留contained reads。換句話說,hifiasm-meta只有在周圍沒有其他類似的單倍型時才會丟棄contained reads。此策略通常會保留實際上是冗余的額外的contained reads。這些額外的序列通常會導致bubble-like的子圖,然后被原始hifiasm中的泡沫算法刪除。 ⑤ 宏基因組數(shù)據(jù)集的組裝 作者評估了使用了48個CPU線程評估了hifiasm-meta r58,HiCanu v.2.2和metaFlye v.2.9。使用“hifiasm-meta read.fa”參數(shù)來組裝經(jīng)驗腸道樣本,使用“hifiasm-meta --force-rs read.fa”參數(shù)來為兩個模擬菌群數(shù)據(jù)集啟用讀長選擇,用“canu maxInputCoverage=1000 genomeSize=100m batMemory=200 -pacbio-hifi read.fa”參數(shù)運行HiCanu。作者將綿羊A的“基因組大小”參數(shù)增加到了1000m,并得到了相同的結果。作者用“flye --pacbio-hifi read.fa --plasmid --meta”參數(shù)運行了metaFlye。記錄hifiasm-meta和metaFlye組裝時間和峰值內(nèi)存使用量。同時,作者使用腳本(https://gist.github.com/xfengnefx/d4abf19de8ebae9cc8ccd56e9898604d)來檢查/proc/ID/status文件來衡量HiCanu的性能。對于其他的一般文件操作,作者使用了seqtk(https://github.com/lh3/seqtk,1.3-r107-dirty),readfq.py(https://github.com/lh3/readfq,7c04ce7),GNU Parallel和SAMtools等軟件。 ⑥ 宏基因組分箱 作者使用了MetaBAT2進行初始分箱,然后對MetaBAT2結果進行后續(xù)處理以獲得最終的MAG。作者使用“minimap2 -ak19 -w10 -I10G -g5k -r2k --lj-min-ratio 0.5 -A2 -B5 -O5,56 -E4,1 -z400,50 contigs.fa read.fa”方法將原始數(shù)據(jù)對齊到了組裝數(shù)據(jù)集種,并使用“jgi_summa_rsize_bam_contig_depths --outputDepth depth.txt input.bam”計算了組裝基因組的測序深度,同時,使用“metabat2 --seed 2 -i contigs.fa -a depth.txt”運行 MetaBAT1。作者也嘗試了不同的隨機種子或“-s 500000”參數(shù),并得到了類似的結果。作者僅將MetaBAT2應用于主要的hifiasm-meta和HiCanu組件。在 MetaBAT2 分箱后,如果將 1 Mb 或更長的閉環(huán)重疊群與其他重疊群分箱在一起,作者將拆分它為一個單獨的MAG。 ⑦ 評估模擬宏基因組文庫的組裝結果 為了評估組裝的質(zhì)量,作者將帶有“minimap2 -cxasm20”的重疊群映射到參考基因組,并檢查了比對的結構變化。在從兩個模擬群落組裝的22個閉環(huán)hifiasm-meta重疊群中,除了一個鏈球菌變種外,有21個與參考一致。對于這個基因組,hifiasm-meta引入了一個20 kb的缺失,該缺失得到了一小部分對齊的讀長的支持,這表明這是菌群中真實但罕見的等位基因。 在重疊群與參考序列的比對中,作者觀察到每個基因組有數(shù)千個堿基的錯配和缺失。而HiFi的組裝結果之間的差異數(shù)量要少得多。例如,對于腦膜炎奈瑟菌,hifiasm-meta重疊群和參考基因組之間存在6090個小差異,但hifiasm-meta和HiCanu重疊群之間只有兩個小的堿基對差異。我們懷疑這6090個差異中的大多數(shù)可能是參考基因組中的常見錯誤。 ⑧ 評估宏基因組組裝 作者運行了CheckM v.1.1.3來評估MAGs的完整性和污染水平。命令行是 “checkm lineage_wf -x fa input/ wd/;Checkm qa -o 2 wd/lineage.ms”。作者還嘗試了DAS Tool用于對 sheepA 數(shù)據(jù)集進行評估。與CheckM相比,DAS Tool的結果更加樂觀,識別出的接近完成的MAGs比CheckM多 22%。由于CheckM更常用于評估,因此作者僅將CheckM應用于所有的組裝數(shù)據(jù)集。此外,對于綿羊B數(shù)據(jù),yak QV用于評估重疊群的正確性。 作者使用GTDB-Tk v.1.3.0及其數(shù)據(jù)庫版本r95通過命令“gtdbtk classify_wf”進行系統(tǒng)發(fā)育樹構建。作者注釋了樹并使用GraPhlAn進行了可視化。 作者使用了INFERNAL從重疊群中鑒定rRNA和tRNA。命令行是“cmscan –cut_ga –rfam –nohmmonly –fmt 2 –tblout cmscan.table Rfam.cm in.fa”。E 值大于 0.01的條目被刪除。在本文中,由hifiasm-meta組裝的733個長的閉環(huán)重疊群中共有738個具有完整的RNA,即所有三種類型的rRNA至少有一個全長拷貝,以及至少18個tRNA具有完整長度。 報告摘要 有關研究設計的更多信息,請參閱本文鏈接的《自然研究報告摘要》。 數(shù)據(jù)公開 表1展示了來自NCBI原始數(shù)據(jù)數(shù)據(jù)庫(SRA)的HiFi數(shù)據(jù)。所有生成的組裝結果和圖形的基礎數(shù)據(jù)都可以在https:///record/6330282 上找到。 ZymoBIOMICS模擬參考基因組是從https://s3./zymo-files/BioPool/D6331.refseq.zip下載的。 ATCC模擬菌群中的參考基因組可在https://www./products/msa-1003 獲得。 CheckM數(shù)據(jù)庫: https://data.ace./public/CheckM_databases/checkm_data_2015_01_16.tar.gz。 GTDB-Tk 數(shù)據(jù)庫: https://data.ace./public/gtdb/data/releases/release95/95.0/auxillary_files/。 代碼公開 Hifiasm-meta的源代碼可在 https://github.com/xfengnefx/hifiasm-meta 獲得。 參考文獻 Feng, X., Cheng, H., Portik, D. et al. Metagenome assembly of high-fidelity long reads with hifiasm-meta. Nat Methods 19, 671–674 (2022). https:///10.1038/s41592-022-01478-3 - 第一作者簡介 - 哈佛大學醫(yī)學院Dana-Farber癌癥研究所 Xiaowen Feng 博后 第一作者:Xiaowen Feng,哈佛大學醫(yī)學院Dana-Farber癌癥研究所博后,主要做三代組裝算法的開發(fā)。目前以第一作者發(fā)表了1篇Nature Methods,1篇Molecular Biology and Evolution。 - 通訊作者簡介 - 哈佛大學醫(yī)學院Dana-Farber癌癥研究所 李恒 副教授 通訊作者:李恒,哈佛大學醫(yī)學院,Dana-Farber癌癥研究所副教授。于南京大學獲得物理學學士學位,并于2006年在中國科學院理論物理研究所獲得理論生物物理學博士學位。曾在威康桑格研究所(Wellcome Trust Sanger Institute)做博士后,2009年開始在博德研究所(Broad Institute)工作。于2018年加入Dana-Faber癌癥研究所和哈佛醫(yī)學院。主要研究方向為利用先進的計算方法來分析大規(guī)模的生物序列數(shù)據(jù),并解決生物醫(yī)學研究中的實際問題。個人主頁:(https://www./find-a-doctor/heng-li/) |
|