小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Microbiome:宏基因組分箱流程MetaWRAP安裝和數(shù)據(jù)庫布置

 生物_醫(yī)藥_科研 2018-12-04

簡介

MetaWRAP這是一套強大的宏基因組分析流程,專注于宏基因組Binning。文章于2018年9月15日發(fā)表于《Microbiome》。文章簡介見參考文獻鏈接。

軟件開源,代碼和教程如下:

https://github.com/bxlab/metaWRAP

工作原理

metaWRAP工作流程

圖中紅色代表分析模塊,綠色代表宏基因組數(shù)據(jù),橙色代表中間文件,藍色代表結(jié)果圖表。

實現(xiàn)原始序列的質(zhì)控、物種注釋和可視化、宏基因組拼接、三種主流Bin方法分析和結(jié)果篩選與可視化、Bin的重新組裝、Bin的物種和功能注釋等。輕松實現(xiàn)Bin相關(guān)分析和可視化的絕大部分需求。

優(yōu)勢


圖2. 基于CAMI人工數(shù)據(jù)集高、中、低數(shù)據(jù)量下,對6款Bin軟件結(jié)果的完整度和污染率進行評估。結(jié)果表明metaWRAP在各種情況下在完整度和污染率方面都表現(xiàn)更優(yōu)秀。

功能模塊

宏基因組數(shù)據(jù)預處理模塊

1) 質(zhì)控Read_QC: read質(zhì)控剪切和移除人類宿主
2) 組裝Assembly: 質(zhì)控、使用megahit或metaSPAdes拼接
3) 物種注釋Kraken: 對reads和contigs層面進行可視化

分箱Bin處理模塊

1) 分箱Binning: 利用MaxBin2, metaBAT2, 和CONCOCT三個軟件分別分箱;
2) 提純Bin_refinement:對多種Bin結(jié)果評估和綜合分析,獲得更好的結(jié)果;
3) 重組裝Reassemble_bins:利用原始序列和評估軟件二次組裝,改善Bin的N50、完整度4) 定量Quant_bins: 估計樣品中每個bin的豐度并熱圖展示
5) 氣泡圖Blobology: blobplots可視化群體的contigs的物種和Bin分布
6) 物種注釋Classify_bins: 對Bin物種注釋
7) 基因注釋Annotate_bins: 預測Bin中的基因

軟件安裝

系統(tǒng)要求

系統(tǒng)要求是由處理的數(shù)據(jù)量決定的。其中一些軟件,如KRAKEN、metaSPAdes對內(nèi)存需求較高,推薦服務器至少8+核,64+GB內(nèi)存,僅支持64位Linux系統(tǒng)。對于300 GB以上數(shù)據(jù)用戶,推薦配置48核,512內(nèi)存或更高。

軟件原作者的教程中參數(shù)使用了96線程和900G內(nèi)存,可以推斷軟件開發(fā)和測試所用服務器至少為96線程和1TB內(nèi)存。

安裝conda

(安過請?zhí)^,詳見- Nature Method:Bioconda解決生物軟件安裝的煩惱)

wget https://repo./miniconda/Miniconda2-latest-Linux-x86_64.shbash Miniconda2-latest-Linux-x86_64.sh

直接安裝——我沒成功,不推薦

此法使用方便,但可能安裝不成功、環(huán)境不滿足要求,或影響其它己安裝程序。

# ORDER IS IMPORTANT!!!conda config --add channels defaultsconda config --add channels conda-forgeconda config --add channels biocondaconda config --add channels urskyconda install -c ursky metawrap-mg

虛擬環(huán)境安裝——推薦

metaWRAP依賴超過140個軟件作為依賴關(guān)系,容易引起與已經(jīng)安裝的軟件沖突。因此強烈推薦使用conda虛擬環(huán)境安裝。

每次使用要進入虛擬環(huán)境,結(jié)果要退出,多兩行代碼;但更安全。

conda create -n metawrap python=2.7source activate metawrap# ORDER IS IMPORTANT!!!conda config --add channels defaultsconda config --add channels conda-forgeconda config --add channels biocondaconda config --add channels urskyconda install -c ursky metawrap-mg

手動安裝——不推薦

當然,如果你不喜歡conda,軟件也可以手動安裝,這樣可以更好的控制你的環(huán)境變量。依賴關(guān)系列表見 https://github.com/bxlab/metaWRAP/blob/master/installation/dependancies.md

不推薦,高手可能需要3-7天,對Linux不熟悉人簡直是不可完成的任務。

數(shù)據(jù)庫配置

conda安裝軟件并不帶數(shù)據(jù)庫,需要手動下載數(shù)據(jù)庫,并設置數(shù)據(jù)庫的位置。

關(guān)于數(shù)據(jù)庫的下載,詳見 https://github.com/bxlab/metaWRAP/blob/master/installation/database_installation.md

主要大小和依賴模塊如下:

DatabaseSizeUsed in module
Checkm1.4GBbinning, bin_refinement, reassemble_bins
KRAKEN192GBkraken
NCBI_nt99GBblobology, classify_bins
NCBI_tax283MBblobology, classify_bins
Indexed hg3834GBread_qc

這里我們安裝數(shù)據(jù)庫到~/db目錄,保證你有權(quán)限,但要保證至少有500GB的空間。請根據(jù)你的情況修改為自己有權(quán)限且空間足夠的位置。

mkdir -p ~/db

CheckM數(shù)據(jù)庫

下載文件276MB,解壓后1.4GB

cd ~/dbmkdir checkmcheckm data setRoot# CheckM will prompt to to chose your storage location...# Now manually download the database:cd checkmwget https://data.ace./public/CheckM_databases/checkm_data_2015_01_16.tar.gztar -xvf *.tar.gzrm *.gz

KRAKEN數(shù)據(jù)庫

下載建索引需要 > 300GB以上空間,完成后占用192GB空間

cd ~/dbmkdir krakenkraken-build --standard --threads 24 --db krakenkraken-build --db kraken --clean

NCBI_nt

41GB,我下載大約12h;解壓后99GB

cd ~/dbmkdir NCBI_nt && cd NCBI_ntwget -c 'ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt.*.tar.gz'for a in nt.*.tar.gz; do tar xzf $a; done

NCBI物種信息

壓縮文件45M,解壓后351M

cd ~/dbmkdir NCBI_taxcd NCBI_taxwget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gztar -xvf taxdump.tar.gz

人類基因組bmt索引

下載人類基因組942M,解壓后合并3.2G,并建索引34GB

mkdir BMTAGGER_INDEXcd BMTAGGER_INDEXwget ftp://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/*fa.gzgunzip *fa.gzcat *fa > hg38.farm chr*.fabmtool -d hg38.fa -o hg38.bitmasksrprism mkindex -i hg38.fa -o hg38.srprism -M 100000

設置數(shù)據(jù)庫位置

配置文件為config-metawrap,使用如下命令查找配置文件位置:

which config-metawrap

查使用vi/vim/gedit等文本編輯器來修改數(shù)據(jù)庫的位置吧

參數(shù)簡介

metaWRAP程序整理了所有的功能模塊,可以獨立運行。運行metaWRAP -h顯示模塊名稱

Usage: metawrap [module] --helpOptions:read_qc        質(zhì)控Raw read QC moduleassembly    組裝Assembly modulebinning        分箱Binning modulebin_refinement    分箱提純Refinement of bins from binning modulereassemble_bins 重裝分箱Reassemble bins using metagenomic readsquant_bins    定量Quantify the abundance of each bin across samplesblobology    可視化Blobology modulekraken        物種注釋KRAKEN module

想查看每個模塊的具體參數(shù),如組裝metawrap assembly -h

Usage: metawrap assembly [options] -1 reads_1.fastq -2 reads_2.fastq -o output_dirOptions:-1 STR          正向序列forward fastq reads-2 STR          反向序列reverse fastq reads-o STR          輸出目錄output directory-m INT          內(nèi)存大小memory in GB (default=10)-t INT          線程number of threads (defualt=1)--use-megahit        assemble with megahit (default)--use-metaspades    assemble with metaspades instead of megahit

詳細使用:見明天使用實戰(zhàn)


Reference

Micribome https://microbiomejournal./articles/10.1186/s40168-018-0541-1

熱心腸日報 https://www./papers/read/1059939857?kf=xread_daily

Microbiome:宏基因組分箱流程MetaWRAP簡介 https://blog.csdn.net/woodcorpse/article/details/83040987

主頁和軟件安裝教程:https://github.com/bxlab/metaWRAP

數(shù)據(jù)庫布署:https://github.com/bxlab/metaWRAP/blob/master/installation/database_installation.md

使用教程:https://github.com/bxlab/metaWRAP/blob/master/Usage_tutorial.md

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多