小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

宏基因組分析專(zhuān)題(6):CheckM 對(duì)宏基因組分箱結(jié)果進(jìn)行評(píng)估

 微生態(tài) 2021-12-01

本文由微科盟phage根據(jù)實(shí)踐經(jīng)驗(yàn)而整理,希望對(duì)大家有幫助。

微科盟原創(chuàng)微文,歡迎轉(zhuǎn)發(fā)轉(zhuǎn)載,轉(zhuǎn)載須注明來(lái)源《微生態(tài)》公眾號(hào)。

寫(xiě)在前面


隨著測(cè)序成本的大幅降低和計(jì)算方法的發(fā)展,越來(lái)越多的的單個(gè)物種的基因組從宏基因組序列分離和鑒定出來(lái),在上一章中,通過(guò)MetaBAT從宏基因組數(shù)據(jù)中分離了若干個(gè)bins,但是對(duì)于這些bins的完整性和污染度還缺乏相應(yīng)的評(píng)估,ChecM是一款使用廣泛的標(biāo)記基因評(píng)估基因組質(zhì)量的自動(dòng)化方法,CheckM提供了一套工具,用于評(píng)估從分離株,單細(xì)胞或宏基因組中回收的基因組的質(zhì)量。利用系統(tǒng)發(fā)育中的Marker基因?qū)蚪M完整性和污染進(jìn)行了強(qiáng)有力的估計(jì)。目前CheckM的版本為CheckM v1.1.3。

引用CheckM:Parks DH, Imelfort M, Skennerton CT, Hugenholtz P, Tyson GW. 2014. Assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes. Genome Research, 25: 1043-1055.

ChecM的官網(wǎng)、下載地址說(shuō)明文檔如下:

官方主頁(yè):https://ecogenomics./CheckM/

下載地址:https://github.com/Ecogenomics/CheckM

說(shuō)明文檔:https://github.com/Ecogenomics/CheckM/wiki。

注:本文配套的Binning數(shù)據(jù)可聯(lián)系您所添加的微科盟組學(xué)老師免費(fèi)領(lǐng)取,若從未添加過(guò)任一組學(xué)老師請(qǐng)聯(lián)系微文下方的組學(xué)老師,請(qǐng)勿重復(fù)添加~

圖1

安裝和使用

一、使用數(shù)據(jù):
使用在上一章得到的8條bins:

圖2

如果前面的都沒(méi)有運(yùn)行出來(lái)可以聯(lián)系組學(xué)老師免費(fèi)獲得binning數(shù)據(jù)。

二、CheckM的安裝
CheckM的安裝主要可以通過(guò)pip安裝和conda安裝。前面在宏基因組專(zhuān)題(2)中已經(jīng)介紹了conda的相關(guān)安裝和使用。pip的安裝和使用教程如下:
通過(guò)pip –version 查看電腦是否安裝了pip程序如果你還未安裝,則可以使用以下方法來(lái)安裝:
curl https://bootstrap./get-pip.py -o get-pip.py   # 下載安裝腳本
sudo python get-pip.py    # 運(yùn)行安裝腳本
 
2.1 安裝CheckM 
2.1.1 安裝前準(zhǔn)備
CheckM依賴(lài)以下幾個(gè)軟件,首先要保證下面幾個(gè)軟件達(dá)到相應(yīng)的版本要求
HMMER (>=3.1b1)
prodigal (2.60 or >=2.6.1)
pplacer (>=1.1)
如果沒(méi)有安裝好這幾個(gè)軟件或者沒(méi)有達(dá)到版本要求,可以使用以下命令進(jìn)行安裝相應(yīng)軟件
conda install HMMER
conda install prodigal
conda install pplcer
 
2.1.2 pip安裝CheckM
CheckM >=1.1.0 是一個(gè) Python 3.x 程序,可以使用python自帶的pip安裝工具進(jìn)行安裝
pip3 install numpy
pip3 install matplotlib
pip3 install pysam
pip3 install checkm-genome

2.1.3 conda 安裝CheckM
conda install -c bioconda checkm-genome #使用bioconda的管道進(jìn)行下載
 
三、數(shù)據(jù)庫(kù)的下載
CheckM 依賴(lài)于marker基因的數(shù)據(jù)庫(kù)文件,這些文件可以從https://data.ace./public/CheckM_databases/下載。將文件解壓縮到適當(dāng)?shù)奈募A并運(yùn)行以下命令以設(shè)置 CheckM 數(shù)據(jù)庫(kù)文件
checkm data setRoot <checkm_data_dir> CheckM
CheckM 在2020年7月對(duì)數(shù)據(jù)庫(kù)進(jìn)行了一次補(bǔ)充,用于對(duì)CPR(candidate phyla radiation)基因組的質(zhì)量評(píng)估。評(píng)估CPR的來(lái)源于2015年《Nature》雜志發(fā)表的Unusual biology across a group comprising more than 15% of domain Bacteria. Brown et al.識(shí)別了43個(gè)用于評(píng)估CPR基因組質(zhì)量的Marker基因,大大增加了CRP基因組完整性評(píng)估的準(zhǔn)確性。
 
四、CheckM的運(yùn)行
checkm lineage_wf -t 2 -x fasta ./ output  
-x 輸入文件的類(lèi)型  這里是fasta文件格式
./ 是輸入文件的當(dāng)前文件
output為定義輸出的文件路徑
CheckM運(yùn)行簡(jiǎn)化為一條命令:checkm taxonomy_wf <rank> <taxon> <bin folder> <output folder>
如果自行指定基因marker,使用HMMER提供的隱馬爾科夫模型構(gòu)建同源關(guān)系來(lái)進(jìn)行分析。
checkm analyze <custom HMM file> <bin folder> <output folder>
checkm qa <custom HMM file> <output folder>
 
五、CheckM的運(yùn)行結(jié)果
運(yùn)行結(jié)束后生成的結(jié)果文件中包含bins的名稱(chēng)、基因組基因數(shù)目、marker基因數(shù)目、完整度、污染度等信息,如下所示:

圖3

可以使用以下命令對(duì)結(jié)果進(jìn)行可視化
checkm bin_qa_plot --image_type pdf -x fa bins_qa_result metabat_bins checkm_qa_plots

圖4
其中,不同的顏色分別代表單拷貝、丟失、雜合與污染的marker基因,每一個(gè)bar代表一個(gè)marker,多拷貝基因之間氨基酸匹配(amino acid identity,AAI)大于90%被認(rèn)為是雜合的,而AAI小于90%被認(rèn)為是其他物種污染。

六、寫(xiě)在最后
使用CheckM評(píng)估完bins的完整性和污染度后,下一章節(jié),我們將使用最新的Metaphlan3對(duì)宏基因組的物種組成進(jìn)行分類(lèi)。MetaPhlAn是一種物種注釋工具,可從宏基因組鳥(niǎo)槍測(cè)序數(shù)據(jù)(即非16S)中分析微生物群落(細(xì)菌,古細(xì)菌和真核生物)的組成。盡情期待!

本文來(lái)源于微生態(tài)原創(chuàng)作者phage,僅用于學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪除!


    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多