本文由微科盟phage根據(jù)實(shí)踐經(jīng)驗(yàn)而整理,希望對(duì)大家有幫助。
微科盟原創(chuàng)微文,歡迎轉(zhuǎn)發(fā)轉(zhuǎn)載,轉(zhuǎn)載須注明來(lái)源《微生態(tài)》公眾號(hào)。 隨著測(cè)序成本的大幅降低和計(jì)算方法的發(fā)展,越來(lái)越多的的單個(gè)物種的基因組從宏基因組序列分離和鑒定出來(lái),在上一章中,通過(guò)MetaBAT從宏基因組數(shù)據(jù)中分離了若干個(gè)bins,但是對(duì)于這些bins的完整性和污染度還缺乏相應(yīng)的評(píng)估,ChecM是一款使用廣泛的標(biāo)記基因評(píng)估基因組質(zhì)量的自動(dòng)化方法,CheckM提供了一套工具,用于評(píng)估從分離株,單細(xì)胞或宏基因組中回收的基因組的質(zhì)量。利用系統(tǒng)發(fā)育中的Marker基因?qū)蚪M完整性和污染進(jìn)行了強(qiáng)有力的估計(jì)。目前CheckM的版本為CheckM v1.1.3。 引用CheckM:Parks DH, Imelfort M, Skennerton CT, Hugenholtz P, Tyson GW. 2014. Assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes. Genome Research, 25: 1043-1055. ChecM的官網(wǎng)、下載地址說(shuō)明文檔如下: 官方主頁(yè):https://ecogenomics./CheckM/ 下載地址:https://github.com/Ecogenomics/CheckM 說(shuō)明文檔:https://github.com/Ecogenomics/CheckM/wiki。 注:本文配套的Binning數(shù)據(jù)可聯(lián)系您所添加的微科盟組學(xué)老師免費(fèi)領(lǐng)取,若從未添加過(guò)任一組學(xué)老師請(qǐng)聯(lián)系微文下方的組學(xué)老師,請(qǐng)勿重復(fù)添加~圖2 如果前面的都沒(méi)有運(yùn)行出來(lái)可以聯(lián)系組學(xué)老師免費(fèi)獲得binning數(shù)據(jù)。 CheckM的安裝主要可以通過(guò)pip安裝和conda安裝。前面在宏基因組專(zhuān)題(2)中已經(jīng)介紹了conda的相關(guān)安裝和使用。pip的安裝和使用教程如下:通過(guò)pip –version 查看電腦是否安裝了pip程序如果你還未安裝,則可以使用以下方法來(lái)安裝:curl https://bootstrap./get-pip.py -o get-pip.py # 下載安裝腳本sudo python get-pip.py # 運(yùn)行安裝腳本CheckM依賴(lài)以下幾個(gè)軟件,首先要保證下面幾個(gè)軟件達(dá)到相應(yīng)的版本要求prodigal (2.60 or >=2.6.1)如果沒(méi)有安裝好這幾個(gè)軟件或者沒(méi)有達(dá)到版本要求,可以使用以下命令進(jìn)行安裝相應(yīng)軟件CheckM >=1.1.0 是一個(gè) Python 3.x 程序,可以使用python自帶的pip安裝工具進(jìn)行安裝pip3 install checkm-genomeconda install -c bioconda checkm-genome #使用bioconda的管道進(jìn)行下載CheckM 依賴(lài)于marker基因的數(shù)據(jù)庫(kù)文件,這些文件可以從https://data.ace./public/CheckM_databases/下載。將文件解壓縮到適當(dāng)?shù)奈募A并運(yùn)行以下命令以設(shè)置 CheckM 數(shù)據(jù)庫(kù)文件checkm data setRoot <checkm_data_dir> CheckMCheckM 在2020年7月對(duì)數(shù)據(jù)庫(kù)進(jìn)行了一次補(bǔ)充,用于對(duì)CPR(candidate phyla radiation)基因組的質(zhì)量評(píng)估。評(píng)估CPR的來(lái)源于2015年《Nature》雜志發(fā)表的Unusual biology across a group comprising more than 15% of domain Bacteria. Brown et al.識(shí)別了43個(gè)用于評(píng)估CPR基因組質(zhì)量的Marker基因,大大增加了CRP基因組完整性評(píng)估的準(zhǔn)確性。checkm lineage_wf -t 2 -x fasta ./ output -x 輸入文件的類(lèi)型 這里是fasta文件格式CheckM運(yùn)行簡(jiǎn)化為一條命令:checkm taxonomy_wf <rank> <taxon> <bin folder> <output folder>如果自行指定基因marker,使用HMMER提供的隱馬爾科夫模型構(gòu)建同源關(guān)系來(lái)進(jìn)行分析。checkm analyze <custom HMM file> <bin folder> <output folder>checkm qa <custom HMM file> <output folder>運(yùn)行結(jié)束后生成的結(jié)果文件中包含bins的名稱(chēng)、基因組基因數(shù)目、marker基因數(shù)目、完整度、污染度等信息,如下所示:圖3
可以使用以下命令對(duì)結(jié)果進(jìn)行可視化checkm bin_qa_plot --image_type pdf -x fa bins_qa_result metabat_bins checkm_qa_plots其中,不同的顏色分別代表單拷貝、丟失、雜合與污染的marker基因,每一個(gè)bar代表一個(gè)marker,多拷貝基因之間氨基酸匹配(amino acid identity,AAI)大于90%被認(rèn)為是雜合的,而AAI小于90%被認(rèn)為是其他物種污染。使用CheckM評(píng)估完bins的完整性和污染度后,下一章節(jié),我們將使用最新的Metaphlan3對(duì)宏基因組的物種組成進(jìn)行分類(lèi)。MetaPhlAn是一種物種注釋工具,可從宏基因組鳥(niǎo)槍測(cè)序數(shù)據(jù)(即非16S)中分析微生物群落(細(xì)菌,古細(xì)菌和真核生物)的組成。盡情期待!本文來(lái)源于微生態(tài)原創(chuàng)作者phage,僅用于學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪除!
|