今天向大家推介一個實用的工具,用來從NCBI的ftp直接下載指定物種范圍的微生物基因組。https://github.com/kblin/ncbi-genome-download/blob/master/README.md比如說,你想下載全部NCBI的refseq的全體細(xì)菌基因組(默認(rèn)是refseq參考序列數(shù)據(jù)庫),默認(rèn)的格式為genbank:ncbi-genome-download bacteria只要genbank數(shù)據(jù)庫的全體真菌基因組(有關(guān)genbank和refseq數(shù)據(jù)庫,請看生信人往期推送):ncbi-genome-download --section genbank fungi全體病毒的fasta序列:ncbi-genome-download --format fasta viral完成且為染色體水平的全體細(xì)菌基因組組裝ncbi-genome-download --assembly-level complete,chromosome bacteria大多數(shù)情況下,我們也許只是要屬于某一個屬或種的基因組。那么我們需要指定明確的分類。ncbi-genome-download--genus'Streptomyces coelicolor,Escherichia coli' bacteria如果你有很多的taxonomy ID,那么可以把它們?nèi)揭粋€文件里:ncbi-genome-download --taxid my_taxids.txt --assembly-level chromosome vertebrate_mammalian讓我們用新冠病毒做個非常簡單的測試。我們在NCBI的Taxonomy數(shù)據(jù)庫(https://www.ncbi.nlm./Taxonomy/)輸入一個名字2019-nCoV,會得到如下界面圖1只有一條結(jié)果,點進(jìn)去:圖2該頁面最下方還顯示了詳細(xì)的物種分類層級圖3新冠病毒屬于冠狀病毒科下面的貝塔冠狀病毒的沙貝病毒亞屬(Sarbecovirus)。我們要著重注意的信息是新冠病毒的物種ID為2697049 (圖2)。接下來,執(zhí)行以下命令:ncbi-genome-download --section genbank --taxid 2697049 viral注意,最后的viral必不可少,因為它告訴程序是在所有病毒里找尋(有個別分屬真核生物和原核生物的物種有相同的屬名)。圖4打開基因組文件夾,就可以看到里面的genbank格式的文件已經(jīng)準(zhǔn)備就緒了。更多參數(shù),大家可以通過—help查閱圖5在該軟件的主頁,有詳細(xì)的安裝和使用說明。圖6 ncbi-genome-download的作者是來自丹麥技術(shù)大學(xué)(Technical University of Denmark)的生物信息學(xué)家Kai Blin。有趣的是,Blin還謙虛地表示,ncbi-genome-download借鑒了英國愛丁堡大學(xué)學(xué)者的程序:http://www./building-a-kraken-database-with-new-ftp-structure-and-no-gi-numbers/:Idea shamelessly stolen from Mick Watson's Kraken downloader scripts that can also be found in Mick's GitHub repo. However, Mick's scripts are specific to actually building a Kraken database (as advertised)。