NCBI官方基因組坐標(biāo)轉(zhuǎn)換工具本文轉(zhuǎn)載自網(wǎng)上教程 (1) Remap基本介紹 直接貼上網(wǎng)址:(http://www.ncbi.nlm./genome/tools/remap)。打開之后直接來到“Assembly-Assembly”菜單,如圖1 image.png 該菜單下面包含三個(gè)數(shù)據(jù)選擇框:Genome Information; Remapping Options; Data. 首先需要在Genome Information下面選擇物種信息和需要轉(zhuǎn)換的基因組版本。這里需要說明的是直接點(diǎn)擊空白框不會(huì)出現(xiàn)下拉菜單,需要先輸入索引詞,比如我要轉(zhuǎn)換的基因組來自人類,就先輸入”Homo”, 就可以看到想要的結(jié)果。接下來就是在”Source Assembly”和”Target Assembly”中分別選擇當(dāng)前基因組版本和目標(biāo)基因版本。這里我們以GRCh37.p13轉(zhuǎn)換到GRCh38.p7為例 (目前NCBI dbSNP數(shù)據(jù)庫僅保存這兩個(gè)版本的基因組坐標(biāo))。如圖2,選中對(duì)應(yīng)坐標(biāo),點(diǎn)擊即可。 image.png 接下來的”Remapping Options”只要使用默認(rèn)參數(shù)即可,無需進(jìn)行更改。 (2)Remap數(shù)據(jù)輸入格式 最關(guān)鍵的是最后一步”Data”的選擇。主要有兩個(gè)注意事項(xiàng):數(shù)據(jù)輸入格式和數(shù)據(jù)文件的制作。網(wǎng)站中提供的數(shù)據(jù)輸入格式有很多,但我這里推薦使用”BED”類型格式輸入。”BED”文件格式有專門的網(wǎng)站介紹,因?yàn)樵摳袷侥鼙缓芏嗌跑浖R(shí)別,讀者可以參考UCSC網(wǎng)站對(duì)其的具體說明(https://genome./FAQ/FAQformat.html#format1)。簡(jiǎn)單來說,”BED”文件只包含三列即可:Chromosome, Start position, end position. 對(duì)于SNP來說,它的位置只有一個(gè),如rs782212的GRCh37.p13位置為chromosome 1,72945666。那么該如何在BED文件中存儲(chǔ)它的位置呢?對(duì)于SNP,Remap的規(guī)則是在”end position”中存放對(duì)應(yīng)位置,”start position” 只需在”end position”基礎(chǔ)上減去1即可。其他類型的突變,只需傳入有chr,start,end 的bed文件或這輸入坐標(biāo)即可,如圖3: image.png 點(diǎn)擊”Submit”后,等待頁面自動(dòng)更新后即可出現(xiàn)結(jié)果頁面,如圖4。 image.png (3)Remap結(jié)果展示 我們可以以Excel的格式下載結(jié)果文件,點(diǎn)擊”Download Full Mapping Report”即可。Remap給出的結(jié)果十分豐富,每一個(gè)input在輸出的文件里存儲(chǔ)一行,前12列以”source”開頭的是坐標(biāo)轉(zhuǎn)換之前的信息,后面6列以”mapped”等開頭的是轉(zhuǎn)換后的信息,其中”mapped_id”, “mapped_start”和”mapped_stop”是我們需要的關(guān)鍵信息。 image.png |
|