TCGA是什么? 由美國(guó)05年發(fā)起的癌癥和腫瘤基因圖譜(TCGA)計(jì)劃,旨在應(yīng)用基因組分析技術(shù)研究癌癥中的基因組變化,做了大規(guī)模的基因組測(cè)序,樣本量過萬,包含了三十多種癌癥,其中尤其寶貴的是這些樣本都有很詳細(xì)的預(yù)后隨訪信息,08年出了第一篇文章,之后陸陸續(xù)續(xù)各種大文章出來。 數(shù)據(jù)及類型匯總 數(shù)據(jù)及類型匯總 TCGA包含了哪些數(shù)據(jù)? 1、臨床樣本信息:Biospecimen、Clinical 2、測(cè)序數(shù)據(jù):主要采用了RNA-Seq、WXS、miRNA-Seq、Genotyping Array、Methylation Array這五種方式對(duì)樣本進(jìn)行測(cè)序。 對(duì)測(cè)序數(shù)據(jù)按照一定的分析程度進(jìn)行分層,共分為四層:level1、level2、level3、level4,按照不同的層次的數(shù)據(jù)提供給科研人員使用,level3、level4的數(shù)據(jù)一般都開放下載的,level1是最原始的數(shù)據(jù),level2是做了進(jìn)一步的處理的這些數(shù)據(jù)一般是不開放的,需要申請(qǐng)才能下載(申請(qǐng)也挺難)。 TCGA中的RNA-Seq數(shù)據(jù) 顧名思義就是轉(zhuǎn)錄組測(cè)序 ·TCGA上的轉(zhuǎn)錄組數(shù)據(jù)采用的是全轉(zhuǎn)錄組測(cè)序,其中包含了各種非編碼RNA,所以一般下載的RNA-Seq數(shù)據(jù)中包含了lncRNA、mRNA、假基因等等; ·目前可以公開下載的是RNA-Seq定量表達(dá)數(shù)據(jù),主要三種形式:HT-Seq-FPKM,HT-Seq-UQ-FPKM,HT-Seq-Counts; TCGA用的gff文件是gencode.v22.annotation.gtf 名詞解釋 ·FPKM:用來衡量轉(zhuǎn)錄本表達(dá)豐度的一種量度方式; ·Counts:測(cè)序的reads中比對(duì)到某個(gè)基因上的計(jì)數(shù); ·UQ-FPKM:通過上四分位點(diǎn)進(jìn)行標(biāo)準(zhǔn)化后的FPKM; ·gff文件:用來描述基因組上各種基因、轉(zhuǎn)錄本等信息的文件。 TCGA中的miRNA-Seq數(shù)據(jù) ·miRNA:miRNA 是一類由內(nèi)源基因編碼的長(zhǎng)度約為22 個(gè)核苷酸的非編碼單鏈RNA分子,生物中非常重要的一類非編碼小RNA,其在生物體的調(diào)控中具有非常重要的作用,在人中大約三分之一的基因受到miRNA的調(diào)控; ·TCGA提供了miRNA-Seq的測(cè)序數(shù)據(jù)結(jié)果,采用的數(shù)據(jù)庫背景為miRBase v21; ·目前公開提供下載的數(shù)據(jù)主要有兩種:miRNA Expression Quantification、Isoform Expression Quantification,其中Isoform Expression Quantification數(shù)據(jù)中包含了成熟體miRNA; ·分別提供了Counts和FPKM格式的定量數(shù)據(jù)。 名詞解釋 ·pre-miRNA:前體miRNA,長(zhǎng)度大約為70~90個(gè)堿基;pre-miRNA再經(jīng)過Dicer酶酶切后,成為長(zhǎng)約20~24nt的成熟miRNA; ·miRNA:成熟體miRNA,長(zhǎng)度約20~24nt,由多種前體miRNA發(fā)展而來; ·miRNA與靶基因的關(guān)系:一般miRNA調(diào)控靶基因,降低基因的表達(dá)。 TCGA中的甲基化數(shù)據(jù) ·DNA甲基化能引起染色質(zhì)結(jié)構(gòu)、DNA構(gòu)象、DNA穩(wěn)定性及DNA與蛋白質(zhì)相互作用方式的改變,從而控制基因表達(dá); ·TCGA提供了甲基化芯片數(shù)據(jù),主要有兩種一種是450k的,一種是27k的,一般450k的最為常用,數(shù)據(jù)主要以cpg位點(diǎn)為單位,一般我們認(rèn)為在基因啟動(dòng)子區(qū)域上的甲基化對(duì)該基因的表達(dá)會(huì)產(chǎn)生影響; ·目前TCGA提供的公開下載的甲基化數(shù)據(jù)主要為level3的CpG位點(diǎn)的甲基化水平的數(shù)據(jù)。 名詞解釋 CpG位點(diǎn):DNA序列上堿基為C或者G的位點(diǎn),一般公認(rèn)的甲基化只會(huì)發(fā)生在CpG位點(diǎn)上。 ·基因啟動(dòng)子區(qū)域:目前基因啟動(dòng)子區(qū)域沒有統(tǒng)一的說法,一般我們認(rèn)為基因的TSS的上游2kb到下游500bp之間。 ·CpG島:目前沒有金標(biāo)準(zhǔn),一般認(rèn)為CpG位點(diǎn)顯著聚集的區(qū)域稱之為CpG島,CpG島區(qū)域往往整體甲基化水平較低。常出現(xiàn)在基因的啟動(dòng)子區(qū)域和外顯子區(qū)域。 ·甲基化與基因的關(guān)系:基因啟動(dòng)子區(qū)域的高甲基化將影響其下游基因的表達(dá),呈負(fù)相關(guān)。 TCGA中的臨床信息 ·TCGA中提供了豐富的臨床隨訪信息,其中包括用藥、復(fù)發(fā)、年齡、生存等等共包含了一百多項(xiàng)。 ·TCGA提供的臨床信息數(shù)據(jù)格式為xml,使用極不方便,需要手動(dòng)提取。 ·常用的臨床信息主要有: 1、年齡 2、性別 3、T N M Stage Grade 4、復(fù)發(fā) 復(fù)發(fā)時(shí)間 5、總生存期 TCGA的樣本命名 ·TCGA對(duì)每一個(gè)病人都有一個(gè)單獨(dú)的ID如TCGA-02-0001,這個(gè)ID在TCGA數(shù)據(jù)庫中都是通用的,根據(jù)這個(gè)ID,在不同類型的數(shù)據(jù)中我們能夠找到同一個(gè)病人的,其中包括臨床隨訪信息。 ·Sample:病人的不同的采樣部位有著不同的編碼,比如01表示癌組織,10表示癌旁組織,一般01到09表示腫瘤部位,10及以上表示正常對(duì)照。 ·vial表示組織的順序,A、B、C、D;比如B表示石蠟包埋組織。 ·Portion表示同一組織不同的組分; ·Analyte表示分析的分子類型,D表示DNA; ·Plate表示孔板順序,0182表示96孔板; ·Center表示檢測(cè)中心。 TCGA數(shù)據(jù)的下載 ·TCGA官方提供了gdc_client下載工具,通過gdc_client下載工具能下載TCGA公開的數(shù)據(jù),但是下載的數(shù)據(jù)是單個(gè)樣本的,需要自己手動(dòng)合并。 ·TCGA官方提供了gdc_api來進(jìn)行數(shù)據(jù)下載,大多數(shù)第三方的包都是基于gdc_api的,比如R包TCGAbiolinks、生信人簡(jiǎn)易下載工具。 ·第三方數(shù)據(jù)庫提供的數(shù)據(jù)下載比如GDAC的Firehose,UCSC的Cancer browser。 ·下載難度系數(shù):gdc_client>TCGAbiolinks>Firehose>桑格助手>UCSC ·使用靈活性:gdc_client>桑格助手>TCGAbiolinks>Firehose>UCSC
|
|