數(shù)據(jù)挖掘TCGA

生活就是流水賬 2020-07-14

展開全文

TCGA是什么？

由美國(guó)05年發(fā)起的癌癥和腫瘤基因圖譜（TCGA)計(jì)劃，旨在應(yīng)用基因組分析技術(shù)研究癌癥中的基因組變化，做了大規(guī)模的基因組測(cè)序，樣本量過萬，包含了三十多種癌癥，其中尤其寶貴的是這些樣本都有很詳細(xì)的預(yù)后隨訪信息，08年出了第一篇文章，之后陸陸續(xù)續(xù)各種大文章出來。

數(shù)據(jù)及類型匯總

TCGA包含了哪些數(shù)據(jù)？

1、臨床樣本信息：Biospecimen、Clinical

2、測(cè)序數(shù)據(jù)：主要采用了RNA-Seq、WXS、miRNA-Seq、Genotyping

Array、Methylation Array這五種方式對(duì)樣本進(jìn)行測(cè)序。

對(duì)測(cè)序數(shù)據(jù)按照一定的分析程度進(jìn)行分層，共分為四層：level1、level2、level3、level4，按照不同的層次的數(shù)據(jù)提供給科研人員使用，level3、level4的數(shù)據(jù)一般都開放下載的，level1是最原始的數(shù)據(jù)，level2是做了進(jìn)一步的處理的這些數(shù)據(jù)一般是不開放的，需要申請(qǐng)才能下載（申請(qǐng)也挺難）。

TCGA中的RNA-Seq數(shù)據(jù)

顧名思義就是轉(zhuǎn)錄組測(cè)序

·TCGA上的轉(zhuǎn)錄組數(shù)據(jù)采用的是全轉(zhuǎn)錄組測(cè)序，其中包含了各種非編碼RNA，所以一般下載的RNA-Seq數(shù)據(jù)中包含了lncRNA、mRNA、假基因等等；

·目前可以公開下載的是RNA-Seq定量表達(dá)數(shù)據(jù)，主要三種形式：HT-Seq-FPKM，HT-Seq-UQ-FPKM，HT-Seq-Counts；

TCGA用的gff文件是gencode.v22.annotation.gtf

名詞解釋

·FPKM：用來衡量轉(zhuǎn)錄本表達(dá)豐度的一種量度方式；

·Counts：測(cè)序的reads中比對(duì)到某個(gè)基因上的計(jì)數(shù)；

·UQ-FPKM：通過上四分位點(diǎn)進(jìn)行標(biāo)準(zhǔn)化后的FPKM；

·gff文件：用來描述基因組上各種基因、轉(zhuǎn)錄本等信息的文件。

TCGA中的miRNA-Seq數(shù)據(jù)

·miRNA：miRNA

是一類由內(nèi)源基因編碼的長(zhǎng)度約為22 個(gè)核苷酸的非編碼單鏈RNA分子，生物中非常重要的一類非編碼小RNA，其在生物體的調(diào)控中具有非常重要的作用，在人中大約三分之一的基因受到miRNA的調(diào)控；

·TCGA提供了miRNA-Seq的測(cè)序數(shù)據(jù)結(jié)果，采用的數(shù)據(jù)庫背景為miRBase v21；

·目前公開提供下載的數(shù)據(jù)主要有兩種：miRNA

Expression Quantification、Isoform Expression Quantification，其中Isoform Expression Quantification數(shù)據(jù)中包含了成熟體miRNA；

·分別提供了Counts和FPKM格式的定量數(shù)據(jù)。

名詞解釋

·pre-miRNA：前體miRNA，長(zhǎng)度大約為70~90個(gè)堿基；pre-miRNA再經(jīng)過Dicer酶酶切后，成為長(zhǎng)約20~24nt的成熟miRNA；

·miRNA：成熟體miRNA，長(zhǎng)度約20~24nt，由多種前體miRNA發(fā)展而來；

·miRNA與靶基因的關(guān)系：一般miRNA調(diào)控靶基因，降低基因的表達(dá)。

TCGA中的甲基化數(shù)據(jù)

·DNA甲基化能引起染色質(zhì)結(jié)構(gòu)、DNA構(gòu)象、DNA穩(wěn)定性及DNA與蛋白質(zhì)相互作用方式的改變，從而控制基因表達(dá)；

·TCGA提供了甲基化芯片數(shù)據(jù)，主要有兩種一種是450k的，一種是27k的，一般450k的最為常用，數(shù)據(jù)主要以cpg位點(diǎn)為單位，一般我們認(rèn)為在基因啟動(dòng)子區(qū)域上的甲基化對(duì)該基因的表達(dá)會(huì)產(chǎn)生影響；

·目前TCGA提供的公開下載的甲基化數(shù)據(jù)主要為level3的CpG位點(diǎn)的甲基化水平的數(shù)據(jù)。

名詞解釋

CpG位點(diǎn)：DNA序列上堿基為C或者G的位點(diǎn)，一般公認(rèn)的甲基化只會(huì)發(fā)生在CpG位點(diǎn)上。

·基因啟動(dòng)子區(qū)域：目前基因啟動(dòng)子區(qū)域沒有統(tǒng)一的說法，一般我們認(rèn)為基因的TSS的上游2kb到下游500bp之間。

·CpG島：目前沒有金標(biāo)準(zhǔn)，一般認(rèn)為CpG位點(diǎn)顯著聚集的區(qū)域稱之為CpG島，CpG島區(qū)域往往整體甲基化水平較低。常出現(xiàn)在基因的啟動(dòng)子區(qū)域和外顯子區(qū)域。

·甲基化與基因的關(guān)系：基因啟動(dòng)子區(qū)域的高甲基化將影響其下游基因的表達(dá)，呈負(fù)相關(guān)。

TCGA中的臨床信息

·TCGA中提供了豐富的臨床隨訪信息，其中包括用藥、復(fù)發(fā)、年齡、生存等等共包含了一百多項(xiàng)。

·TCGA提供的臨床信息數(shù)據(jù)格式為xml，使用極不方便，需要手動(dòng)提取。

·常用的臨床信息主要有：

1、年齡

2、性別

3、T N M Stage Grade

4、復(fù)發(fā) 復(fù)發(fā)時(shí)間

5、總生存期

TCGA的樣本命名

·TCGA對(duì)每一個(gè)病人都有一個(gè)單獨(dú)的ID如TCGA-02-0001，這個(gè)ID在TCGA數(shù)據(jù)庫中都是通用的，根據(jù)這個(gè)ID，在不同類型的數(shù)據(jù)中我們能夠找到同一個(gè)病人的，其中包括臨床隨訪信息。

·Sample：病人的不同的采樣部位有著不同的編碼，比如01表示癌組織，10表示癌旁組織，一般01到09表示腫瘤部位，10及以上表示正常對(duì)照。

·vial表示組織的順序，A、B、C、D；比如B表示石蠟包埋組織。

·Portion表示同一組織不同的組分；

·Analyte表示分析的分子類型，D表示DNA；

·Plate表示孔板順序，0182表示96孔板；

·Center表示檢測(cè)中心。

TCGA數(shù)據(jù)的下載

·TCGA官方提供了gdc_client下載工具，通過gdc_client下載工具能下載TCGA公開的數(shù)據(jù)，但是下載的數(shù)據(jù)是單個(gè)樣本的，需要自己手動(dòng)合并。

·TCGA官方提供了gdc_api來進(jìn)行數(shù)據(jù)下載，大多數(shù)第三方的包都是基于gdc_api的，比如R包TCGAbiolinks、生信人簡(jiǎn)易下載工具。

·第三方數(shù)據(jù)庫提供的數(shù)據(jù)下載比如GDAC的Firehose，UCSC的Cancer browser。

·下載難度系數(shù)：gdc_client>TCGAbiolinks>Firehose>桑格助手>UCSC

·使用靈活性：gdc_client>桑格助手>TCGAbiolinks>Firehose>UCSC

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：生活就是流水賬 > 《數(shù)據(jù)挖掘》

舉報(bào)/認(rèn)領(lǐng)