小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)挖掘TCGA

 生活就是流水賬 2020-07-14
TCGA是什么?
由美國(guó)05年發(fā)起的癌癥和腫瘤基因圖譜(TCGA)計(jì)劃,旨在應(yīng)用基因組分析技術(shù)研究癌癥中的基因組變化,做了大規(guī)模的基因組測(cè)序,樣本量過萬,包含了三十多種癌癥,其中尤其寶貴的是這些樣本都有很詳細(xì)的預(yù)后隨訪信息,08年出了第一篇文章,之后陸陸續(xù)續(xù)各種大文章出來。
數(shù)據(jù)及類型匯總
數(shù)據(jù)及類型匯總
TCGA包含了哪些數(shù)據(jù)?
1、臨床樣本信息:Biospecimen、Clinical
2、測(cè)序數(shù)據(jù):主要采用了RNA-Seq、WXS、miRNA-Seq、Genotyping
Array、Methylation Array這五種方式對(duì)樣本進(jìn)行測(cè)序。
對(duì)測(cè)序數(shù)據(jù)按照一定的分析程度進(jìn)行分層,共分為四層:level1、level2、level3、level4,按照不同的層次的數(shù)據(jù)提供給科研人員使用,level3、level4的數(shù)據(jù)一般都開放下載的,level1是最原始的數(shù)據(jù),level2是做了進(jìn)一步的處理的這些數(shù)據(jù)一般是不開放的,需要申請(qǐng)才能下載(申請(qǐng)也挺難)。
TCGA中的RNA-Seq數(shù)據(jù)
顧名思義就是轉(zhuǎn)錄組測(cè)序
·TCGA上的轉(zhuǎn)錄組數(shù)據(jù)采用的是全轉(zhuǎn)錄組測(cè)序,其中包含了各種非編碼RNA,所以一般下載的RNA-Seq數(shù)據(jù)中包含了lncRNA、mRNA、假基因等等;
·目前可以公開下載的是RNA-Seq定量表達(dá)數(shù)據(jù),主要三種形式:HT-Seq-FPKM,HT-Seq-UQ-FPKM,HT-Seq-Counts;
TCGA用的gff文件是gencode.v22.annotation.gtf
名詞解釋
·FPKM:用來衡量轉(zhuǎn)錄本表達(dá)豐度的一種量度方式;
·Counts:測(cè)序的reads中比對(duì)到某個(gè)基因上的計(jì)數(shù);
·UQ-FPKM:通過上四分位點(diǎn)進(jìn)行標(biāo)準(zhǔn)化后的FPKM;
·gff文件:用來描述基因組上各種基因、轉(zhuǎn)錄本等信息的文件。
TCGA中的miRNA-Seq數(shù)據(jù)
·miRNA:miRNA
是一類由內(nèi)源基因編碼的長(zhǎng)度約為22 個(gè)核苷酸的非編碼單鏈RNA分子,生物中非常重要的一類非編碼小RNA,其在生物體的調(diào)控中具有非常重要的作用,在人中大約三分之一的基因受到miRNA的調(diào)控;
·TCGA提供了miRNA-Seq的測(cè)序數(shù)據(jù)結(jié)果,采用的數(shù)據(jù)庫背景為miRBase v21;
·目前公開提供下載的數(shù)據(jù)主要有兩種:miRNA
Expression Quantification、Isoform Expression Quantification,其中Isoform Expression Quantification數(shù)據(jù)中包含了成熟體miRNA;
·分別提供了Counts和FPKM格式的定量數(shù)據(jù)。
名詞解釋
·pre-miRNA:前體miRNA,長(zhǎng)度大約為70~90個(gè)堿基;pre-miRNA再經(jīng)過Dicer酶酶切后,成為長(zhǎng)約20~24nt的成熟miRNA;
·miRNA:成熟體miRNA,長(zhǎng)度約20~24nt,由多種前體miRNA發(fā)展而來;
·miRNA與靶基因的關(guān)系:一般miRNA調(diào)控靶基因,降低基因的表達(dá)。
TCGA中的甲基化數(shù)據(jù)
·DNA甲基化能引起染色質(zhì)結(jié)構(gòu)、DNA構(gòu)象、DNA穩(wěn)定性及DNA與蛋白質(zhì)相互作用方式的改變,從而控制基因表達(dá);
·TCGA提供了甲基化芯片數(shù)據(jù),主要有兩種一種是450k的,一種是27k的,一般450k的最為常用,數(shù)據(jù)主要以cpg位點(diǎn)為單位,一般我們認(rèn)為在基因啟動(dòng)子區(qū)域上的甲基化對(duì)該基因的表達(dá)會(huì)產(chǎn)生影響;
·目前TCGA提供的公開下載的甲基化數(shù)據(jù)主要為level3的CpG位點(diǎn)的甲基化水平的數(shù)據(jù)。
名詞解釋
CpG位點(diǎn):DNA序列上堿基為C或者G的位點(diǎn),一般公認(rèn)的甲基化只會(huì)發(fā)生在CpG位點(diǎn)上。
·基因啟動(dòng)子區(qū)域:目前基因啟動(dòng)子區(qū)域沒有統(tǒng)一的說法,一般我們認(rèn)為基因的TSS的上游2kb到下游500bp之間。
·CpG島:目前沒有金標(biāo)準(zhǔn),一般認(rèn)為CpG位點(diǎn)顯著聚集的區(qū)域稱之為CpG島,CpG島區(qū)域往往整體甲基化水平較低。常出現(xiàn)在基因的啟動(dòng)子區(qū)域和外顯子區(qū)域。
·甲基化與基因的關(guān)系:基因啟動(dòng)子區(qū)域的高甲基化將影響其下游基因的表達(dá),呈負(fù)相關(guān)。
TCGA中的臨床信息
·TCGA中提供了豐富的臨床隨訪信息,其中包括用藥、復(fù)發(fā)、年齡、生存等等共包含了一百多項(xiàng)。
·TCGA提供的臨床信息數(shù)據(jù)格式為xml,使用極不方便,需要手動(dòng)提取。
·常用的臨床信息主要有:
1、年齡
2、性別
3、T N M Stage Grade
4、復(fù)發(fā) 復(fù)發(fā)時(shí)間
5、總生存期
TCGA的樣本命名
·TCGA對(duì)每一個(gè)病人都有一個(gè)單獨(dú)的ID如TCGA-02-0001,這個(gè)ID在TCGA數(shù)據(jù)庫中都是通用的,根據(jù)這個(gè)ID,在不同類型的數(shù)據(jù)中我們能夠找到同一個(gè)病人的,其中包括臨床隨訪信息。
·Sample:病人的不同的采樣部位有著不同的編碼,比如01表示癌組織,10表示癌旁組織,一般01到09表示腫瘤部位,10及以上表示正常對(duì)照。
·vial表示組織的順序,A、B、C、D;比如B表示石蠟包埋組織。
·Portion表示同一組織不同的組分;
·Analyte表示分析的分子類型,D表示DNA;
·Plate表示孔板順序,0182表示96孔板;
·Center表示檢測(cè)中心。
TCGA數(shù)據(jù)的下載
·TCGA官方提供了gdc_client下載工具,通過gdc_client下載工具能下載TCGA公開的數(shù)據(jù),但是下載的數(shù)據(jù)是單個(gè)樣本的,需要自己手動(dòng)合并。
·TCGA官方提供了gdc_api來進(jìn)行數(shù)據(jù)下載,大多數(shù)第三方的包都是基于gdc_api的,比如R包TCGAbiolinks、生信人簡(jiǎn)易下載工具。
·第三方數(shù)據(jù)庫提供的數(shù)據(jù)下載比如GDAC的Firehose,UCSC的Cancer browser。
·下載難度系數(shù):gdc_client>TCGAbiolinks>Firehose>桑格助手>UCSC
·使用靈活性:gdc_client>桑格助手>TCGAbiolinks>Firehose>UCSC

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多