小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

TCGA中GBM的RNA-seq和甲基化數(shù)據(jù)整合分析實踐

 健明 2021-07-14

這是一份大三學生的課程實踐作業(yè)~~~

找出膠質(zhì)細胞瘤特異性甲基化區(qū)域,為臨床診斷提供理論依據(jù)

步驟:

1、查找數(shù)據(jù):下載TCGA中GBM的RNA-seq和甲基化數(shù)據(jù)

2、甲基化數(shù)據(jù)分析,正常腫瘤對比,進行差異甲基化分析,找出腫瘤樣本中高甲基化區(qū)域

3、對RNA-seq數(shù)據(jù)進行分析,正常腫瘤對比,差異表達基因的篩選,找出腫瘤樣本中低表達基因。

4、結(jié)合甲基化和RNA-seq數(shù)據(jù),將高甲基化和低表達基因取交集,這些基因很可能屬于抑癌基因,與抑癌基因取交集,再結(jié)合promoter區(qū)域的CpG整合分析,尋找候選靶標。

5、對找出的靶標進行驗證,利用pubmed以及其他數(shù)據(jù)庫,反向驗證靶標的

可靠性

、數(shù)據(jù)下載

首先進入TCGA下載數(shù)據(jù)GBM的RNA-seq和甲基化數(shù)據(jù),從下表可見GBM共有172套RNA-seq數(shù)據(jù)以及437套DNA甲基化數(shù)據(jù),由于TCGA提供Infinium HumanMethylation27 BeadChip和Infinium HumanMethylation450 BeadChip兩種芯片平臺的數(shù)據(jù),為了避免后續(xù)不同芯片平臺間數(shù)據(jù)合并的困難,僅下載HumanMethylation450的芯片數(shù)據(jù),共計154套。

圖表 1TCGA數(shù)據(jù)匯總

、初步整理數(shù)據(jù)

使用TCGA-Assembler.2.0.5進行GBM數(shù)據(jù)批量下載與初步整理,并且繪制RNA-seq 基因表達量盒型 圖 以及甲基化芯片數(shù)據(jù)盒型圖 ,由于數(shù)據(jù)量較大,此處不貼圖。

三、整體可視化

首先對于甲基化數(shù)據(jù),選取ID為TCGA.06.AABW.11A.31D.A368.05的數(shù)據(jù),查看總體甲基化程度。由于每個位點真實情況只存在:甲基化/非甲基化兩種,所以對全部位點甲基化程度進行統(tǒng)計,也應該是大部分位點處于“完全甲基化”(Methylation state=1)和“完全非甲基化”(Methylation state=0)兩種狀態(tài),下圖繪制了數(shù)據(jù)的頻數(shù)柱狀圖,可以明顯看出形狀處于“兩頭高,中間低”,反向說明芯片數(shù)據(jù)質(zhì)量較好。

圖表 2單個樣本CpG甲基化程度統(tǒng)計

接下來,對多個樣本繪制CpG甲基化程度小提琴圖,同一行是同一個病人,左邊樣本來源于Primary Solid Tumor,右邊樣本來源于Recurrent Solid Tumor,除了甲基化程度大部分分布于0和1附近外,還能看出來源于同一病人腫瘤的甲基化程度依舊會有略微差異。

TCGA barcode:https://wiki.nci./display/TCGA/TCGA+barcode

圖表 3小提琴圖

同樣的,對于RNA-seq數(shù)據(jù)也可以進行一些初步可視化,除了數(shù)據(jù)下載后繪制的盒型圖,亦可以進行PCA初步查看數(shù)據(jù)分布,下圖左為PCA陡坡圖,反映了第一主成分、第二主成分…等等所擁有信息量的比例,下圖右為使用PCA1和PCA2繪制的散點圖,可以發(fā)現(xiàn)5個正常樣本距離較近,從側(cè)面反映數(shù)據(jù)可信度較好。

最后,對于RNA-seq表達譜數(shù)據(jù),使用系統(tǒng)聚類方法,繪制樹狀圖,可以發(fā)現(xiàn)5個正常樣本距離也是很近,數(shù)據(jù)質(zhì)量還行。

四、差異甲基化區(qū)域篩選

為了更加科學高效地篩選差異甲基化位點,參考bioconductor中甲基化芯片的分析流程,使用minfi包進行差異甲基化分析,得到差異甲基化位點。

http://www./help/workflows/methylationArrayAnalysis/

在檢測的526733個CpG位點中,共有4927個CpG位點P值<0.01,且在腫瘤樣本中保持著甲基化程度高于0.7,對應2054個基因。

五、差異表達基因篩選

由于數(shù)據(jù)源自RNA-seq,最主流的分析方法當然是基于負二項分布模型的DESeq2包。

先用MA-plot查看差異表達基因大致分布。意外的是,圖形左側(cè)有大概七條線狀條紋,最初我懷疑這是sample之間有batch effect導致,需要用其他更好normalize的方法,后來用identify方法挨個找出每條線上的基因名及其對應的表達量,發(fā)現(xiàn)這些基因在172套樣本中表達量幾乎全為0,僅有一兩個樣本有一點點表達,這種數(shù)據(jù)的存在導致這些線狀條紋的產(chǎn)生。

圖表 4 MA-plot

然后, 選取p值最小的差異表達基因,繪制其在不同組間表達量,確實差異很顯著。

圖表 5表達量散點圖

接著,繪制差異表達基因在不同組間的表達量熱圖,正常樣本是圖片最左邊的五列,當然如果需要解釋具體的生物學問題,需要將聚類出來的每一類,將差異表達基因進行GO以及KEGG注釋,結(jié)合有關的生物學表型,探討其分子機制及意義

圖表 6表達量熱圖

最后,選取篩選條件為p值小于0.01且log2FoldChange<-2的差異表達基因,在腫瘤樣本低表達的基因,共計1657個

六、抑癌基因的獲取

在pubmed中查詢研究人員整理的tumor suppressor genes,果然在Nucleic Acids Res發(fā)表過TSGene數(shù)據(jù)庫,存儲了抑癌基因的列表。https://bioinfo./TSGene/download.cgi

下載全部1217個人類抑癌基因的列表。

All the 1217 human tumor suppressor genes with basic annotations

圖表 7 TSGene database

、數(shù)據(jù)整合

對于甲基化數(shù)據(jù)中,腫瘤樣本高甲基化CpG附近的基因,RNA-seq中腫瘤樣本低表達的基因,以及TSGene數(shù)據(jù)庫中下載的抑癌基因列表,三者做overlap,找出特異性的候選靶標,為后續(xù)分析做準備,下圖為三者overlap的韋恩圖。

圖表 8數(shù)據(jù)整合韋恩圖

共計找出12個候選靶標基因。

八、靶標篩選

之前篩選選擇的單個CpG的差異甲基化,而實際臨床檢測應用時候,可能需要多個CpG作為對照,因此統(tǒng)計了12個候選靶標基因TSS前1.5kb內(nèi)所有CpG的甲基化程度,然后繪制熱圖,可以明顯發(fā)現(xiàn),雖然當初用CpG的差異甲基化位點篩出來的基因都是腫瘤樣本高甲基化的,可是統(tǒng)計TSS前1.5kb內(nèi)所有CpG的甲基化程度,這些基因卻有很多在所有樣本中都是低甲基化狀態(tài),而看上去很靠譜的是NUAK1基因,其正常樣本在TSS前1.5kb內(nèi)低甲基化,腫瘤樣本中對應區(qū)域高甲基化。

圖表 9 methylation heatmap

NUAK1基因TSS前1.5kb內(nèi)共檢測了7個CpG,這7個CpG在154個樣本中檢測出來的甲基化程度如下圖,可以明顯看出來這7個CpG在Tumor組織中甲基化程度都相對高,而在Normal組織中甲基化程度相對較低。

圖表 10 NUAK1TSS區(qū)CpG甲基化程度

使用Cpgplot預測CpG island位置,這7個CpG在promoter5’到3’序列圖上相對位置如下

1035 1094 1408 1413 1444 1448 1471

圖表 11 CpG island預測

參數(shù)使用:

NUAK1promoter from 1 to 1500

    Observed/Expected ratio > 0.40

    Percent C + Percent G > 40.00

    Length > 100

CpG island詳細信息: Length 101 (1086..1186)     Length 105 (1366..1470)

這七個CpG基本都在CpGisland中,具體序列見附錄

九、靶標基因相關討論

進入Gene數(shù)據(jù)庫搜索NUAK1相關內(nèi)容,可以發(fā)現(xiàn)基因全稱NUAK family kinase 1,還是個激酶,激酶的話就對調(diào)控會有很大作用了,而在HPA RNA-seq normal tissues項目中,又看出來這個激酶在腦中表達量明顯高于其他組織,這又與發(fā)生在腦部的GBM不謀而合。

圖表 12 NUAK1相關討論

、分子機制探討

對于腫瘤組織中高甲基化CpG附近的,并且在腫瘤樣本中低表達的intersect共計274個基因,使用Gene Ontology進行富集分析,可以明顯發(fā)現(xiàn)在GO biological process生物學過程中的“神經(jīng)系統(tǒng)發(fā)育”、“化學性突觸傳遞”和“細胞膜的組織”等部分里面有著富集,特別是“中樞神經(jīng)系統(tǒng)的髓鞘形成”,富集程度達到26.95倍,這又與研究的多發(fā)生于腦補的GBM有著密切的聯(lián)系,反向驗證實驗結(jié)果的正確性。

圖表 13 GO富集分析

、FurtherMore

根據(jù)生物學知識可以得到,CpG的甲基化會調(diào)控基因的轉(zhuǎn)錄,因此,Transcript Start Site(TSS)附近的甲基化程度值得進行一番深入研究,選用人類基因組hg19版本,對23056基因共計46489個轉(zhuǎn)錄起始位點,進行轉(zhuǎn)錄起始位點富集甲基化程度統(tǒng)計。

統(tǒng)計TSS前后5000bp內(nèi)CpG甲基化程度,并且使用曲線進行擬合,可以發(fā)現(xiàn)TSS處的CpG Methylation水平明顯降低,這也與科學常識相吻合。

圖表 14 TSS附近甲基化程度

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多