小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

EpiScanpy:一個用于分析單細胞表觀基因組數(shù)據(jù)的工具包

 尐尐呅 2022-06-09 發(fā)布于湖北

表觀遺傳學單細胞檢測正在成為主流,其產(chǎn)生的數(shù)據(jù)代表了位于基因組和轉錄組之間的一個豐富的調(diào)控信息層,需要新的分析方法來利用它。近日,來自德國研究人員在《Nature Communications》發(fā)表了一個用于分析單細胞表觀基因組數(shù)據(jù)的工具包:EpiScanpy。

EpiScanpy是什么?

EpiScanpy是一種用于分析單細胞表觀基因組數(shù)據(jù)的快速且通用的工具,由于它嵌入了scanpy平臺,其為分析單細胞DNA甲基化和scATAC-seq數(shù)據(jù)以及scRNA-seq數(shù)據(jù)提供了通用框架。EpiScanpy靈活的數(shù)據(jù)結構可以處理其他新類型的單細胞組學數(shù)據(jù),如Hi-C或NOME-seq以及其他單細胞多組學數(shù)據(jù)。EpiScanpy不僅可以執(zhí)行基于表觀基因組特征的常見分析,如低維數(shù)據(jù)可視化、聚類、軌跡推斷和差異調(diào)用,還具有一系列實用的下游功能,如將感興趣的表觀基因組特征映射到最近的基因,或基于啟動子開放性構建基因活性矩陣。EpiScanpy包括一個atlas比較工具,可有效集成不同實驗室和/或使用不同平臺生成的scATAC-seq數(shù)據(jù)集。

特征空間和數(shù)據(jù)預處理:根據(jù).bam文件(scATAC-seq)或甲基化計數(shù)文件(單細胞DNA甲基化),EpiScanpy通過量化每個特征中的開放性或DNA甲基化水平,為任何感興趣的基因組特征生成計數(shù)矩陣。在構建計數(shù)矩陣后,EpiScanpy繼續(xù)進行質(zhì)量控制和數(shù)據(jù)預處理。

單細胞表觀基因組學數(shù)據(jù)的分析方法:在構建計數(shù)矩陣之后,EpiScanpy采用了單細胞數(shù)據(jù)中常用的分析方法。特別是,為了利用基于K近鄰算法(kNN),研究團隊實現(xiàn)了基于表觀遺傳特征的細胞-細胞距離指標。為了評估數(shù)據(jù)中存在的全局異質(zhì)性,EpiScanpye使用無監(jiān)督(或流形)學習算法,如tSNE, UMAP, graph abstraction, Louvain clustering或diffusion pseudotime。為了探索dataset artefacts(如覆蓋率)和觀察到的變異之間不必要的相關性,EpiScanpye允許檢查任何細胞協(xié)變量和主成分之間的關系,然后用EpiScanpye函數(shù)將發(fā)現(xiàn)的技術變異來源回歸出來。研究團隊還提供了一個函數(shù),用于根據(jù)輪廓系數(shù)或調(diào)蘭德指數(shù)(ARI)優(yōu)化Louvain clustering所用的分析參數(shù)。最后,為了確定細胞類型,EpiScanpye包括差異甲基化和差異開放染色質(zhì)調(diào)用策略,能夠根據(jù)基因組特征(如峰值、基因、啟動子或其他調(diào)控元件)在發(fā)現(xiàn)的細胞特性中的相關性對其進行排序。為了便于細胞類型注釋,EpiScanpye還包括將任何感興趣的表觀基因組特征分配給其最近的基因或從另一個單細胞數(shù)據(jù)對象分配給其最近的特征的功能。借助singlecellVR的虛擬現(xiàn)實界面,還可以實現(xiàn)EpiScanpye結果的虛擬現(xiàn)實可視化。

EpiScanpy的應用

研究團隊使用公開的scATAC-seq和單細胞DNA甲基化數(shù)據(jù)集舉例說明了EpiScanpy的功能,并將EpiScanpy與其他scATAC-seq分析工具進行了對比,顯示了其在區(qū)分細胞類型方面的優(yōu)越性。

單細胞DNA甲基化和scATAC-seq數(shù)據(jù)的聚類、可視化、細胞類型注釋。

scATAC-seq數(shù)據(jù)的整合、基于分區(qū)的圖抽象(PAGA)、擴散偽時間分析。

細胞聚類性能的基準測試:研究團隊將EpiScanpy辨別細胞類型的能力與其他11種scATAC-seq數(shù)據(jù)分析工具進行了比較,在所有測試數(shù)據(jù)集中EpiScanpye的得分處于前列。

此外,EpiScanpy的一個重要特點是它能夠在非常有競爭力的運行時間內(nèi)擴展到大型數(shù)據(jù)集。例如,分析Cusanovich等人的整個小鼠scATAC-seq圖譜,包括81,173個細胞,僅需18.19分鐘的運行時間,使用14.19GB的內(nèi)存。

EpiScanpy在所有數(shù)據(jù)集的內(nèi)存消耗方面一直表現(xiàn)出色,在較小的數(shù)據(jù)集的運行時間方面表現(xiàn)相當,而在較大的數(shù)據(jù)集上則表現(xiàn)出色。


EpiScanpy是唯一可以為scATAC-seq數(shù)據(jù)、單細胞DNA甲基化數(shù)據(jù)以及scRNA-seq數(shù)據(jù)(通過scanpy)提供所有分析選項的工具;由于它建立在scanpy之上,它使得為scRNA-seq開發(fā)的機器學習方法的全部model-zoo可以用于單細胞表觀基因組學數(shù)據(jù)。  

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多