特征空間和數(shù)據(jù)預處理:根據(jù).bam文件(scATAC-seq)或甲基化計數(shù)文件(單細胞DNA甲基化),EpiScanpy通過量化每個特征中的開放性或DNA甲基化水平,為任何感興趣的基因組特征生成計數(shù)矩陣。在構建計數(shù)矩陣后,EpiScanpy繼續(xù)進行質(zhì)量控制和數(shù)據(jù)預處理。
單細胞表觀基因組學數(shù)據(jù)的分析方法:在構建計數(shù)矩陣之后,EpiScanpy采用了單細胞數(shù)據(jù)中常用的分析方法。特別是,為了利用基于K近鄰算法(kNN),研究團隊實現(xiàn)了基于表觀遺傳特征的細胞-細胞距離指標。為了評估數(shù)據(jù)中存在的全局異質(zhì)性,EpiScanpye使用無監(jiān)督(或流形)學習算法,如tSNE, UMAP, graph abstraction, Louvain clustering或diffusion pseudotime。為了探索dataset artefacts(如覆蓋率)和觀察到的變異之間不必要的相關性,EpiScanpye允許檢查任何細胞協(xié)變量和主成分之間的關系,然后用EpiScanpye函數(shù)將發(fā)現(xiàn)的技術變異來源回歸出來。研究團隊還提供了一個函數(shù),用于根據(jù)輪廓系數(shù)或調(diào)蘭德指數(shù)(ARI)優(yōu)化Louvain clustering所用的分析參數(shù)。最后,為了確定細胞類型,EpiScanpye包括差異甲基化和差異開放染色質(zhì)調(diào)用策略,能夠根據(jù)基因組特征(如峰值、基因、啟動子或其他調(diào)控元件)在發(fā)現(xiàn)的細胞特性中的相關性對其進行排序。為了便于細胞類型注釋,EpiScanpye還包括將任何感興趣的表觀基因組特征分配給其最近的基因或從另一個單細胞數(shù)據(jù)對象分配給其最近的特征的功能。借助singlecellVR的虛擬現(xiàn)實界面,還可以實現(xiàn)EpiScanpye結果的虛擬現(xiàn)實可視化。