本文介紹由美國生物科技公司Calico Life Sciences的Han Yuan 和 David R. Kelley共同通訊發(fā)表在 Nature methods 的研究成果:單細胞ATAC-seq(scATAC)在研究表觀遺傳景觀中的細胞異質(zhì)性方面具有巨大前景,但由于數(shù)據(jù)高維性和稀疏性的特點,scATAC的分析仍然面臨重大挑戰(zhàn)。為此,作者提出了一種基于DNA序列的卷積神經(jīng)網(wǎng)絡方法(scBasset)來對scATAC數(shù)據(jù)進行建模。實驗表明,通過利用可及性峰值下的DNA序列信息和神經(jīng)網(wǎng)絡模型的表達能力,scBasset在scATAC和單細胞多組數(shù)據(jù)集的各種任務中展現(xiàn)了最先進的性能,包括細胞類型識別、scATAC去噪、數(shù)據(jù)集成和轉錄因子活性推斷。 簡介 scATAC可以在單細胞水平上揭示表觀遺傳景觀。該技術已成功應用于識別細胞類型,揭示細胞異質(zhì)性的調(diào)控機制,繪制與疾病相關的調(diào)控元件,以及重建分化軌跡。 然而,由于可及性峰值固有的高維性和每個細胞測序讀長的稀疏性,使得scATAC數(shù)據(jù)分析仍面臨重大挑戰(zhàn)。已有的scATAC分析方法大致可以分為兩類:不依賴DNA序列的方法和依賴DNA序列的方法。從聚合讀長和可及性染色質(zhì)中的峰值調(diào)用生成的稀疏peak-by-cell矩陣開始,大多數(shù)方法將這些帶注釋的峰值表示為基因組坐標并忽略了潛在的DNA序列。主成分分析(PCA)和潛在語義索引(LSI)對peak-by-cell矩陣進行線性變換,以將細胞投影到低維空間。SCALE和cisTopic使用潛在dirichlet分配或變分自動編碼器對數(shù)據(jù)分布的生成過程進行建模。這些不依賴DNA序列的方法利用peak-by-cell矩陣中具有生物學意義的協(xié)方差來對細胞進行有效的表示。然而,它們忽略了DNA序列信息,并依賴于額外的工具才能建立染色質(zhì)開放區(qū)域與轉錄因子(TF)之間的聯(lián)系。另一方面,依賴DNA序列的方法(例如chromVAR和BROCKMAN)通過其TF基序或k-mer含量表示峰值,并將這些特征聚合到峰值或其他感興趣區(qū)域以學習細胞表示。雖然chromVAR直接將峰值與TF相關聯(lián),具有更好的可解釋性,但由于其模型相對簡單,在學習細胞表示方面往往表現(xiàn)較差。 作者提出了一種基于深度卷積神經(jīng)網(wǎng)絡(CNN)的更具表達性的DNA序列模型。CNN模型可以比k-mer或TF基序模型更有效地預測來自大量染色質(zhì)分析的峰值,例如DeepSEA和Basset。這些模型通過卷積層計算潛在峰值序列的顯式嵌入,并在最終線性變換的參數(shù)中計算多個“任務”(即測序?qū)嶒灒┑碾[式嵌入。作者擴展了Basset架構,從DNA序列中預測單細胞染色質(zhì)可及性,使用瓶頸層學習單細胞的低維表示。實驗結果表明,通過在深度學習框架中利用DNA序列信息,scBasset在細胞表示學習、單細胞可及性去噪、scATAC與scRNA的整合以及轉錄因子活性推斷方面優(yōu)于最先進的方法。 2 結果 scBasset預測單細胞染色質(zhì)在突出峰值上的可及性 scBasset是一種深度CNN模型,用于從DNA序列預測染色質(zhì)可及性。CNN在預測bulk數(shù)據(jù)中的表觀遺傳圖譜方面表現(xiàn)出了最先進的性能,并已成功用于遺傳變異效應預測和TF語法推斷。在這里,作者將將模型視為一個特征學習機器。scBasset模型通過一系列的卷基層學習到了一個低維的嵌入序列,模型的最后一層是一個將這個嵌入序列用于預測每個單細胞可及性的線性變換。這個線性變換矩陣包含每個細胞的向量表示,它指定如何利用每個嵌入序列來預測細胞特定的可及性。我們可以把向量的每個潛在特征理解為代表著基于DNA序列的各種調(diào)控因素,例如TF結合點位或核苷酸組成,而線性變換的權重決定了每個細胞在多大程度上依賴于這些因素。作者將這些單細胞向量作為用于下游任務(如可視化和聚類)的細胞表示。 圖1 scBasset架構 scBasset從每個峰的中心提取1344bp的DNA序列作為輸入,通過one-hot將其編碼為4×1344矩陣。輸入的DNA序列經(jīng)過八個卷積塊,其中每個塊由1D卷積、批量歸一化、最大池化和GELU激活層組成。與以前的大多數(shù)架構不同,作者在這些架構之后創(chuàng)建了一個大小為h的瓶頸層,旨在通過層輸出和下一層的參數(shù)來學習峰值的低維表示。最后,密集線性變換連接瓶頸序列嵌入以預測每個細胞中的二進制可及性(圖1a)。作者應用標準的二元交叉熵損失函數(shù),并使用隨機梯度下降優(yōu)化模型參數(shù)。 為了對scBasset進行基準測試,作者將scBasset應用于三個公共數(shù)據(jù)集:具有2k個細胞的scATAC-seq FACS分類的造血分化數(shù)據(jù)集(稱為 Buenrostro2018),具有3k個細胞的10x Multiome RNA+ATAC PBMC數(shù)據(jù)集和包含5k個細胞的10x Multiome RNA+ATAC小鼠大腦數(shù)據(jù)集。 首先,作者研究了scBasset可以在多大程度上預測跨細胞的可及性,以確保模型使用稀疏噪聲標簽能夠?qū)W習DNA序列和可及性之間有意義的關系。對于保留的峰值,作者計算了每個細胞峰值之間的接收器操作特征曲線下面積(auROC)。為了評估細胞類型特異性,作者還計算了每個峰值細胞間的auROC。實驗結果表明,scBasset達到了很高的準確度水平,這表明模型學習的成功(圖1b)。鑒于已知存在的可及性峰值,這些峰值很可能在所有細胞中都是可以真正訪問的,并代表了可實現(xiàn)精度的粗略上限。 scBasset最后一層學習細胞表示 作者連接瓶頸層和預測的h×cell權重矩陣用作單個細胞的低維表示。有效細胞表示的一個要求是消除測序深度的影響。因此,作者首先驗證了模型最后一層中的截距向量與所有數(shù)據(jù)集的細胞測序深度幾乎完全相關,這表明測序深度已經(jīng)從表示中標準化。接下來,作者將scBasset學習到的細胞表征與其他方法進行了定性和定量比較。對于Buenrostro2018數(shù)據(jù)集,作者使用t-SNE(圖 2a)在2D中可視化細胞嵌入,并觀察t-SNE空間中的分化軌跡。與其他流行的scATAC嵌入方法相比,chromVAR和PCA難以區(qū)分CLP和LMPP,而Cicero、SCALE、cisTopic和scBasset可以區(qū)分。作者還通過使用ARI指標將Louvain聚類結果與真實細胞類型標簽進行比較,量化了細胞嵌入的正確性。根據(jù)該指標可以發(fā)現(xiàn)scBasset優(yōu)于其他方法(圖 2b,頂部)。由于ARI對Louvain算法中的超參數(shù)選擇和隨機性敏感,作者提出了一種評估細胞嵌入的替代方法。通過基于細胞嵌入構建最近鄰圖來計算“標簽分數(shù)”,并分析每個細胞的鄰居中有多少百分比共享相同的標簽。對于每種嵌入方法,計算了一系列鄰域的標簽分數(shù)。實驗表明,scBasset在學習細胞表示時始終優(yōu)于其他方法,這些細胞相互嵌入了相同類型的其他細胞(圖 2b,底部)。對于每種細胞類型的標簽分數(shù),作者進一步分析并觀察到單核細胞學習得最好,而MPP細胞最難區(qū)分。 對于多組PBMC和小鼠大腦數(shù)據(jù)集,作者計算了模擬的細胞嵌入標簽分數(shù)。由于多組數(shù)據(jù)集的真實細胞類型未知,作者使用來自scRNA-seq Leiden聚類的聚類標識符作為細胞類型標簽。同樣的,通過這一指標可知scBasset的表現(xiàn)優(yōu)于其他方法。對于這些多組數(shù)據(jù)集,作者還計算了“鄰居分數(shù)”,從scRNA和scATAC構建獨立的最近鄰圖,并分析每個細胞的鄰居在兩個圖之間共享的百分比。結果表明,scBasset在多組PBMC和多組小鼠大腦數(shù)據(jù)集上都優(yōu)于其他方法(圖2c,d)。 圖2 scBasset在學習細胞表示時的性能 在批次條件下scBasset可消除批次效應 在Buenrostro2018數(shù)據(jù)集中,無論采用哪種細胞嵌入方法,HSC都聚集成兩個群體。正如之前的研究中所指出的,這是由不同供體的批次效應引起的(圖3 a)。為了解決這一問題,以及更普遍的批次效應,作者對scBasset架構進行了修改。 具體來說,在瓶頸層之后,作者添加了第二個全連接層來預測批次效應對可及性的貢獻。即在計算最終的sigmoid之前添加了批次層和細胞特異性層的輸出。直觀地說,與批次效應相關的可及性信息會被新的全連接層學習,而原始的h×cell權重矩陣僅會學習到有生物學意義的信息。 圖3 scBasset可適用于執(zhí)行批次校正 作者比較了批次校正前后的scBasset細胞嵌入結果。結果表明,批次校正后t-SNE空間中不同的批次整體混合(圖 3a、b)。然而,批次校正后集群評估指標略有下降。這是由來自不同供體的細胞類型分布不平衡和批次層學習引起的,這與最近一項研究所觀察到的結果一致。盡管如此,scBasset-BC在通過ARI評估時仍然優(yōu)于其他方法,并且在通過標簽分數(shù)評估時表現(xiàn)最好(圖 3c、d)。 scBasset對單細胞可及性圖譜進行去噪 由于scATAC的稀疏性,任何給定細胞和峰值的二進制可及性指標都包含大量假陰性,因此無法在單細胞水平上研究數(shù)據(jù)和跨細胞聚合。目前許多方法提供去噪(或插補)數(shù)值來表示每個細胞/峰值組合的可及性狀態(tài)。scBasset可在其基于序列的預測中計算這些值。 在Buenrostro2018數(shù)據(jù)集中,作者采樣了500個峰值和200個細胞,并直接可視化了原始cell-by-peak矩陣與去噪矩陣(圖 4a)。在原始計數(shù)矩陣中,細胞和峰值按測序深度聚集,沒有顯示出生物學相關的模式。然而,在scBasset去噪后,相同細胞類型的細胞具有相似的可及性圖譜,并且細胞的層次聚類與真實標簽能夠很好的匹配。 幾種已發(fā)表的方法匯總了基因轉錄起始位點周圍區(qū)域的scATAC計數(shù),用以估計其轉錄。作者提出的去噪方法將改善基因可及性估計與多組實驗中基因測量的RNA表達之間的相關性。作者還通過平均去噪前后所有啟動子峰值的預測可及性值來計算每個基因的可及性分數(shù)(圖 4b)。 基于協(xié)方差的方法也可用于對scATAC進行去噪,作者將scBasset與SCALE進行了比較,SCALE是一種不依賴DNA序列的方法,其使用變分自動編碼器進行可及性去噪。研究表明,可及性和表達變化之間的相關性比它們的絕對值更好,因此這將是驗證可及性去噪方法的更有用的衡量指標。作者評估了scBasset和SCALE可及性去噪,以確保差異表達和差異可及性之間的一致性。作者還假設SCALE對細胞間協(xié)方差的依賴會促使細胞彼此之間比實際更相似并且更平滑。scBasset不太容易過度平滑,因為每個峰值僅通過其序列來考慮。SCALE在去噪基線可及性方面表現(xiàn)更好,而scBasset在去噪差異可及性方面表現(xiàn)更好。實驗結果表明,結合scBasset和SCALE比單獨使用任何一種方法產(chǎn)生的性能更好(圖 4c)。 圖4 scBasset具有良好的去噪性能 將scRNA和scATAC獨立分析的細胞整合到共享的潛在空間中是許多scATAC注釋和分析方法的關鍵步驟。作者假設scATAC去噪會提高scRNA和scATAC整合性能。為了評估整合性能,作者將10x多組scRNA和scATAC圖譜視為兩個獨立實驗。實驗結果表明,將scRNA圖譜與去噪后的scATAC圖譜整合時,與將scRNA與原始scATAC圖譜整合時相比,細胞實現(xiàn)了更好的混合(圖 4d)。作者還測量了每個匹配細胞的RNA和ATAC嵌入之間的多組秩距離(圖4e)。 scBasset在單細胞分辨率下推斷轉錄因子活性 轉錄因子活性是染色質(zhì)可及性的主要驅(qū)動因素。由于scBasset可以從DNA序列預測染色質(zhì)可及性,作者期望模型能夠捕獲預測TF結合的序列信息。為了預測單細胞TF活性,作者利用scBasset模型的靈活性來預測任意序列。更具體地說,作者將一對具有和不具有特定TF基序的合成DNA序列輸入到經(jīng)過訓練的scBasset模型,并根據(jù)預測的可及性差值估計對應的轉錄因子在每個細胞當中的活性。如果TF在特定細胞中發(fā)揮激活作用,那么在插入TF基序后可及性會增加。 作者使用Buenrostro2018訓練的模型對733個人類CIS-BP基序進行了基序注入,并重現(xiàn)了已知的基序活動軌跡。以前基于DNA序列的方法也能量化TF基序活性。為了在這項任務中全面比較scBasset和chromVAR,作者分析了10x PBMC多組數(shù)據(jù)集,其中在RNA中測量的TF表達可以作為其基序活性的代表。作者使用scBasset和chromVAR推斷了733個人類CIS-BP基序的基序活性。對于在細胞類型簇之間顯著差異表達的203個TF,作者分析推斷了每個細胞的TF活性與其表達的相關性。實驗表明, scBasset 的總體TF活性與表達的相關性顯著高于chromVAR 的TF活性(圖 5b)。這種單方面的測試低估了scBasset相對于chromVAR的性能優(yōu)勢,因為可能抑制因子的TF表達和推斷活性呈負相關。因此,作者還分別評估了scBasset和chromVAR對激活和抑制TF的影響。對于74個TF,兩種方法都表明TF活性與表達正相關,scBasset預測的TF活性與表達的相關性明顯高于chromVAR預測的活性。對于41個TF,兩種方法都表明TF活性與表達負相關,scBasset預測的TF活性與表達的相關性明顯低于chromVAR預測的活性。 通過檢測PBMC細胞類型的一些關鍵調(diào)控因子,作者發(fā)現(xiàn)scBasset TF活性比chromVAR具有更好的細胞類型特異性,并且與TF表達的相關性更好(圖 5c)。 與chromVAR不同,scBasset使用準確的定量模型來預測DNA核苷酸的細胞類型特異性可及性。它不僅能夠在每個細胞水平上預測scBasset的TF活性,還可以在每個細胞每個核苷酸的分辨率下推斷TF活性。作者檢測了調(diào)控紅細胞特異性β-珠蛋白表達的β-珠蛋白基因的已知增強子。對該100bp序列計算了ISM,其中預測了在將每個位置突變?yōu)槠渌齻€替代核苷酸后每個細胞中可及性的變化。通過對每個參考核苷酸進行表征化的ISM評分來匯總每個位置的單個評分。圖5d顯示了紅細胞系中每種細胞類型的平均ISM評分。該實驗表明,scBasset可以在單細胞分辨率下學習可及性調(diào)控語法,并用于識別調(diào)控單個細胞和譜系中特定增強子的TF。 圖5 scBasset推斷單細胞TF活性 3 總結 在這項研究中,作者介紹了scBasset,這是一種基于DNA序列的深度學習框架,用于對scATAC數(shù)據(jù)進行建模。scBasset經(jīng)過訓練,可以從ATAC峰值下的DNA序列預測單個細胞的可及性,學習嵌入向量以表示該過程中的單個細胞。經(jīng)過訓練的scBasset模型可以加強對scATAC的多條分析,并在多項任務上展示最先進的性能。對模型的細胞嵌入進行聚類可以更好地與真實細胞類型標簽對齊。模型的輸出可用作可及性圖譜去噪,從而提高與RNA測量的一致性。該模型可以學習識別TF基序及其對可及性的影響,作者通過將基序注入背景序列中,以預測單細胞中的TF基序活性。該模型還可用于預測突變的影響,從而能夠在單細胞分辨率下對感興趣的調(diào)控序列計算ISM。與之前基于DNA序列的scATAC分析方法相比,scBasset在學習細胞嵌入和推斷TF活性方面取得了更好的性能,因為scBasset受益于更具表現(xiàn)力的CNN模型,該模型可以學習更復雜的序列特征,包括非線性關系。與以前的不依賴DNA序列的方法相比,scBasset在基準測試任務中取得了更好的性能,并提供了一個更具解釋性的模型,可以直接預測TF活性或識別調(diào)控序列。 基于DNA序列的方法有幾個限制。首先,在利用參考基因組時,許多樣本會有變異版本,包括可能導致模型誤入歧途的拷貝數(shù)變異。其次,假設調(diào)控基序及其相互作用在整個基因組中普遍存在。這種假設在某些基因組位點可能并不完全正確,因為這些基因組位點的進化導致了特殊的調(diào)控方式。由于scBasset與基于協(xié)方差的方法采用的是完全獨立的方法,因此可以將這兩種方法結合起來以作進一步改進。 此外,作者預見了進一步改進該模型的幾種途徑。為了提高scBasset內(nèi)存效率以便擴展到非常大的數(shù)據(jù)集,可以同時對序列和細胞進行小批量采樣,而不是只對當前實現(xiàn)中的序列進行抽樣。scATAC分析的所有方法都取決于準確的峰值調(diào)用,并且已經(jīng)提出了預測性建模框架,以幫助識別高度特異性的調(diào)控元素。作者期望神經(jīng)網(wǎng)絡模型將通過考慮序列信息進一步改善scATAC峰值調(diào)用。最后,作者計劃探索遷移學習方法,使得在對特定的單細胞數(shù)據(jù)集進行微調(diào)訓練之前,能先在大數(shù)據(jù)集上對模型進行預訓練。 參考資料 Yuan, H. & Kelley, DR. scBasset: sequence-based modeling of single-cell ATAC-seq using convolutional neural networks. Nature methods, 2022. https://www./articles/s41592-022-01562-8. 數(shù)據(jù) https://support./single-cell-multiome-atac-gex/datasets/2.0.0/pbmc_granulocyte_sorted_3k https://support./single-cell-multiome-atac-gex/datasets/2.0.0/e18_mouse_ brain_fresh_5k 代碼 https://github.com/calico/scBasset |
|