一、為什么要做軌跡分析以及軌跡分析的定義在進行標準的單細胞分析流程得到聚類結(jié)果后,可以進行軌跡分析,并進一步進行基因表達分析。 在整個生命生長發(fā)育過程中,細胞都在不斷從一種功能“狀態(tài)”過渡到另一種功能“狀態(tài)”(如下圖)。處于不同狀態(tài)的細胞表達不同的基因,產(chǎn)生蛋白質(zhì)和代謝物的動態(tài)重復,從而完成它們的工作。當細胞在不同的狀態(tài)間轉(zhuǎn)化時,會經(jīng)歷轉(zhuǎn)錄重組的過程,一些基因被沉默,而另一些則被激活。這些瞬態(tài)通常很難描述,因為在更穩(wěn)定的端點狀態(tài)之間凈化細胞可能很困難或不可能。但由于這個過程是連續(xù)發(fā)生的,我們可以使用軌跡推斷(TI,trajectory inference)的方法可以根據(jù)測序的細胞(瞬時狀態(tài))之間表達模式的相似性對單細胞沿著軌跡進行排序,以此來模擬細胞動態(tài)變化的過程。也就是重建分化軌跡或者擬時間軸。 但值得注意的是,并不是所有樣本都適合進行軌跡分析。 比如我們明確知道骨髓中存在分化中間態(tài)的細胞(存在從干細胞到成熟細胞的分化過程),因此骨髓的樣本可以進行軌跡分析。但一些樣本如PBMC中幾乎都是分化成熟的細胞,雖然也可以做軌跡分析,但是意義不大。此外,存在分化過程的細胞也有差別。比如B細胞到漿細胞的分化更像是一個線形過程,不存在分支(branch),所以B細胞不適合做branching。但Th細胞向其亞型的分化可能就存在多個分支。 自2014年以來,TI的各種算法得到飛速發(fā)展,至2018年已有接近60種方法。 Trajectory Inference主要方法的pipeline總結(jié):主要包括兩個step:降維和軌跡建模文獻:Computational methods for trajectory inference from single-cell transcriptomics
二、降維方法降維的方法包括線性降維PCA,ICA等,和非線性降維TSNE,UMAP,DF等。在學習軌跡分析之前,先來了解兩種之前接觸的比較少的降維方法:ICA和DF。 1. ICA (Independent Component Analysis)獨立成分分析ICA是數(shù)據(jù)結(jié)構(gòu)的一種方法(A method for decomposing the data)。monocle1使用的就是ICA方法。 ICA與PCA比較類似,PCA(對高斯分布的數(shù)據(jù)效果較好)是將高變基因分配到主要的主成分中,用主成分來進行后續(xù)分析。而ICA是將數(shù)據(jù)解構(gòu),從混雜的信號中分離原始的多個生物信號。 PCA和ICA的區(qū)別:
總結(jié):ICA和PCA一樣,是一種線性降維方法。常被用于評估數(shù)據(jù)的原始組成。在ICA中,這些原始信號被認為是互相獨立的,而且,ICA會先假定單細胞數(shù)據(jù)是非高斯分布的,實際上往往不是這樣。不同的信號在ICA分析中同等重要,但ICA不能確定實際有多少個信號源。 2. DF (Diffusion Maps)擴散映射Diffusion maps是一種非線性降維方法。 Diffusion Map用的是Diffusion Process的方法。如果兩個點距離較近,則從一個點隨機行走到一個點的概率就大。反之,如果兩個點距離較遠,則從一個點隨機行走到一個點的概率就小。Deffusion Map就是這樣將兩個點之間的距離轉(zhuǎn)換成它們之間能夠產(chǎn)生隨機行走的概率 ,并用這個隨機行走的過程去捕捉數(shù)據(jù)的neighborhood結(jié)構(gòu),從而將一個高維的扭曲的數(shù)據(jù)展開,變成一個低維的visualization。 簡單來說,為了把可能性轉(zhuǎn)化成距離,DM可以計算B到C的可能性,再計算A到C的可能性。根據(jù)公式,如果兩種可能性差不多大,那么他們的差值就趨于0。說明A到B的過程可以通過C來很好的連接起來。 DM是一種非線性降維(UMAP和tSNE也是非線形降維)。點和點之間(也就是細胞和細胞之間的距離)是通過probability來計算的。 三、定義軌跡在學習了ICA和DM兩種降維方法后,現(xiàn)在我們想要建立細胞之間的關(guān)系,定義軌跡應該從哪里開始,在哪里結(jié)束。 1. MST (minimum spamming tree)舉個例子:下圖中有很多點,每個點之間的距離都可以計算(比如使用DM來計算點和點之間的possibility)。將點連線,尋找一個所有的點之間距離加和最小的連接方式,得到的結(jié)果如黑色的粗線所示,這就是最小生成樹。細胞數(shù)目越多,MST的軌跡構(gòu)建越準確。 monocle1中使用的就是這種方式。如下圖a:每個細胞都代表了高維空間中的一個點,將高維空間降維(使用PCA/ICA或UMAP/TSNE),隨后使用MST定義細胞軌跡,并將細胞按照MST構(gòu)建的生成樹排序,標注上細胞類型,就可以得到細胞軌跡。 The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells
但值得注意的是,MST只能構(gòu)建細胞軌跡,但不能告訴你端點是轉(zhuǎn)錄起始點還是終止點,也就是不知道是從哪個方向向哪個方向分化。所以如果有先驗知識(比如干細胞向別的細胞分化),就會容易很多。 2. RGE(Reverse graph embedding, i.e. DDRTree and others)第二種方法叫做反向圖嵌入。 TSCAN: Pseudo-time reconstruction and evaluation in single-cell RNA-seq analysis
Monocle2中使用的就是RGE方法(DDRTree)。 Reversed graph embedding resolves complex single-cell trajectories
上圖顯示的是RGE的工作原理。每個細胞都代表了高維空間中的一個點,使用PCA或其他方法來對細胞進行降維后,根據(jù)假定的細胞cluster的中心點來對軌跡進行構(gòu)建。隨后計算細胞到假設(shè)軌跡的距離,并將細胞分配到距離細胞最近的軌跡cluster上,分配完成后對中心點進行更新,重建軌跡,再將二維軌跡投射到多維空間里,比較與原始數(shù)據(jù)的契合度,如果match的不好,就重新降維和構(gòu)建軌跡,循環(huán)這個過程,直到細胞軌跡能充分反映原始data(類似降維中的TSNE和UMAP循環(huán))。這時就可以選擇軌跡的root(需要先驗知識),并對擬時間軸或者發(fā)育軌跡進行定義。根據(jù)軌跡圖中的分叉,還可以定義cell fate。 REG還衍生出了許多方法,比如PAGA、Slingshot、TSCAN、CellRouter等。 Monocle3進行聚類的原理與Monocle2類似 和Monocle2相比,Monocle3的主要update: 3. RNA velocity (gene expression trajectory)RNA velocity是基于真實的轉(zhuǎn)錄動力學,可用于細胞基因表達的動態(tài)分化的研究。 RNA velocity of single cells
如上左圖,剛轉(zhuǎn)錄出的mRNA包含外顯子和內(nèi)含子,經(jīng)過splicing切除內(nèi)含子后,得到用于編碼蛋白的spliced mRNA。spliced mRNA的豐度由未成熟mRNA的splicing速度和降解速率共同決定。如上中圖:每個點代表一個細胞,在擬時間軸上,未經(jīng)過剪切的mRNA的出現(xiàn)始終早于經(jīng)過剪切的mRNA。如上右圖:紅色代表未經(jīng)過剪切的mRNA,藍色代表經(jīng)過剪切的mRNA,可以看出,這些細胞的應該是從左往右分化的,因此Velocity可以用于定義軌跡的起點分支和終點。也就是說,Velocity可以在不知發(fā)育過程的前提下,預測譜系的方向(如下圖)。 RNA velocity of single cells
Velocity可以用于周期的軌跡 RNA velocity of single cells
總結(jié):Which method should I use? A comparison of single-cell trajectory inference methods
A comparison of single-cell trajectory inference methods
最后編輯于:2022-07-01 04:23 |
|