小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

單細胞系列課程

 cmu小孩 2024-05-19 發(fā)布于德國

一、為什么要做軌跡分析以及軌跡分析的定義

在進行標準的單細胞分析流程得到聚類結(jié)果后,可以進行軌跡分析,并進一步進行基因表達分析。
但并不是只有聚類結(jié)果才可進行軌跡分析,標準分析中的很多步驟都可以follow with軌跡分析。

在整個生命生長發(fā)育過程中,細胞都在不斷從一種功能“狀態(tài)”過渡到另一種功能“狀態(tài)”(如下圖)。處于不同狀態(tài)的細胞表達不同的基因,產(chǎn)生蛋白質(zhì)和代謝物的動態(tài)重復,從而完成它們的工作。當細胞在不同的狀態(tài)間轉(zhuǎn)化時,會經(jīng)歷轉(zhuǎn)錄重組的過程,一些基因被沉默,而另一些則被激活。這些瞬態(tài)通常很難描述,因為在更穩(wěn)定的端點狀態(tài)之間凈化細胞可能很困難或不可能。但由于這個過程是連續(xù)發(fā)生的,我們可以使用軌跡推斷(TI,trajectory inference)的方法可以根據(jù)測序的細胞(瞬時狀態(tài))之間表達模式的相似性對單細胞沿著軌跡進行排序,以此來模擬細胞動態(tài)變化的過程。也就是重建分化軌跡或者擬時間軸。

但值得注意的是,并不是所有樣本都適合進行軌跡分析。

比如我們明確知道骨髓中存在分化中間態(tài)的細胞(存在從干細胞到成熟細胞的分化過程),因此骨髓的樣本可以進行軌跡分析。但一些樣本如PBMC中幾乎都是分化成熟的細胞,雖然也可以做軌跡分析,但是意義不大。此外,存在分化過程的細胞也有差別。比如B細胞到漿細胞的分化更像是一個線形過程,不存在分支(branch),所以B細胞不適合做branching。但Th細胞向其亞型的分化可能就存在多個分支。

自2014年以來,TI的各種算法得到飛速發(fā)展,至2018年已有接近60種方法。

Trajectory Inference主要方法的pipeline總結(jié):主要包括兩個step:降維和軌跡建模
文獻:Computational methods for trajectory inference from single-cell transcriptomics

二、降維方法

降維的方法包括線性降維PCA,ICA等,和非線性降維TSNE,UMAP,DF等。在學習軌跡分析之前,先來了解兩種之前接觸的比較少的降維方法:ICA和DF。

1. ICA (Independent Component Analysis)獨立成分分析

ICA是數(shù)據(jù)結(jié)構(gòu)的一種方法(A method for decomposing the data)。monocle1使用的就是ICA方法。

ICA與PCA比較類似,PCA(對高斯分布的數(shù)據(jù)效果較好)是將高變基因分配到主要的主成分中,用主成分來進行后續(xù)分析。而ICA是將數(shù)據(jù)解構(gòu),從混雜的信號中分離原始的多個生物信號。

PCA和ICA的區(qū)別:
主成分分析假設(shè)源信號間彼此非相關(guān),獨立成分分析假設(shè)源信號間彼此獨立。
主成分分析認為主元之間彼此正交,樣本呈高斯分布;獨立成分分析則不要求樣本呈高斯分布。

ICA的缺點:

  1. ICA假設(shè)它找出來的生物信號都是相互獨立的。
  2. 每個信號的來源都是非高斯分布。舉例來說,在教室中放一些麥克風,在很多人都同時講話的時候,我們可以使用ICA來對混雜信號進行解構(gòu)以判斷是誰在講話。這些混雜的聲音信號就是非高斯分布的。但是很多的生物學信號都是高斯分布的。對單細胞數(shù)據(jù)來說,也很難區(qū)分是高斯分布還是非高斯分布。

總結(jié):ICA和PCA一樣,是一種線性降維方法。常被用于評估數(shù)據(jù)的原始組成。在ICA中,這些原始信號被認為是互相獨立的,而且,ICA會先假定單細胞數(shù)據(jù)是非高斯分布的,實際上往往不是這樣。不同的信號在ICA分析中同等重要,但ICA不能確定實際有多少個信號源。

2. DF (Diffusion Maps)擴散映射

Diffusion maps是一種非線性降維方法。
Diffusion maps原理講解視頻:https://www.bilibili.com/video/av38891467/

Diffusion Map用的是Diffusion Process的方法。如果兩個點距離較近,則從一個點隨機行走到一個點的概率就大。反之,如果兩個點距離較遠,則從一個點隨機行走到一個點的概率就小。Deffusion Map就是這樣將兩個點之間的距離轉(zhuǎn)換成它們之間能夠產(chǎn)生隨機行走的概率 ,并用這個隨機行走的過程去捕捉數(shù)據(jù)的neighborhood結(jié)構(gòu),從而將一個高維的扭曲的數(shù)據(jù)展開,變成一個低維的visualization。

簡單來說,為了把可能性轉(zhuǎn)化成距離,DM可以計算B到C的可能性,再計算A到C的可能性。根據(jù)公式,如果兩種可能性差不多大,那么他們的差值就趨于0。說明A到B的過程可以通過C來很好的連接起來。

DM是一種非線性降維(UMAP和tSNE也是非線形降維)。點和點之間(也就是細胞和細胞之間的距離)是通過probability來計算的。

三、定義軌跡

在學習了ICA和DM兩種降維方法后,現(xiàn)在我們想要建立細胞之間的關(guān)系,定義軌跡應該從哪里開始,在哪里結(jié)束。

1. MST (minimum spamming tree)

舉個例子:下圖中有很多點,每個點之間的距離都可以計算(比如使用DM來計算點和點之間的possibility)。將點連線,尋找一個所有的點之間距離加和最小的連接方式,得到的結(jié)果如黑色的粗線所示,這就是最小生成樹。細胞數(shù)目越多,MST的軌跡構(gòu)建越準確。

monocle1中使用的就是這種方式。如下圖a:每個細胞都代表了高維空間中的一個點,將高維空間降維(使用PCA/ICA或UMAP/TSNE),隨后使用MST定義細胞軌跡,并將細胞按照MST構(gòu)建的生成樹排序,標注上細胞類型,就可以得到細胞軌跡。

The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells

但值得注意的是,MST只能構(gòu)建細胞軌跡,但不能告訴你端點是轉(zhuǎn)錄起始點還是終止點,也就是不知道是從哪個方向向哪個方向分化。所以如果有先驗知識(比如干細胞向別的細胞分化),就會容易很多。
此外,由于MST沒有循環(huán),所以不適用于增殖細胞(細胞周期)樣本。

2. RGE(Reverse graph embedding, i.e. DDRTree and others)

第二種方法叫做反向圖嵌入。
如下圖A和B:在使用MST進行軌跡推斷時,由于最小生成樹高度依賴于每個點的位置和點與點之間的距離,僅僅只是某個點的位置有些微變化就會得到完全不同的細胞軌跡。而REG的方法(圖C)則是先對細胞進行聚類,再對細胞群的平均值進行軌跡構(gòu)建。

TSCAN: Pseudo-time reconstruction and evaluation in single-cell RNA-seq analysis

Monocle2中使用的就是RGE方法(DDRTree)。

Reversed graph embedding resolves complex single-cell trajectories

上圖顯示的是RGE的工作原理。每個細胞都代表了高維空間中的一個點,使用PCA或其他方法來對細胞進行降維后,根據(jù)假定的細胞cluster的中心點來對軌跡進行構(gòu)建。隨后計算細胞到假設(shè)軌跡的距離,并將細胞分配到距離細胞最近的軌跡cluster上,分配完成后對中心點進行更新,重建軌跡,再將二維軌跡投射到多維空間里,比較與原始數(shù)據(jù)的契合度,如果match的不好,就重新降維和構(gòu)建軌跡,循環(huán)這個過程,直到細胞軌跡能充分反映原始data(類似降維中的TSNE和UMAP循環(huán))。這時就可以選擇軌跡的root(需要先驗知識),并對擬時間軸或者發(fā)育軌跡進行定義。根據(jù)軌跡圖中的分叉,還可以定義cell fate。

REG還衍生出了許多方法,比如PAGA、Slingshot、TSCAN、CellRouter等。

Monocle3進行聚類的原理與Monocle2類似
Monocle3的工作流程:scRNAseq數(shù)據(jù) --> 預處理(標準化 PCA)--> 降維 --> 聚類 --> 擬時間軸的建立(DDRTree、SimplePPT、L1-graph)--> 差異分析

和Monocle2相比,Monocle3的主要update:

3. RNA velocity (gene expression trajectory)

RNA velocity是基于真實的轉(zhuǎn)錄動力學,可用于細胞基因表達的動態(tài)分化的研究。

RNA velocity of single cells

如上左圖,剛轉(zhuǎn)錄出的mRNA包含外顯子和內(nèi)含子,經(jīng)過splicing切除內(nèi)含子后,得到用于編碼蛋白的spliced mRNA。spliced mRNA的豐度由未成熟mRNA的splicing速度和降解速率共同決定。如上中圖:每個點代表一個細胞,在擬時間軸上,未經(jīng)過剪切的mRNA的出現(xiàn)始終早于經(jīng)過剪切的mRNA。如上右圖:紅色代表未經(jīng)過剪切的mRNA,藍色代表經(jīng)過剪切的mRNA,可以看出,這些細胞的應該是從左往右分化的,因此Velocity可以用于定義軌跡的起點分支和終點。也就是說,Velocity可以在不知發(fā)育過程的前提下,預測譜系的方向(如下圖)。

RNA velocity of single cells

Velocity可以用于周期的軌跡

RNA velocity of single cells

總結(jié):

Which method should I use?

A comparison of single-cell trajectory inference methods
A comparison of single-cell trajectory inference methods
最后編輯于:2022-07-01 04:23

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多