10X單細(xì)胞測(cè)序之cellranger介紹

新用戶(hù)3677sdB0 2021-06-30

展開(kāi)全文

簡(jiǎn)介

??目前10X單細(xì)胞測(cè)序算是測(cè)序行業(yè)最熱門(mén)的方向之一，它可以在低測(cè)序深度的情況下一次性的獲得成千上萬(wàn)的細(xì)胞及其每個(gè)細(xì)胞內(nèi)的基因表達(dá)情況，對(duì)了解細(xì)胞異質(zhì)性和新的細(xì)胞類(lèi)型非常有利。官網(wǎng)介紹的功能和優(yōu)勢(shì)如下：

- 鑒定和識(shí)別新細(xì)胞類(lèi)型；
- 分析并了解細(xì)胞異質(zhì)性及其對(duì)生物系統(tǒng)的影響；
- 用單細(xì)胞RNA-seq進(jìn)行細(xì)胞表型鑒定，無(wú)需預(yù)先選擇靶標(biāo)即可鑒定新的靶標(biāo)、生物標(biāo)志物以及細(xì)胞類(lèi)型和狀態(tài)；
- 評(píng)價(jià)同一細(xì)胞內(nèi)的mRNA和細(xì)胞表面蛋白表達(dá)譜；
- 同時(shí)在數(shù)以萬(wàn)計(jì)的細(xì)胞中進(jìn)行高通量和高分辨率的功能遺傳篩選；
- 評(píng)估單個(gè)CRISPR擾動(dòng)的綜合基因表達(dá)表型

??既然10X單細(xì)胞優(yōu)勢(shì)這么大，那么了解它數(shù)據(jù)的分析過(guò)程就十分有必要。單細(xì)胞分析的內(nèi)容主要包括數(shù)據(jù)拆分、細(xì)胞定量、降維聚類(lèi)、差異、富集和注釋。這次我們主要討論10X GENOMICS公司為單細(xì)胞轉(zhuǎn)錄組量身打造的軟件——cellranger。這款軟件能幫助我們實(shí)現(xiàn)分析內(nèi)容的前兩部步，其中還有最重要的一步——定量。

cellranger功能介紹

??cellranger功能強(qiáng)大，像數(shù)據(jù)拆分cellranger mkfastq、細(xì)胞定量cellranger count、組合分析cellranger aggr、二次分析cellranger reanalyze等分析都可以完成。

數(shù)據(jù)拆分

??在測(cè)序過(guò)程中經(jīng)常會(huì)出現(xiàn)兩個(gè)文庫(kù)上同一個(gè)lane，或者一個(gè)文庫(kù)上不同lane的情況，對(duì)于這種情況，使用cellranger的mkfastq工具就可以實(shí)現(xiàn)數(shù)據(jù)的拆分。有以下兩種運(yùn)行方式：

cellranger mkfastq --id test \  #指定輸出目錄的名字
--run run_directory \  #illumina 下機(jī)bcl文件夾的路徑。
--csv simple.csv

cellranger mkfastq --id test --run  run_directory --samplesheet samplesheet.csv

??該命令其實(shí)是對(duì)illumina提供的拆分?jǐn)?shù)據(jù)的bcl2fastq命令的一個(gè)封裝，需要樣本名稱(chēng)，index等信息，支持兩種格式，一種就是illlumina常規(guī)的samplesheet.csv文件，還有一種是10X genomics定制的一種簡(jiǎn)化版的csv格式。第一種如下所示，格式復(fù)雜：

image.png

??第二種含有三列信息，一列指定lane ID, 第二列指定樣本名稱(chēng)，第三列指定index的名稱(chēng)，10X genomics的每個(gè)index代表4條具體的oligo序列。推薦使用第二種簡(jiǎn)化版的csv文件，因?yàn)閏ell ranger可以識(shí)別所用試劑盒版本，然后自動(dòng)化的調(diào)整reads長(zhǎng)度。

Lane,Sample,Index
1,test,SI-GA-A3

??拆分好后的目錄結(jié)果如下：

├── fastq_path
│   ├── H35KCBCXY
│   │   └── test
│   │       ├── test_S1_L001_I1_001.fastq.gz #index序列
│   │       ├── test_S1_L001_R1_001.fastq.gz
│   │       └── test_S1_L001_R2_001.fastq.gz

細(xì)胞定量

??如果手里頭數(shù)據(jù)已經(jīng)是拆分好的fq.gz數(shù)據(jù)，就可以直接進(jìn)行該部分分析。cellranger提供count工具實(shí)現(xiàn)測(cè)序數(shù)據(jù)中細(xì)胞和基因的定量，產(chǎn)生后續(xù)分析用到的基因表達(dá)矩陣，運(yùn)行方式如下：

 cellranger count --id=sample345 \  #輸出文件夾名
                   --transcriptome=/opt/refdata-cellranger-GRCh38-3.0.0 \  #參考基因組路徑
                   --fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \  #fq.gz所在路徑
                   --sample=mysample \ #樣品名
                   --expect-cells=1000 #期望的細(xì)胞回收數(shù)，默認(rèn)3000
                   --force-cells  強(qiáng)制收回的細(xì)胞數(shù)，如果Fraction Reads in Cells過(guò)低，每個(gè)樣本過(guò)濾后細(xì)胞的reads數(shù)占總reads數(shù)比例過(guò)低，表明檢測(cè)到的reads大部分不在細(xì)胞中，可提高該參數(shù)來(lái)增加細(xì)胞數(shù)
                   --r1-length  read1保留的長(zhǎng)度，不能低于26bp
                   --r2-length read2保留的長(zhǎng)度
                   --localcores cpu數(shù)
                   --localmem 內(nèi)存

??輸出文件夾內(nèi)容：

.outs
├── analysis #數(shù)據(jù)分析文件夾
│   ├── clustering #聚類(lèi)，圖聚類(lèi)和k-means聚類(lèi)
│   ├── diffexp #差異分析
│   ├── pca #主成分分析線性降維
│   └── tsne #非線性降維信息
├── cloupe.cloupe #Loupe Cell Browser 輸入文件
├── filtered_feature_bc_matrix #過(guò)濾后矩陣信息，后續(xù)降維聚類(lèi)分析使用的路徑
│   ├── barcodes.tsv.gz  #過(guò)濾（細(xì)胞中表達(dá)基因的數(shù)目在閾值內(nèi)）后的細(xì)胞總數(shù)文件
│   ├── features.tsv.gz #所有細(xì)胞表達(dá)基因的并集
│   └── matrix.mtx.gz #坐標(biāo)文件，第一列是基因行號(hào)，第二列是細(xì)胞列號(hào)，第三列是基因表達(dá)量，僅僅是列出有表達(dá)量的基因
├── filtered_feature_bc_matrix.h5  #過(guò)濾掉的barcode信息HDF5 format
├── metrics_summary.csv #CSV format數(shù)據(jù)摘要
├── molecule_info.h5 #UMI信息，aggregate的時(shí)候會(huì)用到的文件
├── raw_feature_bc_matrix #過(guò)濾前矩陣信息
│   ├── barcodes.tsv.gz
│   ├── features.tsv.gz
│   └── matrix.mtx.gz
├──  possorted_genome_bam.bam #比對(duì)文件
├──  possorted_genome_bam.bam.bai  #索引文件
├── raw_feature_bc_matrix.h5 #原始barcode信息HDF5 format
├── web_summary.html #網(wǎng)頁(yè)形式的報(bào)告以及可視化
└── *_gene_bar.csv_temp #過(guò)程文件

細(xì)胞合并

??對(duì)于這個(gè)功能，官網(wǎng)如此介紹：當(dāng)進(jìn)行涉及多個(gè)GEM Well的大型研究時(shí)，運(yùn)行cellranger請(qǐng)分別從每個(gè)GEM Well收集fastq數(shù)據(jù)，然后使用cellranger aggr匯集結(jié)果。也就是說(shuō)，需要分樣進(jìn)行cellranger count分析，然后再使用aggr進(jìn)行合并。

cellranger aggr --id=AGG123 \ #輸出文件夾名
                  --csv=AGG123_libraries.csv                   --normalize=mapped #測(cè)序文庫(kù)深度校正的標(biāo)準(zhǔn)化方法，默認(rèn)mapped
                  --nosecondary  是否跳過(guò)二次分析（降維、聚類(lèi)和可視化）

??csv文件需要兩列文件，第一列是GEM well唯一的標(biāo)識(shí)ID，第二列是運(yùn)行count產(chǎn)生的molecule_info.h5文件，格式如下：

library_id,molecule_h5
LV123,/opt/runs/LV123/outs/molecule_info.h5
LB456,/opt/runs/LB456/outs/molecule_info.h5
LP789,/opt/runs/LP789/outs/molecule_info.h5

??輸出結(jié)果，目錄結(jié)構(gòu)和count基本一致：

Outputs:
- Aggregation metrics summary HTML:         /home/jdoe/runs/AGG123/outs/web_summary.html
- Aggregation metrics summary JSON:         /home/jdoe/runs/AGG123/outs/summary.json
- Secondary analysis output CSV:            /home/jdoe/runs/AGG123/outs/analysis
- Filtered feature-barcode matrices MEX:    /home/jdoe/runs/AGG123/outs/filtered_feature_bc_matrix
- Filtered feature-barcode matrices HDF5:   /home/jdoe/runs/AGG123/outs/filtered_feature_bc_matrix.h5
- Unfiltered feature-barcode matrices MEX:  /home/jdoe/runs/AGG123/outs/raw_feature_bc_matrix
- Unfiltered feature-barcode matrices HDF5: /home/jdoe/runs/AGG123/outs/raw_feature_bc_matrix.h5
- Unfiltered molecule-level info:           /home/jdoe/runs/AGG123/outs/raw_molecules.h5
- Barcodes of cell-containing partitions:   /home/jdoe/runs/AGG123/outs/cell_barcodes.csv
- Copy of the input aggregation CSV:        /home/jdoe/runs/AGG123/outs/aggregation.csv
- Loupe Cell Browser file:                  /home/jdoe/runs/AGG123/outs/cloupe.cloupe

二次分析

??如果第一次count分析結(jié)果不理想，如檢測(cè)到的reads大部分不在細(xì)胞中，可以在二次分析中調(diào)參數(shù)重新分析，并且使用的數(shù)據(jù)不再是fq.gz數(shù)據(jù)，速度更快，使用方法：

cellranger reanalyze --id=AGG123_reanalysis \  #輸出目錄名
                       --matrix=AGG123/outs/filtered_feature_bc_matrix.h5 \   #count分析后的h5文件，如果--force-cells中的數(shù)目大于第一次過(guò)濾得到的細(xì)胞數(shù)，需要使用raw_feature_bc_matrix.h5文件
                       --params=AGG123_reanalysis.csv  #重分析的csv文件，包含一些參數(shù)及值，不含表頭，主要是聚類(lèi)、PCA分析參數(shù)。如果為空，則按照參數(shù)的默認(rèn)值分析。因?yàn)?0X單細(xì)胞后續(xù)的聚類(lèi)差異等分析會(huì)使用其他軟件（Seurat、Monocle）分析，所以該文件為空就行。
                       --force-cells  3000  #強(qiáng)制收回的細(xì)胞數(shù)

??輸出結(jié)果如下：

Outputs:
- Secondary analysis output CSV:          /home/jdoe/runs/AGG123_reanalysis/outs/analysis_csv
- Secondary analysis web summary:         /home/jdoe/runs/AGG123_reanalysis/outs/web_summary.html
- Copy of the input parameter CSV:        /home/jdoe/runs/AGG123_reanalysis/outs/params_csv.csv
- Copy of the input aggregation CSV:      /home/jdoe/runs/AGG123_reanalysis/outs/aggregation_csv.csv
- Loupe Cell Browser file:                /home/jdoe/runs/AGG123_reanalysis/outs/cloupe.cloupe

參考文章

使用cell ranger拆分10X單細(xì)胞轉(zhuǎn)錄組原始數(shù)據(jù)
10X單細(xì)胞測(cè)序分析軟件:Cell ranger

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：新用戶(hù)3677sdB0 > 《技術(shù)》

舉報(bào)/認(rèn)領(lǐng)