簡(jiǎn)介
??目前10X單細(xì)胞測(cè)序算是測(cè)序行業(yè)最熱門(mén)的方向之一,它可以在低測(cè)序深度的情況下一次性的獲得成千上萬(wàn)的細(xì)胞及其每個(gè)細(xì)胞內(nèi)的基因表達(dá)情況,對(duì)了解細(xì)胞異質(zhì)性和新的細(xì)胞類(lèi)型非常有利。官網(wǎng)介紹的功能和優(yōu)勢(shì)如下:
- 鑒定和識(shí)別新細(xì)胞類(lèi)型;
- 分析并了解細(xì)胞異質(zhì)性及其對(duì)生物系統(tǒng)的影響;
- 用單細(xì)胞RNA-seq進(jìn)行細(xì)胞表型鑒定,無(wú)需預(yù)先選擇靶標(biāo)即可鑒定新的靶標(biāo)、生物標(biāo)志物以及細(xì)胞類(lèi)型和狀態(tài);
- 評(píng)價(jià)同一細(xì)胞內(nèi)的mRNA和細(xì)胞表面蛋白表達(dá)譜;
- 同時(shí)在數(shù)以萬(wàn)計(jì)的細(xì)胞中進(jìn)行高通量和高分辨率的功能遺傳篩選;
- 評(píng)估單個(gè)CRISPR擾動(dòng)的綜合基因表達(dá)表型
??既然10X單細(xì)胞優(yōu)勢(shì)這么大,那么了解它數(shù)據(jù)的分析過(guò)程就十分有必要。單細(xì)胞分析的內(nèi)容主要包括數(shù)據(jù)拆分、細(xì)胞定量、降維聚類(lèi)、差異、富集和注釋。這次我們主要討論10X GENOMICS公司為單細(xì)胞轉(zhuǎn)錄組量身打造的軟件——cellranger。這款軟件能幫助我們實(shí)現(xiàn)分析內(nèi)容的前兩部步,其中還有最重要的一步——定量。
cellranger功能介紹
??cellranger功能強(qiáng)大,像數(shù)據(jù)拆分cellranger mkfastq、細(xì)胞定量cellranger count、組合分析cellranger aggr、二次分析cellranger reanalyze等分析都可以完成。
數(shù)據(jù)拆分
??在測(cè)序過(guò)程中經(jīng)常會(huì)出現(xiàn)兩個(gè)文庫(kù)上同一個(gè)lane,或者一個(gè)文庫(kù)上不同lane的情況,對(duì)于這種情況,使用cellranger的mkfastq工具就可以實(shí)現(xiàn)數(shù)據(jù)的拆分。有以下兩種運(yùn)行方式:
cellranger mkfastq --id test \ #指定輸出目錄的名字
--run run_directory \ #illumina 下機(jī)bcl文件夾的路徑。
--csv simple.csv
cellranger mkfastq --id test --run run_directory --samplesheet samplesheet.csv
??該命令其實(shí)是對(duì)illumina提供的拆分?jǐn)?shù)據(jù)的bcl2fastq命令的一個(gè)封裝,需要樣本名稱(chēng),index等信息,支持兩種格式,一種就是illlumina常規(guī)的samplesheet.csv文件,還有一種是10X genomics定制的一種簡(jiǎn)化版的csv格式。第一種如下所示,格式復(fù)雜:
??第二種含有三列信息,一列指定lane ID, 第二列指定樣本名稱(chēng),第三列指定index的名稱(chēng),10X genomics的每個(gè)index代表4條具體的oligo序列。推薦使用第二種簡(jiǎn)化版的csv文件,因?yàn)閏ell ranger可以識(shí)別所用試劑盒版本,然后自動(dòng)化的調(diào)整reads長(zhǎng)度。
Lane,Sample,Index
1,test,SI-GA-A3
??拆分好后的目錄結(jié)果如下:
├── fastq_path
│ ├── H35KCBCXY
│ │ └── test
│ │ ├── test_S1_L001_I1_001.fastq.gz #index序列
│ │ ├── test_S1_L001_R1_001.fastq.gz
│ │ └── test_S1_L001_R2_001.fastq.gz
細(xì)胞定量
??如果手里頭數(shù)據(jù)已經(jīng)是拆分好的fq.gz數(shù)據(jù),就可以直接進(jìn)行該部分分析。cellranger提供count工具實(shí)現(xiàn)測(cè)序數(shù)據(jù)中細(xì)胞和基因的定量,產(chǎn)生后續(xù)分析用到的基因表達(dá)矩陣,運(yùn)行方式如下:
cellranger count --id=sample345 \ #輸出文件夾名
--transcriptome=/opt/refdata-cellranger-GRCh38-3.0.0 \ #參考基因組路徑
--fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \ #fq.gz所在路徑
--sample=mysample \ #樣品名
--expect-cells=1000 #期望的細(xì)胞回收數(shù),默認(rèn)3000
--force-cells 強(qiáng)制收回的細(xì)胞數(shù),如果Fraction Reads in Cells過(guò)低,每個(gè)樣本過(guò)濾后細(xì)胞的reads數(shù)占總reads數(shù)比例過(guò)低,表明檢測(cè)到的reads大部分不在細(xì)胞中,可提高該參數(shù)來(lái)增加細(xì)胞數(shù)
--r1-length read1保留的長(zhǎng)度,不能低于26bp
--r2-length read2保留的長(zhǎng)度
--localcores cpu數(shù)
--localmem 內(nèi)存
??輸出文件夾內(nèi)容:
.outs
├── analysis #數(shù)據(jù)分析文件夾
│ ├── clustering #聚類(lèi),圖聚類(lèi)和k-means聚類(lèi)
│ ├── diffexp #差異分析
│ ├── pca #主成分分析線性降維
│ └── tsne #非線性降維信息
├── cloupe.cloupe #Loupe Cell Browser 輸入文件
├── filtered_feature_bc_matrix #過(guò)濾后矩陣信息,后續(xù)降維聚類(lèi)分析使用的路徑
│ ├── barcodes.tsv.gz #過(guò)濾(細(xì)胞中表達(dá)基因的數(shù)目在閾值內(nèi))后的細(xì)胞總數(shù)文件
│ ├── features.tsv.gz #所有細(xì)胞表達(dá)基因的并集
│ └── matrix.mtx.gz #坐標(biāo)文件,第一列是基因行號(hào),第二列是細(xì)胞列號(hào),第三列是基因表達(dá)量,僅僅是列出有表達(dá)量的基因
├── filtered_feature_bc_matrix.h5 #過(guò)濾掉的barcode信息HDF5 format
├── metrics_summary.csv #CSV format數(shù)據(jù)摘要
├── molecule_info.h5 #UMI信息,aggregate的時(shí)候會(huì)用到的文件
├── raw_feature_bc_matrix #過(guò)濾前矩陣信息
│ ├── barcodes.tsv.gz
│ ├── features.tsv.gz
│ └── matrix.mtx.gz
├── possorted_genome_bam.bam #比對(duì)文件
├── possorted_genome_bam.bam.bai #索引文件
├── raw_feature_bc_matrix.h5 #原始barcode信息HDF5 format
├── web_summary.html #網(wǎng)頁(yè)形式的報(bào)告以及可視化
└── *_gene_bar.csv_temp #過(guò)程文件
細(xì)胞合并
??對(duì)于這個(gè)功能,官網(wǎng)如此介紹:當(dāng)進(jìn)行涉及多個(gè)GEM Well的大型研究時(shí),運(yùn)行cellranger請(qǐng)分別從每個(gè)GEM Well收集fastq數(shù)據(jù),然后使用cellranger aggr匯集結(jié)果。也就是說(shuō),需要分樣進(jìn)行cellranger count分析,然后再使用aggr進(jìn)行合并。
cellranger aggr --id=AGG123 \ #輸出文件夾名
--csv=AGG123_libraries.csv --normalize=mapped #測(cè)序文庫(kù)深度校正的標(biāo)準(zhǔn)化方法,默認(rèn)mapped
--nosecondary 是否跳過(guò)二次分析(降維、聚類(lèi)和可視化)
??csv文件需要兩列文件,第一列是GEM well唯一的標(biāo)識(shí)ID,第二列是運(yùn)行count產(chǎn)生的molecule_info.h5文件,格式如下:
library_id,molecule_h5
LV123,/opt/runs/LV123/outs/molecule_info.h5
LB456,/opt/runs/LB456/outs/molecule_info.h5
LP789,/opt/runs/LP789/outs/molecule_info.h5
??輸出結(jié)果,目錄結(jié)構(gòu)和count基本一致:
Outputs:
- Aggregation metrics summary HTML: /home/jdoe/runs/AGG123/outs/web_summary.html
- Aggregation metrics summary JSON: /home/jdoe/runs/AGG123/outs/summary.json
- Secondary analysis output CSV: /home/jdoe/runs/AGG123/outs/analysis
- Filtered feature-barcode matrices MEX: /home/jdoe/runs/AGG123/outs/filtered_feature_bc_matrix
- Filtered feature-barcode matrices HDF5: /home/jdoe/runs/AGG123/outs/filtered_feature_bc_matrix.h5
- Unfiltered feature-barcode matrices MEX: /home/jdoe/runs/AGG123/outs/raw_feature_bc_matrix
- Unfiltered feature-barcode matrices HDF5: /home/jdoe/runs/AGG123/outs/raw_feature_bc_matrix.h5
- Unfiltered molecule-level info: /home/jdoe/runs/AGG123/outs/raw_molecules.h5
- Barcodes of cell-containing partitions: /home/jdoe/runs/AGG123/outs/cell_barcodes.csv
- Copy of the input aggregation CSV: /home/jdoe/runs/AGG123/outs/aggregation.csv
- Loupe Cell Browser file: /home/jdoe/runs/AGG123/outs/cloupe.cloupe
二次分析
??如果第一次count分析結(jié)果不理想,如檢測(cè)到的reads大部分不在細(xì)胞中,可以在二次分析中調(diào)參數(shù)重新分析,并且使用的數(shù)據(jù)不再是fq.gz數(shù)據(jù),速度更快,使用方法:
cellranger reanalyze --id=AGG123_reanalysis \ #輸出目錄名
--matrix=AGG123/outs/filtered_feature_bc_matrix.h5 \ #count分析后的h5文件,如果--force-cells中的數(shù)目大于第一次過(guò)濾得到的細(xì)胞數(shù),需要使用raw_feature_bc_matrix.h5文件
--params=AGG123_reanalysis.csv #重分析的csv文件,包含一些參數(shù)及值,不含表頭,主要是聚類(lèi)、PCA分析參數(shù)。如果為空,則按照參數(shù)的默認(rèn)值分析。因?yàn)?0X單細(xì)胞后續(xù)的聚類(lèi)差異等分析會(huì)使用其他軟件(Seurat、Monocle)分析,所以該文件為空就行。
--force-cells 3000 #強(qiáng)制收回的細(xì)胞數(shù)
??輸出結(jié)果如下:
Outputs:
- Secondary analysis output CSV: /home/jdoe/runs/AGG123_reanalysis/outs/analysis_csv
- Secondary analysis web summary: /home/jdoe/runs/AGG123_reanalysis/outs/web_summary.html
- Copy of the input parameter CSV: /home/jdoe/runs/AGG123_reanalysis/outs/params_csv.csv
- Copy of the input aggregation CSV: /home/jdoe/runs/AGG123_reanalysis/outs/aggregation_csv.csv
- Loupe Cell Browser file: /home/jdoe/runs/AGG123_reanalysis/outs/cloupe.cloupe
參考文章
使用cell ranger拆分10X單細(xì)胞轉(zhuǎn)錄組原始數(shù)據(jù)
10X單細(xì)胞測(cè)序分析軟件:Cell ranger
|