HiC-Pro軟件非常靈活,不僅可以處理各種不同建庫(kù)方式的Hi-C數(shù)據(jù),也可以處理capture Hi-C數(shù)據(jù)。軟件安裝過(guò)程如下 yum install -y epel-release # R yum install -y R R install.packages(c("ggplot2", "RColorBrewer")) # python yum install -y gcc gcc-c++ make yum install -y python2 python-devel python2-pip pip install pysam pip install "scipy<1" pip install bx-python # bowtie2 yum install -y wget wget https:///projects/bowtie-bio/files/bowtie2/2.3.4.1/bowtie2-2.3.4.1-linux-x86_64.zip unzip bowtie2-2.3.4.1-linux-x86_64.zip # samtools yum install bzip2 bzip2-devel libcurl libcurl-devel ncurses-devel openssl openssl-devel wget https://github.com/samtools/samtools/releases/download/1.6/samtools-1.6.tar.bz2 tar xjvf samtools-1.6.tar.bz2 cd samtools-1.6/ ./configure make make install # HiC-Pro wget https://github.com/nservant/HiC-Pro/archive/v2.11.1.tar.gz tar xzvf v2.11.1.tar.gz cd HiC-Pro-2.11.1 make configure make install 安裝好之后,需要準(zhǔn)備以下幾種參考物種的相關(guān)文件 1. 酶切圖譜通過(guò)軟件自帶的腳本可以產(chǎn)生基因組對(duì)應(yīng)的酶切圖譜,輸入內(nèi)切酶的名稱或者酶切位點(diǎn)序列都可以,用法如下 digest_genome.py -r A^AGCTT -o mm9_hindiii.bed mm9.fasta digest_genome.py -r hindiii -o mm9_hindiii.bed mm9.fasta 2. 參考基因組索引軟件采用bowtie2 將reads比對(duì)到參考基因組上,所以需要對(duì)基因組的fasta文件建立索引,用法如下 bowtie2-build hg19.fasta hg19 3. 染色體長(zhǎng)度文件從UCSC下載染色體長(zhǎng)度文件,或者自己根據(jù)fasta序列統(tǒng)計(jì)長(zhǎng)度都可以,該文件內(nèi)容如下 chr1 249250621 chr2 243199373 chr3 198022430 chr4 191154276 這里我們用官網(wǎng)提供的測(cè)試數(shù)據(jù)展示下基本用法,首先下載測(cè)試數(shù)據(jù) wget --no-check-certificate https://zerkalo./partage/HiC-Pro/HiCPro_testdata.tar.gz tar xzcf HiCPro_testdata.tar.gz HiC-Pro的所有參數(shù)都記錄在配置文件中,安裝目錄提供了配置文件的模板config_test_latest.txt`, 在此基礎(chǔ)上進(jìn)行編輯就可以了。常見的需要配置的參數(shù)如下 BOWTIE2_IDX_PATH = /data/annotation/Human/hg19/base REFERENCE_GENOME = hg19 GENOME_SIZE = chrom_hg19.sizes GENOME_FRAGMENT = HindIII_resfrag_hg19.bed LIGATION_SITE = AAGCTAGCTT 對(duì)于這個(gè)測(cè)試文件,只需要編輯bowtie2索引所在目錄就可以了,編輯好之后直接運(yùn)行,用法如下 HiC-Pro -i test_data/ -o out_dir -c config_test_latest.txt 用法非常簡(jiǎn)單,-i 參數(shù)指定樣本fastq文件文件所在目錄,-o 參數(shù)指定輸出結(jié)果的目錄,-c 參數(shù)指定配置文件的名稱。 對(duì)于fastq文件所在目錄,結(jié)構(gòu)如下所示 ├── dixon_2M │ ├── SRR400264_00_R1.fastq.gz │ └── SRR400264_00_R2.fastq.gz └── dixon_2M_2 ├── SRR400264_01_R1.fastq.gz └── SRR400264_01_R2.fastq.gz 每個(gè)樣本一個(gè)子文件夾,下面是對(duì)應(yīng)的雙端測(cè)序的fastq文件。輸出結(jié)果目錄如下 |-- bowtie_results |-- config_test_latest.txt |-- hic_results |-- logs |-- rawdata -> /HiC-Pro-2.11.1/test_data/ `-- tmp 其中hic_results 目錄下是最終結(jié)果,包含了不同分辨率下的hi-c圖譜和質(zhì)控的圖表。
|