前面我們發(fā)布了 明碼標價之普通轉錄組上游分析,終于開始接單了,第一個項目介紹98個轉錄組測序數(shù)據(jù)的表達量獲取,超級簡單,就是耗費計算資源,500G的fastq數(shù)據(jù)文件,中間步驟加起來,起碼耗費2個T的磁盤空間吧。
不過方便的地方就是都是現(xiàn)成的代碼,首先參考:使用ebi數(shù)據(jù)庫直接下載fastq測序數(shù)據(jù) , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路徑文件,批量下載fq文件,走過濾質(zhì)控流程, 但是發(fā)現(xiàn)有3個居然失敗了,如下所示: $ ls -lh ../cleanData/*gz|grep trimmed -rw-rw-r-- 1 jmzeng jmzeng 3.3G 3月 23 21:15 ../cleanData/SRR11652583_1_trimmed.fq.gz -rw-rw-r-- 1 jmzeng jmzeng 2.6G 3月 23 21:31 ../cleanData/SRR11652583_2_trimmed.fq.gz -rw-rw-r-- 1 jmzeng jmzeng 1.9G 3月 23 20:51 ../cleanData/SRR11652586_1_trimmed.fq.gz
初步猜測是網(wǎng)絡問題,因為 使用ebi數(shù)據(jù)庫直接下載fastq測序數(shù)據(jù) , 就是有失敗率,所以檢查了fq文件完整度,代碼如下所示 : [3] Running gunzip -t SRR11652583_2.fastq.gz & [4] Running gunzip -t SRR11652583_2.fastq.gz & [5]- Running gunzip -t SRR11652586_1.fastq.gz & [6]+ Running gunzip -t SRR11652586_2.fastq.gz &
結果真的發(fā)現(xiàn): gzip: SRR11652583_2.fastq.gz: invalid compressed data--format violated gzip: SRR11652586_1.fastq.gz: unexpected end of file gzip: SRR11652583_2.fastq.gz: invalid compressed data--format violated
所以需要首先刪除這些不完整的文件: rm SRR11652583_* rm SRR11652586_*
然后重新下載它,但是發(fā)現(xiàn)這個時候呢,下載始終是吧,如下所示: spera提示: ascp: failed to authenticate, exiting. Session Stop (Error: failed to authenticate)
其實這個是無解的, 所以只能說放棄 aspera高速下載了,反正就兩三個樣品,直接wget也行。當然了,全部下載成功,仍然是少不了一個md5檢驗哦!
|