【原】手把手教你計算FRiP score的值

生信修煉手冊 2020-01-15

展開全文

在Encode的ATAC文庫質控標準中，認為一個高質量的文庫其FRiP score值應該大于0.03，最低也要大于0.02。FRiP全稱如下

Fraction of reads in peaks

表示的是位于peak區(qū)域的reads的比例，F(xiàn)RiP score是一個比值，其分子是位于peak區(qū)域的reads總數(shù)，分母是比對到參考基因組上的reads總數(shù)。該值最初在chip_seq文庫質控中廣泛使用

如上圖所示，Encode匯總了不同轉錄因子的chip_seq數(shù)據(jù)，繪制了peak總數(shù)與FRiP score值的分布圖。從圖中可以看出，F(xiàn)RiP score值與peak 總數(shù)呈現(xiàn)正相關關系，而且不同轉錄因子對應的FRiP score值也不盡相同。

最初制定FRiP score閾值的時候，就是一個經(jīng)驗閾值，觀察了上萬例樣本的FRip score值，發(fā)現(xiàn)絕大多數(shù)都位于0.01以上，所以采用0.01作為閾值。對于ATAC文庫而言，也是同樣的思路，由于ATAC的peak總數(shù)非常多，所以FRiP的閾值也比較大。需要指出的是，盡管FRiP score的閾值看上去是一個最低標準，但是由于不同組織，細胞類型的特異性，一刀切的標準是很難滿足所有情況的。對于不符合FRiP score值的樣本，應當結合TSS Enrichment score值等其他指標來進一步衡量其文庫質量。

介紹完了FRip Score的概念和應用，我們來看下其計算過程。從概念出發(fā)，只需要peak區(qū)域內(nèi)的read總數(shù)和mapping上參考基因組的reads總數(shù)即可。

在ATAC的peak caling中，使用了TagAlign這種bed文件來存儲reads的比對信息，通過這個文件也可以非?？焖俚挠嬎鉌RiP score, 步驟如下

1. 計算比對上參考基因組的reads總數(shù)

TagAlign格式中，每一行表示一個fragment的比對情況，要統(tǒng)計比對上的reads總數(shù)，直接統(tǒng)計行數(shù)即可，代碼如下

wc -l sample.tn5.shift.tagalign

2. 計算peak區(qū)域的reads總數(shù)

計算peak區(qū)域的reads數(shù)目，實際上可以轉換為peak區(qū)域與TagAlign這種bed文件取交集的操作，統(tǒng)計交集的行數(shù)即可，代碼如下

bedtools intersect -a sample.tn5.shift.tagalign -b sample.narrowpeak -wa -u | wc -l

將兩個數(shù)相除就得到了FRiP score, 需要注意的是，有些人會糾結fragment和read的概念，對于雙端測序而言，一個fragment會產(chǎn)生兩條reads, 上述的計算過程是針對fragment進行計數(shù)的，和reads數(shù)目的計算結果是有出入的。在我看來，F(xiàn)RiP score的核心思想是看peak區(qū)域的序列占所有比對上基因組序列的比例，用fragment也是對的，沒必要精細到read, 而且用fragment可以同時使用單端和雙端測序。

·end·