在Encode的ATAC文庫質控標準中,認為一個高質量的文庫其FRiP score值應該大于0.03,最低也要大于0.02。FRiP全稱如下
表示的是位于peak區(qū)域的reads的比例,F(xiàn)RiP score是一個比值,其分子是位于peak區(qū)域的reads總數(shù),分母是比對到參考基因組上的reads總數(shù)。該值最初在chip_seq文庫質控中廣泛使用 如上圖所示,Encode匯總了不同轉錄因子的chip_seq數(shù)據(jù),繪制了peak總數(shù)與FRiP score值的分布圖。從圖中可以看出,F(xiàn)RiP score值與peak 總數(shù)呈現(xiàn)正相關關系,而且不同轉錄因子對應的FRiP score值也不盡相同。 最初制定FRiP score閾值的時候,就是一個經(jīng)驗閾值,觀察了上萬例樣本的FRip score值,發(fā)現(xiàn)絕大多數(shù)都位于0.01以上,所以采用0.01作為閾值。對于ATAC文庫而言,也是同樣的思路,由于ATAC的peak總數(shù)非常多,所以FRiP的閾值也比較大。需要指出的是,盡管FRiP score的閾值看上去是一個最低標準,但是由于不同組織,細胞類型的特異性,一刀切的標準是很難滿足所有情況的。對于不符合FRiP score值的樣本,應當結合TSS Enrichment score值等其他指標來進一步衡量其文庫質量。 在ATAC的peak caling中,使用了TagAlign這種bed文件來存儲reads的比對信息,通過這個文件也可以非??焖俚挠嬎鉌RiP score, 步驟如下 1. 計算比對上參考基因組的reads總數(shù)TagAlign格式中,每一行表示一個fragment的比對情況,要統(tǒng)計比對上的reads總數(shù),直接統(tǒng)計行數(shù)即可,代碼如下 wc -l sample.tn5.shift.tagalign 2. 計算peak區(qū)域的reads總數(shù)計算peak區(qū)域的reads數(shù)目,實際上可以轉換為peak區(qū)域與TagAlign這種bed文件取交集的操作,統(tǒng)計交集的行數(shù)即可,代碼如下 bedtools intersect -a sample.tn5.shift.tagalign -b sample.narrowpeak -wa -u | wc -l 將兩個數(shù)相除就得到了FRiP score, 需要注意的是,有些人會糾結fragment和read的概念,對于雙端測序而言,一個fragment會產(chǎn)生兩條reads, 上述的計算過程是針對fragment進行計數(shù)的,和reads數(shù)目的計算結果是有出入的。在我看來,F(xiàn)RiP score的核心思想是看peak區(qū)域的序列占所有比對上基因組序列的比例,用fragment也是對的,沒必要精細到read, 而且用fragment可以同時使用單端和雙端測序。 ·end· |
|