|
會不會還有小伙伴問什么是基因富集?。恳郧安恢罌]關系,你只要知道對科研很重要就好了,具體也可以看前幾天推了一篇說起基因富集:它比DAVID更新更快,更傻瓜。 但小編白癡地以為只有幾個軟件可以用來做富集分析。然鵝,不搜不知道,一搜嚇一跳,截至2009年,富集分析工具就已經有68個了??谡f無憑,上證據↓↓ Huang, D.W., B.T. Sherman and R.A. Lempicki, Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res, 2009. 37(1): p. 1-13. (微信后臺回復“富集”,原文發(fā)給你哦) 一、摘要 曾經的基因功能研究,往往都是一兩個基因,研究模式較為簡單。隨著測序技術的發(fā)展,各種組學的突飛猛進,目前已知的功能基因數量很多。因此富集分析工具也越來越多,在本研究時已有約68個生信富集分析的工具。 富集分析軟件根據基礎算法大致可以分為三類:singular enrichment analysis (如:SEA),gene set enrichment analysis (如:GSEA),和 modular enrichment analysis (如:MEA)。 由于工具較多,對于研究者來說對理解每個軟件的算法和優(yōu)缺點比較困難,因此本文在于幫助研究者根據需求選擇富集分析工具。 二、背景介紹 高通量測序時代,使得整體研究分析全基因組的基因成為可能,如此一來,就會產生大量感興趣的基因。從感興趣的基因組中篩選有意義的基因也成為一件十分富有挑戰(zhàn)的事情。 好在有GO數據庫和其他一些富集分析軟件的出現,從2002年到2003年間DAVID、EASE等軟件出現、2005年14個類似的軟件出現,到現在大約一共有68個富集分析的軟件。 目前對于研究者而言因為富集分析沒有統(tǒng)一的方法、也沒有黃金標準,因此存在以下幾點問題。
三、公開的富集分析工具
富集分析主要包括三部分:數據注釋、數據挖掘和結果展示。 傳統(tǒng)的富集分析主要依賴于經典統(tǒng)計學方法,例如卡方檢驗、Fisher檢驗、二項檢驗、超幾何檢驗等。 SEA:主要特點在于需要用戶提前制定感興趣的基因集,DAVID、GoStat等。 GSEA:不需要提前制定感興趣的基因集,主要用于轉錄組數據,根據實驗組和對照組計算差異來得到感興趣的基因。 MEA:核心仍然是SEA的原理,但會將基因和基因的關系考慮進入富集分析p值的計算。
四、目前仍存在的問題和挑戰(zhàn) 1. Realistically positioning the role of enrichment P-values in he current data-mining environment 2. Understanding the limitation of multiple testing correction on enrichment P-values 3. Cross-comparing enrichment analysis results derived from multiple gene lists 4.Setting up the ‘right’ gene reference background 5.Extending backend annotation databases 6.Efficiently mapping users’ input gene identifiers to the available annotation 7.Enhancing the exploratory capability and graphical Presentation 8.Evaluating the analytic capability of new enrichment tools 9.Choosing the most appropriate enrichment tools from the various choices 今天就分享這么多,希望大家能夠有所收獲。 |
|
|
來自: 醫(yī)學院的石頭 > 《生物信息學》