產(chǎn)生背景及簡介隨著不同物種基因組測序的快速發(fā)展,產(chǎn)生了大量的DNA 序列信息,這時(shí)就需要一種簡便而快速的統(tǒng)計(jì)分析工具來對這些數(shù)據(jù)進(jìn)行有效的分析,以提取其中包含的大量信息。MEGA 就是基于這種需求開發(fā)的。MEGA 軟件的目的就是提供一個(gè)以進(jìn)化的角度從DNA 和蛋白序列中提取有用的信息的工具,并且,此軟件可以免費(fèi)下載使用。 現(xiàn)在我們使用的是 MEGA4 的版本。它主要集中于進(jìn)化分析獲得的綜合的序列信息。使用它我們可以編輯序列數(shù)據(jù)、序列比對、構(gòu)建系統(tǒng)發(fā)育樹、推測物種間的進(jìn)化距離等。此軟件的輸出結(jié)果資源管理器允許用戶瀏覽、編輯、打印輸入所得到的結(jié)果而且所得到的結(jié)果具有不同形式的可視化效果。此外,該軟件還能夠得出不同序列間的距離矩陣,這是他不同與其他分析軟件的地方。在計(jì)算矩陣方面有一些自己的特點(diǎn): 1. 推測序列或者物種間的進(jìn)化距離 具體使用我們以分析 20 個(gè)物種的血紅蛋白為例來具體說明此軟件的具體使用情況。 啟動程序1. 運(yùn)行環(huán)境:在Windows 95/98, NT, ME, 2000, XP, vista 等操作系統(tǒng)下均可使用。 序列分析1.啟動 單擊后,會出現(xiàn)如下界面: 這里有三個(gè)選項(xiàng),分別對應(yīng)三種不同的情況:以下分別予以介紹: Create a new alignment :是在你沒有任何比對的時(shí)候使用,比如你只有一個(gè)fasta 格式的序列就可以選擇這個(gè)選項(xiàng)。 以第一種情況為例說明,點(diǎn)擊如出現(xiàn)下界面: 這里我們分析的是蛋白序列所以選擇 No。然后從 data 菜單選擇輸入數(shù)據(jù)文件如圖: 選擇你保存的 fasta 格式序列后就會出現(xiàn): 菜單的使用Data菜單Creat a new :創(chuàng)建一個(gè)新的數(shù)據(jù)比對文件,也就是說當(dāng)我們比對完一組后,想接著比對另一組,那么使用它就可以不用退出直接把數(shù)據(jù)文件導(dǎo)入; Protein sequences:選擇輸入的氨基酸序列,選擇后,所以的位點(diǎn)就被當(dāng)作氨基酸殘基位點(diǎn)來對待。 Edit 菜單使用這個(gè)菜單可以對我們的比對序列進(jìn)行想要的一些編輯工作具體為 Select sites:選擇一列序列,與點(diǎn)擊比對表上方的灰白空格作用類似; Search 菜單用來快捷查找序列中的標(biāo)記未定或者目的堿基或殘基。 輸入你想要查看的一小段序列。找到后會以黃色標(biāo)出; Web 菜單這個(gè)菜單提供一個(gè)鏈接 Genbank 的入口,可以在網(wǎng)上直接做Blast 搜索。當(dāng)手上沒有準(zhǔn)備好要比對的序列時(shí),可以直接去網(wǎng)上搜索。 Sequencer 菜單此菜單下只有一個(gè)子菜單:edit sequencer file,用來打開一個(gè)打開文件對話框,此對話框可以打開一個(gè)sequencer data file,一旦打開,這個(gè)文件就在trace data file viewer/editor 的對話框中展示出來。這個(gè)編輯窗口允許你查看和編輯automatd DNA sequencer 產(chǎn)生的trace data。它可以閱讀和編輯ABI 和Staden 格式文件并且序列可以直接被導(dǎo)入到序列比對窗口或被上傳到網(wǎng)頁瀏覽器做blast 搜索。 Display 菜單:這個(gè)菜單相對簡單,主要用來調(diào)整工具欄。 實(shí)例介紹alignment 菜單Mark/unmark site:在比對的表格中標(biāo)記或者不標(biāo)記一個(gè)單一位點(diǎn),一次每條序列只能被標(biāo)記一個(gè)位點(diǎn),不同序列間的位點(diǎn)你可以選擇同一列的,也可以是錯(cuò)開的,要根據(jù)自己的目的進(jìn)行選擇。選擇標(biāo)記后的序列可以使用align marked sites進(jìn)行比對分析。 Unmarked all sites:把所以標(biāo)記的位點(diǎn)去標(biāo)記; Auto-fill gaps:使用空格補(bǔ)齊不同長度的序列。 這是一個(gè)序列比對參數(shù)設(shè)置對話框,需要注意的是:這個(gè)軟件不會考慮到核酸序列中的編碼位點(diǎn),所以在比對的過程中可能會在編碼區(qū)中插入空格,所以如果分析cDNA 或者編碼序列建議將他們翻譯成蛋白序列后在比對。 一對序列比對和多序列比對下的設(shè)置都是一樣的如下: 一般參數(shù): 當(dāng)一切參數(shù)都設(shè)定好了之后就點(diǎn)擊 OK 就可以進(jìn)行比對了,中間出現(xiàn)一個(gè)過度對話框。比對結(jié)束后,可以將結(jié)果保存(data/save session/),以供構(gòu)建系統(tǒng)發(fā)育樹使用。另外,如果不保存直接關(guān)閉,系統(tǒng)跳出一個(gè)確認(rèn)對話框。 下面這個(gè)是序列數(shù)據(jù)管理的管理界面,此外我們還可以通過主界面上的data/open data 路徑打開,效果是一樣的,注意這里打開的只能是剛才保存的后綴是.MEG 的文件。 當(dāng)這個(gè)序列數(shù)據(jù)界面出來后,注意軟件的主界面發(fā)生了一定的變化,多出了幾個(gè)功能菜單: 下面就著重介紹一下序列數(shù)據(jù)窗口的一些具體使用: Data 菜單Write data to file:導(dǎo)入序列打開窗口; 使用這個(gè)窗口可以查看,定義,和選擇結(jié)構(gòu)域和基因,并且標(biāo)記單個(gè)的位點(diǎn)。具體使用這里不作詳細(xì)介紹。 這個(gè)窗口分為兩個(gè)子窗口,左邊的是分類組,顯示不同的分組情況,右邊的是未分組窗口顯示還沒有歸入任何一個(gè)組群的分類。中間和下邊是一些操作鍵,通過他們我們可以建立新的組,如果你將所以的分類都?xì)w入到不同的組里,并且給予組名,你們在序列數(shù)據(jù)窗口中就會在物種名字后邊顯示他所屬的組名。 Display 菜單Show only selected sequence:只顯示你所選擇的感興趣的序列; Highlight 菜單這里的子菜單大部分都顯示在工具欄里,如圖所示: 分別是高亮度顯示保守序列、可變序列、比對信息序列、和一列中至少有兩個(gè)不同字符的列等。 Statistics 菜單Nucleotide composition:當(dāng)序列為核酸時(shí)可用。計(jì)算每條序列中的不同的堿基百分比; Use all selected sites:保證上面的分析統(tǒng)計(jì)是在選擇所有的序列下進(jìn)行的,不考慮被標(biāo)記的位點(diǎn)。 從以上大家應(yīng)該可以粗略的了解到這個(gè)軟件的強(qiáng)大而又方便的序列比對分析的功能。下面再簡要介紹主頁面上的幾個(gè)菜單的使用。 Distances 菜單相關(guān)原理:兩條序列間的進(jìn)化距離是通過計(jì)算兩條序列間堿基或氨基酸替換得來的,推測進(jìn)化距離是研究分子進(jìn)化、構(gòu)建系統(tǒng)發(fā)育樹和推測物種分化時(shí)間的基礎(chǔ),這個(gè)軟件中包括了絕大部分廣泛使用的推測進(jìn)化距離的方法。值得提出的是,該軟件還使用解析公式和bootstrap 的方法來評價(jià)出現(xiàn)的錯(cuò)誤。 該軟件所包括的方法大致可被分為三類:核酸;同義—非同義替換;氨基酸。 1) 核酸:序列是核酸和核酸之間的比較,計(jì)算編碼蛋白和非編碼蛋白的核酸序列間的進(jìn)化距離,主要有兩種方法: No. of differences 和p-distance 還包括許多的模型:Jukes-Cantor Model 、Tajima-Nei Model、Kimura 2-Parameter Model、Tamura 3-Parameter Model、Tamura-Nei Model、Maximum Composite Likelihood Model 等,可以根據(jù)需要進(jìn)行不同的選擇。 2) 同義-非同義替換:序列是編碼子和編碼子之間的比較,所以只能用來計(jì)算編碼蛋白的序列。常用的模型有: Nei-Gojobori Method 、 Modified Nei-Gojobori Method 、Li-Wu-Luo Method 、 Pamilo-Bianchi-Li Method、Kumar Method 等。 3) 氨基酸類:序列間是氨基酸殘基之間的比較。能夠用來計(jì)算氨基酸序列間以及編碼蛋白的核酸間的距離,編碼蛋白的核酸在比對的時(shí)候自動被翻譯成氨基酸序列進(jìn)行比較。常用的模型有:Poisson Model、Equal Input Model、 Dayhoff and JTT Models。 Choose model…:選擇模型,選擇跳出一個(gè)距離模型的選項(xiàng)窗口: 在這個(gè)窗口里,model 選項(xiàng)是選擇推測進(jìn)化距離的隨機(jī)模型的,可以通過單擊綠色小方框進(jìn)行選擇。Pattern among lineages:只有當(dāng)距離模型選定后才可用; Compute:選擇是只計(jì)算進(jìn)化距離還是選擇計(jì)算同時(shí)進(jìn)行評價(jià)。選擇后者會出現(xiàn)standard error computation by 選項(xiàng),通過這一選項(xiàng)選擇解析公式或者bootstrap method 來評價(jià)結(jié)果的好壞。Gaps and missing data:在計(jì)算開始前選擇去除所有包含比對空格和失意的位點(diǎn); 另外,最初你也可以保留這些位點(diǎn),在必要的時(shí)候在去掉。Labled sites:只有當(dāng)一些或者全部位點(diǎn)有相關(guān)標(biāo)簽時(shí)才可用。 這是一個(gè)比對后的距離矩陣窗口,這個(gè)窗口包括很多不同的功能菜單,來調(diào)節(jié)顯示的內(nèi)容。File 菜單中有一個(gè)子菜單是Show Analysis Description:顯示計(jì)算所用的不同的選項(xiàng),這些信息可以被保存或者打印出來。 Average Menu:這里面有個(gè)子菜單Overall 單擊會顯示比對的總體平均距離。 Phylogeny菜單Phylogeny 選項(xiàng)中有以下子菜單: 其中 Construct Phylogeny 和Bootstrap Test of Phylogeny 基本一致,其中后者給出了在計(jì)算過程中的出現(xiàn)的概率。 最大簡約法 Maximum Parsimony,使用的運(yùn)算法則是branch-and bound 的檢索方法。得到的是無根樹。這種方法在序列非常相似以及序列數(shù)目較小的情形下較適用(構(gòu)建21條序列的進(jìn)化樹時(shí),在幾種方法中花費(fèi)的時(shí)間最長)。 在實(shí)際運(yùn)行得到拓?fù)鋱D之后,上面有兩個(gè)選項(xiàng),點(diǎn)擊 Original tree,可以選擇查看計(jì)算所得到的所有結(jié)構(gòu)樹。 點(diǎn)擊 Bootstrap consensus tree 得到我們所需要的結(jié)果 鄰接法 Neighbor Joining: 當(dāng)所考慮的譜系間進(jìn)化速率可變時(shí),鄰接法特別適用。鄰接法能給出枝長最小平方估計(jì)的序列,即能最真實(shí)的反映序列間的真實(shí)距離。鄰接法得到的進(jìn)化樹也是無根樹。鄰接法有6 種計(jì)算方法,分別是No. of Differences、p-distance、Poisson Correction、Equal Input、PAM Matrix (Dayhoff)、JTT Matrix (Jones-Taylor-Thornton)。通常選 最小進(jìn)化法 Minimum Evolution:該方法和鄰接法基本相似,在此不作介紹。 算術(shù)平均的非加權(quán)對群法 UPGMA:它假設(shè)沿著進(jìn)化樹分支的變化速率為一個(gè)常數(shù),而距離近似為非加權(quán)的。UPGMA 法由計(jì)算關(guān)系最近序列間的枝長開始,然后計(jì)算序列對與下一個(gè)序列對間的距離平均值,不斷重復(fù)直到所有序列都被包括在樹中。如果樹枝間的突變率不一致時(shí),UPGMA 法將導(dǎo)致一個(gè)錯(cuò)誤的樹,因此該法現(xiàn)在已基本不用。 Relative Rate Tests點(diǎn)擊 Tajima’s Test,得到下面的對話框。 我們可以在對話框中選擇比對序列中的任意三條序列,點(diǎn)擊OK 之后,可以得到這三條序列進(jìn)行比對的一些基本信息。 因此當(dāng)我們得出系統(tǒng)發(fā)育樹時(shí),如果對其中的一些分支存在疑問,就可以將該分支序列進(jìn)行Tajima 檢測,幫助我們得出正確的結(jié)論。 原文作者:張志想 王升正 周建橋 鐘增明 |
|