小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

mega 4.0中文說明

 lililw21 2012-05-26

產(chǎn)生背景及簡介

隨著不同物種基因組測序的快速發(fā)展,產(chǎn)生了大量的DNA 序列信息,這時(shí)就需要一種簡便而快速的統(tǒng)計(jì)分析工具來對這些數(shù)據(jù)進(jìn)行有效的分析,以提取其中包含的大量信息。MEGA 就是基于這種需求開發(fā)的。MEGA 軟件的目的就是提供一個(gè)以進(jìn)化的角度從DNA 和蛋白序列中提取有用的信息的工具,并且,此軟件可以免費(fèi)下載使用。

現(xiàn)在我們使用的是 MEGA4 的版本。它主要集中于進(jìn)化分析獲得的綜合的序列信息。使用它我們可以編輯序列數(shù)據(jù)、序列比對、構(gòu)建系統(tǒng)發(fā)育樹、推測物種間的進(jìn)化距離等。此軟件的輸出結(jié)果資源管理器允許用戶瀏覽、編輯、打印輸入所得到的結(jié)果而且所得到的結(jié)果具有不同形式的可視化效果。此外,該軟件還能夠得出不同序列間的距離矩陣,這是他不同與其他分析軟件的地方。在計(jì)算矩陣方面有一些自己的特點(diǎn):

1. 推測序列或者物種間的進(jìn)化距離
2. 根據(jù)MCL(Maximum Composite Likeliood method)的方法構(gòu)建系統(tǒng)發(fā)育樹
3. 考慮到了不同堿基替換的不同的比率,考慮到了堿基轉(zhuǎn)換和顛換的差別。
4. 隨時(shí)可以使用標(biāo)注:所以的結(jié)果輸入都可以使用標(biāo)注,而且標(biāo)注的內(nèi)容可以被保存,復(fù)制。

具體使用

我們以分析 20 個(gè)物種的血紅蛋白為例來具體說明此軟件的具體使用情況。

啟動程序

1. 運(yùn)行環(huán)境:在Windows 95/98, NT, ME, 2000, XP, vista 等操作系統(tǒng)下均可使用。
2. 下載安裝:可以直接登陸 www.megasoftware.net 進(jìn)行下載安裝,另外還可以從http://abc.cbi.pku.edu.cn/tools/phylogeny.php 中的鏈接進(jìn)去。
3. 雙擊桌面快捷方式圖標(biāo), 進(jìn)入主界面;或者從開始菜單,單擊圖標(biāo)啟動。

序列分析

1.啟動

mega4

單擊后,會出現(xiàn)如下界面:

MEGA4的中文使用說明

這里有三個(gè)選項(xiàng),分別對應(yīng)三種不同的情況:以下分別予以介紹:

Create a new alignment :是在你沒有任何比對的時(shí)候使用,比如你只有一個(gè)fasta 格式的序列就可以選擇這個(gè)選項(xiàng)。
Open a saved alignment session:使用它可以打開一個(gè)我們已經(jīng)比對好的序列文件;
Retieve a sequence from a file :這種情況同第一種情況相似,只是不用選擇是DNA 還是蛋白質(zhì)序列比對,選擇的也是fasta 格式的文件,打開后的界面都是一樣的。

以第一種情況為例說明,點(diǎn)擊如出現(xiàn)下界面:

MEGA4的中文使用說明

這里我們分析的是蛋白序列所以選擇 No。然后從 data 菜單選擇輸入數(shù)據(jù)文件如圖:

mega4

選擇你保存的 fasta 格式序列后就會出現(xiàn):

MEGA4的中文使用說明

菜單的使用

Data菜單

Creat a new :創(chuàng)建一個(gè)新的數(shù)據(jù)比對文件,也就是說當(dāng)我們比對完一組后,想接著比對另一組,那么使用它就可以不用退出直接把數(shù)據(jù)文件導(dǎo)入;
Open:打開先前已經(jīng)比對并保存好的文件,它包含兩個(gè)子菜單:retive sequence from file 和saved aligment session ;
Close: 關(guān)閉當(dāng)前的比對數(shù)據(jù)文件;Save session:保存當(dāng)前比對結(jié)果,可以給比對的結(jié)果一個(gè)文件名;
Export alignment:將當(dāng)前的序列比對結(jié)果輸出到指定文件,有兩種輸入格式可供選擇:MGTA 和FASTA.
DNA sequence:使用它來選擇輸入的數(shù)據(jù)DNA 序列,這里需要說明的是如果你輸入的數(shù)據(jù)是氨基酸序列的話,比對窗口只顯示一個(gè)標(biāo)簽,若是DNA 序列的話則顯示兩個(gè)標(biāo)簽,一個(gè)是DNA 序列的,另一個(gè)是氨基酸序列的。如下圖:

MEGA4的中文使用說明

Protein sequences:選擇輸入的氨基酸序列,選擇后,所以的位點(diǎn)就被當(dāng)作氨基酸殘基位點(diǎn)來對待。
Translate/untranslate:只有比對的序列是編碼蛋白的DNA序列的時(shí)候才可用。它可以根據(jù)指定的遺傳密碼表將DNA 序列翻譯成特定的氨基酸序列。
Select genetic code table:使用它將編碼蛋白的DNA 翻譯成特定的蛋白序列。
Reverse complement:將選擇的一整行的DNA 序列變?yōu)榕c之互補(bǔ)配對堿基序列。
Exit alignment explorer:退出序列比對的資源管理窗口。

Edit 菜單

使用這個(gè)菜單可以對我們的比對序列進(jìn)行想要的一些編輯工作具體為
Undo:撤銷上一步操作;
Copy:復(fù)制;cut:剪切;Paste:粘貼;前面三個(gè)操作都可以只針對一個(gè)堿
基或氨基酸殘基也可以是一段甚至是整個(gè)序列;
Delete:從比對表格中刪除一段序列;
Delete gaps:去掉序列中的空缺;
Insert blank sequence:重新插入一空行;標(biāo)簽和序列都是空的;
Insert sequence from file:從已保存的文件中插入新的序列;

Select sites:選擇一列序列,與點(diǎn)擊比對表上方的灰白空格作用類似;
Select sequence:選擇一行序列,與點(diǎn)擊比對表格左側(cè)的標(biāo)簽名作用類似;
Select all:全選;
Allow base editing:只讀保護(hù),只有選擇后才能對序列進(jìn)行編輯操作,否則所以的序列為只讀格式,不能進(jìn)行任何編輯操作。

Search 菜單

用來快捷查找序列中的標(biāo)記未定或者目的堿基或殘基。
Find motif:選擇后出現(xiàn)如下對話框:

MEGA4的中文使用說明

輸入你想要查看的一小段序列。找到后會以黃色標(biāo)出;
Find next:在序列的下游查找目的序列片段;
Find preious:在序列的上有查找目的序列片段;
Find marked sites:查找標(biāo)記位點(diǎn);
Highlight motif:突出標(biāo)記已經(jīng)選擇的位點(diǎn)。

Web 菜單

這個(gè)菜單提供一個(gè)鏈接 Genbank 的入口,可以在網(wǎng)上直接做Blast 搜索。當(dāng)手上沒有準(zhǔn)備好要比對的序列時(shí),可以直接去網(wǎng)上搜索。
Query gene banks:開啟NCBI 的主頁;
Do blast search:開啟NCBI BLAST 主頁;
Show browser:開啟網(wǎng)頁瀏覽器。

Sequencer 菜單

此菜單下只有一個(gè)子菜單:edit sequencer file,用來打開一個(gè)打開文件對話框,此對話框可以打開一個(gè)sequencer data file,一旦打開,這個(gè)文件就在trace data file viewer/editor 的對話框中展示出來。這個(gè)編輯窗口允許你查看和編輯automatd DNA sequencer 產(chǎn)生的trace data。它可以閱讀和編輯ABI 和Staden 格式文件并且序列可以直接被導(dǎo)入到序列比對窗口或被上傳到網(wǎng)頁瀏覽器做blast 搜索。

Display 菜單:

這個(gè)菜單相對簡單,主要用來調(diào)整工具欄。
Toolbars:工具欄菜單,它包含一些子菜單,選擇后就會出現(xiàn)在比對的窗口中;
Use colors:將不同的位點(diǎn)以不同的顏色顯示;
Background color:選擇后位點(diǎn)的顯示與位點(diǎn)一樣的背景顏色;
Font:字體對話框,通過選擇來調(diào)整窗口中的序列字符的大小。

實(shí)例介紹alignment 菜單

Mark/unmark site:在比對的表格中標(biāo)記或者不標(biāo)記一個(gè)單一位點(diǎn),一次每條序列只能被標(biāo)記一個(gè)位點(diǎn),不同序列間的位點(diǎn)你可以選擇同一列的,也可以是錯(cuò)開的,要根據(jù)自己的目的進(jìn)行選擇。選擇標(biāo)記后的序列可以使用align marked sites進(jìn)行比對分析。
Align marked sites:比對標(biāo)記的序列,在這里如果在兩個(gè)或多個(gè)序列間標(biāo)記了不在一列的位點(diǎn)重新比對后會出現(xiàn)空格。如圖:

MEGA4的中文使用說明

Unmarked all sites:把所以標(biāo)記的位點(diǎn)去標(biāo)記;
Delete gap-only site:去掉序同是空格的一列;這在多序列比對前很有用。

Auto-fill gaps:使用空格補(bǔ)齊不同長度的序列。
Align by ClustalW:此軟件整合了clustalw 程序,這也是它的方便之處,選擇
要比對的序列后點(diǎn)擊會出現(xiàn)下面的對話框:

MEGA4的中文使用說明

這是一個(gè)序列比對參數(shù)設(shè)置對話框,需要注意的是:這個(gè)軟件不會考慮到核酸序列中的編碼位點(diǎn),所以在比對的過程中可能會在編碼區(qū)中插入空格,所以如果分析cDNA 或者編碼序列建議將他們翻譯成蛋白序列后在比對。

一對序列比對和多序列比對下的設(shè)置都是一樣的如下:
Gap opening penalty:空格罰分設(shè)置,增加一個(gè)空格就罰相應(yīng)的分值,增加這一分值會降低空格出現(xiàn)的頻率。
Gap extension penalty:空格擴(kuò)展罰分,就是根據(jù)空格的長度來罰分,增加這一分值會使空格變短,末端空格不計(jì)入罰分。

一般參數(shù):
DNA/protein weight matrix:選擇不同的加權(quán)矩陣;
Residue-specific penalties:特殊氨基酸罰分。在序列比對的過程中特異氨基酸可能增加或減少罰分值,比如:富含甘氨酸的區(qū)段比富含纈氨酸的區(qū)段更可能有空格出現(xiàn),因而他們的罰分不同。
Hydrophilic penalties:如果有連續(xù)的5 個(gè)或者更多的親水性氨基酸的話,他們傾向于出現(xiàn)空格,這些區(qū)段很可能出現(xiàn)環(huán)狀或卷曲,因此罰分不一樣。
Gap separation distance:參數(shù)設(shè)置來盡可能降低空格之間離的太近的機(jī)會,小于指定數(shù)值的空格罰分要多余其他的,這不能避免出現(xiàn)相鄰空格,只能降低他們出現(xiàn)的頻率。
Use negative matrix:使用負(fù)性矩陣,
Delay divergent cutoff:若一條序列相似性低于設(shè)定的百分值將推遲比對。

當(dāng)一切參數(shù)都設(shè)定好了之后就點(diǎn)擊 OK 就可以進(jìn)行比對了,中間出現(xiàn)一個(gè)過度對話框。比對結(jié)束后,可以將結(jié)果保存(data/save session/),以供構(gòu)建系統(tǒng)發(fā)育樹使用。另外,如果不保存直接關(guān)閉,系統(tǒng)跳出一個(gè)確認(rèn)對話框。

下面這個(gè)是序列數(shù)據(jù)管理的管理界面,此外我們還可以通過主界面上的data/open data 路徑打開,效果是一樣的,注意這里打開的只能是剛才保存的后綴是.MEG 的文件。

MEGA4的中文使用說明

當(dāng)這個(gè)序列數(shù)據(jù)界面出來后,注意軟件的主界面發(fā)生了一定的變化,多出了幾個(gè)功能菜單:

MEGA4的中文使用說明

下面就著重介紹一下序列數(shù)據(jù)窗口的一些具體使用:
這個(gè)窗口用來展示比對后的序列數(shù)據(jù),這里提供了許多的功能菜單用來查看序列比對后的數(shù)據(jù)統(tǒng)計(jì)結(jié)果或者來選擇想要的子序列。

Data 菜單

Write data to file:導(dǎo)入序列打開窗口;
Translate/untranslate:將蛋白編碼序列翻譯成蛋白序列,或者再轉(zhuǎn)變成核酸序列;
Selected genetic code table:打開select genetic code 對話框,從這個(gè)對話框可以選擇編輯或者添加遺傳密碼表;
Setup/select genes and domains:打開sequence data organizer 對話框,在這個(gè)對話框里可以定義和編輯基因和結(jié)構(gòu)域。

MEGA4的中文使用說明

使用這個(gè)窗口可以查看,定義,和選擇結(jié)構(gòu)域和基因,并且標(biāo)記單個(gè)的位點(diǎn)。具體使用這里不作詳細(xì)介紹。
Setup/select taxa and groups:打開一個(gè)可以編輯分類和定義分類組的對話框:

MEGA4的中文使用說明

這個(gè)窗口分為兩個(gè)子窗口,左邊的是分類組,顯示不同的分組情況,右邊的是未分組窗口顯示還沒有歸入任何一個(gè)組群的分類。中間和下邊是一些操作鍵,通過他們我們可以建立新的組,如果你將所以的分類都?xì)w入到不同的組里,并且給予組名,你們在序列數(shù)據(jù)窗口中就會在物種名字后邊顯示他所屬的組名。

Display 菜單

Show only selected sequence:只顯示你所選擇的感興趣的序列;
Use identical symbol:將一列中絕大部分相同等堿基或氨基酸字符用點(diǎn)來代替;
Color cells:將序列中連續(xù)的一致的堿基或者氨基酸給以相同的顏色背景以區(qū)別顯示;
Sort sequences:將顯示的分類以不同的方式排序,可以根據(jù)序列名字、組名來排序;
Restore input order:將經(jīng)過修改的序列順序回復(fù)到剛打開時(shí)的樣子;
Show sequence name:顯示序列的名字,不選則隱藏;
Grouped:顯示組名;
Change font:更改顯示的字體格式。
Quite data viewer:退出界面。

Highlight 菜單

這里的子菜單大部分都顯示在工具欄里,如圖所示:

MEGA4的中文使用說明

分別是高亮度顯示保守序列、可變序列、比對信息序列、和一列中至少有兩個(gè)不同字符的列等。

Statistics 菜單

Nucleotide composition:當(dāng)序列為核酸時(shí)可用。計(jì)算每條序列中的不同的堿基百分比;
Nucleotide pair frenquencies:只有當(dāng)序列為核酸時(shí)可用。
Codon usage:只有序列為編碼蛋白的核酸序列時(shí)可用。計(jì)算出codon usage的百分比和RSCU(relative synonymous codon usage)值;
Amino acid composition:當(dāng)序列為氨基酸序列或編碼蛋白的核酸序列時(shí)可用。計(jì)算每條序列氨基酸殘基的百分比;并且跳出一個(gè)顯示窗口,在這個(gè)窗口中可以進(jìn)行許多操作:可以得到的這一數(shù)據(jù)保存到文件中;還可以打印出來;還以直接分析統(tǒng)計(jì)所
得到的結(jié)果,查看每一行等。具體大家可以自己摸索;

MEGA4的中文使用說明

Use all selected sites:保證上面的分析統(tǒng)計(jì)是在選擇所有的序列下進(jìn)行的,不考慮被標(biāo)記的位點(diǎn)。

從以上大家應(yīng)該可以粗略的了解到這個(gè)軟件的強(qiáng)大而又方便的序列比對分析的功能。下面再簡要介紹主頁面上的幾個(gè)菜單的使用。

Distances 菜單

相關(guān)原理:兩條序列間的進(jìn)化距離是通過計(jì)算兩條序列間堿基或氨基酸替換得來的,推測進(jìn)化距離是研究分子進(jìn)化、構(gòu)建系統(tǒng)發(fā)育樹和推測物種分化時(shí)間的基礎(chǔ),這個(gè)軟件中包括了絕大部分廣泛使用的推測進(jìn)化距離的方法。值得提出的是,該軟件還使用解析公式和bootstrap 的方法來評價(jià)出現(xiàn)的錯(cuò)誤。

該軟件所包括的方法大致可被分為三類:核酸;同義—非同義替換;氨基酸。

1) 核酸:序列是核酸和核酸之間的比較,計(jì)算編碼蛋白和非編碼蛋白的核酸序列間的進(jìn)化距離,主要有兩種方法: No. of differences 和p-distance 還包括許多的模型:Jukes-Cantor Model 、Tajima-Nei Model、Kimura 2-Parameter Model、Tamura 3-Parameter Model、Tamura-Nei Model、Maximum Composite Likelihood Model 等,可以根據(jù)需要進(jìn)行不同的選擇。

2) 同義-非同義替換:序列是編碼子和編碼子之間的比較,所以只能用來計(jì)算編碼蛋白的序列。常用的模型有: Nei-Gojobori Method 、 Modified Nei-Gojobori Method 、Li-Wu-Luo Method 、 Pamilo-Bianchi-Li Method、Kumar Method 等。

3) 氨基酸類:序列間是氨基酸殘基之間的比較。能夠用來計(jì)算氨基酸序列間以及編碼蛋白的核酸間的距離,編碼蛋白的核酸在比對的時(shí)候自動被翻譯成氨基酸序列進(jìn)行比較。常用的模型有:Poisson Model、Equal Input Model、 Dayhoff and JTT Models。

MEGA4的中文使用說明

Choose model…:選擇模型,選擇跳出一個(gè)距離模型的選項(xiàng)窗口:

MEGA4的中文使用說明

在這個(gè)窗口里,model 選項(xiàng)是選擇推測進(jìn)化距離的隨機(jī)模型的,可以通過單擊綠色小方框進(jìn)行選擇。Pattern among lineages:只有當(dāng)距離模型選定后才可用;
rates among sites:允許位點(diǎn)間存在不同的替換率。選好后單擊OK 即可。
Compute pairwise:單擊出現(xiàn)上面類似的對話框:

MEGA4的中文使用說明

Compute:選擇是只計(jì)算進(jìn)化距離還是選擇計(jì)算同時(shí)進(jìn)行評價(jià)。選擇后者會出現(xiàn)standard error computation by 選項(xiàng),通過這一選項(xiàng)選擇解析公式或者bootstrap method 來評價(jià)結(jié)果的好壞。Gaps and missing data:在計(jì)算開始前選擇去除所有包含比對空格和失意的位點(diǎn);

另外,最初你也可以保留這些位點(diǎn),在必要的時(shí)候在去掉。Labled sites:只有當(dāng)一些或者全部位點(diǎn)有相關(guān)標(biāo)簽時(shí)才可用。
點(diǎn)擊綠色方框,就可以看到包括選擇標(biāo)簽的位點(diǎn),如果你選擇這些位點(diǎn)的話,這些位點(diǎn)就最先從數(shù)據(jù)中提出來。選好后compute 出現(xiàn)以下窗口:

MEGA4的中文使用說明

這是一個(gè)比對后的距離矩陣窗口,這個(gè)窗口包括很多不同的功能菜單,來調(diào)節(jié)顯示的內(nèi)容。File 菜單中有一個(gè)子菜單是Show Analysis Description:顯示計(jì)算所用的不同的選項(xiàng),這些信息可以被保存或者打印出來。

MEGA4的中文使用說明

Average Menu:這里面有個(gè)子菜單Overall 單擊會顯示比對的總體平均距離。
Distance 菜單中其他的子菜單操作同上類似只是內(nèi)容略有不同,具體可自行摸索。

Phylogeny菜單

Phylogeny 選項(xiàng)中有以下子菜單:

MEGA4的中文使用說明

其中 Construct Phylogeny 和Bootstrap Test of Phylogeny 基本一致,其中后者給出了在計(jì)算過程中的出現(xiàn)的概率。

最大簡約法 Maximum Parsimony,使用的運(yùn)算法則是branch-and bound 的檢索方法。得到的是無根樹。這種方法在序列非常相似以及序列數(shù)目較小的情形下較適用(構(gòu)建21條序列的進(jìn)化樹時(shí),在幾種方法中花費(fèi)的時(shí)間最長)。

在實(shí)際運(yùn)行得到拓?fù)鋱D之后,上面有兩個(gè)選項(xiàng),點(diǎn)擊 Original tree,可以選擇查看計(jì)算所得到的所有結(jié)構(gòu)樹。

點(diǎn)擊 Bootstrap consensus tree 得到我們所需要的結(jié)果

MEGA4的中文使用說明

MEGA4的中文使用說明

鄰接法 Neighbor Joining: 當(dāng)所考慮的譜系間進(jìn)化速率可變時(shí),鄰接法特別適用。鄰接法能給出枝長最小平方估計(jì)的序列,即能最真實(shí)的反映序列間的真實(shí)距離。鄰接法得到的進(jìn)化樹也是無根樹。鄰接法有6 種計(jì)算方法,分別是No. of Differences、p-distance、Poisson Correction、Equal Input、PAM Matrix (Dayhoff)、JTT Matrix (Jones-Taylor-Thornton)。通常選
擇p-distance。

最小進(jìn)化法 Minimum Evolution:該方法和鄰接法基本相似,在此不作介紹。

算術(shù)平均的非加權(quán)對群法 UPGMA:它假設(shè)沿著進(jìn)化樹分支的變化速率為一個(gè)常數(shù),而距離近似為非加權(quán)的。UPGMA 法由計(jì)算關(guān)系最近序列間的枝長開始,然后計(jì)算序列對與下一個(gè)序列對間的距離平均值,不斷重復(fù)直到所有序列都被包括在樹中。如果樹枝間的突變率不一致時(shí),UPGMA 法將導(dǎo)致一個(gè)錯(cuò)誤的樹,因此該法現(xiàn)在已基本不用。

Relative Rate Tests

MEGA4的中文使用說明

點(diǎn)擊 Tajima’s Test,得到下面的對話框。

MEGA4的中文使用說明

我們可以在對話框中選擇比對序列中的任意三條序列,點(diǎn)擊OK 之后,可以得到這三條序列進(jìn)行比對的一些基本信息。

MEGA4的中文使用說明

因此當(dāng)我們得出系統(tǒng)發(fā)育樹時(shí),如果對其中的一些分支存在疑問,就可以將該分支序列進(jìn)行Tajima 檢測,幫助我們得出正確的結(jié)論。

原文作者:張志想 王升正 周建橋 鐘增明

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多