【原】物種鑒定筆記 | 數(shù)據(jù)庫選擇和置信度得分對(duì)Kraken2分類性能的影響

尐尐呅 2024-12-11 發(fā)布于湖北

展開全文

▼

Kraken2適用于大規(guī)模宏基因組分析，其性能受到參考數(shù)據(jù)庫選擇和置信度參數(shù)設(shè)定的直接影響。2024年7月，《aBIOTECH》發(fā)表研究論文，系統(tǒng)評(píng)估了不同參考數(shù)據(jù)庫和置信度參數(shù)對(duì)Kraken2分類性能的影響。

綜合參考數(shù)據(jù)庫與中等CS（0.2 或 0.4）相結(jié)合可顯著提高分類準(zhǔn)確性和靈敏度。

由于此項(xiàng)研究基于模擬數(shù)據(jù)集，需要使用樣本量更大的真實(shí)數(shù)據(jù)集進(jìn)一步驗(yàn)證這些結(jié)果。此外，對(duì)強(qiáng)大計(jì)算資源的有限訪問可能對(duì)某些研究人員來說是一個(gè)重大障礙，阻止他們有效利用大型參考數(shù)據(jù)庫。因此，這種限制可能會(huì)影響研究建議的普遍性，因?yàn)樗鼈兛赡懿贿m用于資源有限的環(huán)境。在現(xiàn)實(shí)世界的研究中選擇參考數(shù)據(jù)庫和CS的最佳組合時(shí)，還應(yīng)考慮計(jì)算資源和特定的科學(xué)問題。

在本研究中，研究人員使用已知細(xì)菌組成的模擬數(shù)據(jù)集系統(tǒng)地研究了參考數(shù)據(jù)庫和CS的選擇對(duì)分類率、精確度、召回率、F1評(píng)分的影響，以及“真實(shí)”和“估計(jì)”相對(duì)豐度之間的差異。

對(duì)分類率的影響

當(dāng)使用Minikraken和Standard-16數(shù)據(jù)庫時(shí)，分類率隨著CS的增加而急劇下降，當(dāng)CS超過0.4 時(shí)，沒有reads可以被分類。相比之下，當(dāng)CS值為1.0并使用nt、Standard和GTDB r202 數(shù)據(jù)庫時(shí)，有相當(dāng)多的序列可以被分類。CS為0時(shí)，使用Minikraken數(shù)據(jù)庫的分類率最低。當(dāng)CS值為0.2、0.4或0.6 時(shí)，使用 Standard、nt 和GTDB r202數(shù)據(jù)庫的分類率高于其他兩個(gè)數(shù)據(jù)庫。當(dāng)CS值為0.8或1.0 時(shí)，nt數(shù)據(jù)庫的分類率高于除標(biāo)準(zhǔn)數(shù)據(jù)庫外的其他數(shù)據(jù)庫。

使用模擬宏基因組數(shù)據(jù)集對(duì)Kraken2中不同參考數(shù)據(jù)庫（A Minikraken；B Standard-16；C Standard；D nt；E GTDB r202）和置信度得分（0、0.2、0.4、0.6、0.8和1.0）分類的reads比例。

對(duì)精確度、召回率和F1分?jǐn)?shù)的影響

在門和種水平上，Standard、nt和GTDB r202數(shù)據(jù)庫的分類精度隨著CS的增加而顯著提高，但當(dāng)CS為0.6或更高時(shí)，Minikraken和Standard-16數(shù)據(jù)庫的分類精確度降至0。當(dāng)CS為0時(shí)，Standard-16數(shù)據(jù)庫在門和種水平上的分類精度更高。當(dāng)CS在門和種水平上為0.2或0.4時(shí)，GTDB r202數(shù)據(jù)庫的分類精度較低。當(dāng)CS為0.6或0.8時(shí)，Standard、nt和GTDB r202數(shù)據(jù)庫在門水平上的分類精度沒有差異，但在種水平上，GTDB r2 02數(shù)據(jù)庫的分類精度低于nt數(shù)據(jù)庫。當(dāng)CS為1.0時(shí)，在門和種水平上使用Standard、nt或GTDB r202數(shù)據(jù)庫，分類精度沒有差異。

在譜系和物種水平上，當(dāng)使用Standard、nt或GTDB r202數(shù)據(jù)庫時(shí)，或者當(dāng)CS分別為0、0.2和0.4時(shí)使用Minikraken和Standard-16數(shù)據(jù)庫時(shí)，分類的召回不受CS的影響。然而，對(duì)于Minikraken和Standard-16數(shù)據(jù)庫，當(dāng)CS高于0.4時(shí)，分類召回率降至0。在門水平上，當(dāng)CS為0、0.2或0.4時(shí)，使用不同數(shù)據(jù)庫的分類召回率沒有顯著差異，而當(dāng)CS為0.6、0.8或1.0時(shí)，使用Standard、nt或GTDB r202數(shù)據(jù)庫的分類召回率也沒有顯著差異。在種層面，當(dāng)CS為0或0.2時(shí)，使用Standard-16和nt數(shù)據(jù)庫進(jìn)行分類的召回率高于使用Minikraken數(shù)據(jù)庫進(jìn)行分類，而當(dāng)CS為0.4或更高時(shí)，使用Standard、nt或GTDB r202數(shù)據(jù)庫的召回率更高。

與分類精度相似，當(dāng)使用Standard、nt或GTDB r202數(shù)據(jù)庫時(shí)，F(xiàn)1得分隨著CS的增加而增加，但當(dāng)Minikraken和Standard-16數(shù)據(jù)庫的門和種水平的CS為0.6或更高時(shí)，F(xiàn)1得分降至0。當(dāng)CS為0時(shí)，使用Standard-16數(shù)據(jù)庫在門和種水平上的F1得分更高。當(dāng)CS在門和種水平上為0.2或0.4時(shí)，GTDB r202數(shù)據(jù)庫的F1得分較低。當(dāng)CS為0.6或0.8時(shí)，在門級(jí)別使用Standard、nt或GTDB r202數(shù)據(jù)庫時(shí)，F(xiàn)1得分沒有差異，但在種級(jí)別使用GTDB r202數(shù)據(jù)庫時(shí)，其F1得分低于使用nt數(shù)據(jù)庫時(shí)的得分。當(dāng)CS為1.0時(shí)，在門和種水平上使用Standard、nt或GTDB r202數(shù)據(jù)庫，F(xiàn)1評(píng)分沒有差異。

使用不同數(shù)據(jù)庫（Minikraken、Standard-16、Standard、nt 和GTDB r202）和置信度分?jǐn)?shù)（0、0.2、0.4、0.6、0.8 和 1.0）在門（A）和種（B）級(jí)別進(jìn)行分類的精確度、召回率和 F1 分?jǐn)?shù)。

對(duì)計(jì)算出的細(xì)菌相對(duì)豐度

與真實(shí)相對(duì)豐度之間差異的影響

用 kraken2 對(duì)不同數(shù)據(jù)庫和 CS 的真實(shí)數(shù)據(jù)集進(jìn)行分類后，分類細(xì)菌的組成和相對(duì)豐度出現(xiàn)了變化。在門和種水平上，細(xì)菌的計(jì)算相對(duì)豐度與真實(shí)相對(duì)豐度之間的差異隨著 CS 的增加而顯著增大，但在門水平上使用標(biāo)準(zhǔn)數(shù)據(jù)庫時(shí)除外。在任何CS條件下使用Minikraken數(shù)據(jù)庫，以及在門和種水平的CS均為0.6或更高時(shí)使用Standard-16數(shù)據(jù)庫，兩者之間的差異明顯增大。

在不同數(shù)據(jù)庫（Minikraken、Standard-16、Standard、nt和GTDB r202）和置信度評(píng)分（0、0.2、0.4、0.6、0.8和1.0）下分類的細(xì)菌組成和相對(duì)豐度與門（A）和種（B）水平的真實(shí)數(shù)據(jù)集進(jìn)行了比較。

在不同數(shù)據(jù)庫（Minikraken、Standard-16、Standard、nt和GTDB r202）和置信度評(píng)分（0、0.2、0.4、0.6、0.8和1.0）中計(jì)算的細(xì)菌門相對(duì)豐度（log10轉(zhuǎn)換）與細(xì)菌門真實(shí)相對(duì)豐度（log 10轉(zhuǎn)換）之間的差異。

在不同數(shù)據(jù)庫（Minikraken、Standard-16、Standard、nt和GTDB r202）和置信度評(píng)分（0、0.2、0.4、0.6、0.8和1.0）中計(jì)算的細(xì)菌物種的相對(duì)豐度（log10轉(zhuǎn)換）與細(xì)菌物種的真實(shí)相對(duì)豐度（log10轉(zhuǎn)換）之間的差異。