小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

GMM

 oskycar 2016-02-18

GMM-UBM系統(tǒng)框架

最初用的特征是聲學(xué)特征MFCC,這個(gè)東西我不太熟,只知道它是從wav或者其它格式語(yǔ)音文件直接提出。

有了特征就可以建立模型了,這里我們的模型叫做“高斯混合模型”。不同說(shuō)話人的差異主要表現(xiàn)在其短時(shí)語(yǔ)音譜的差異,而這又可以用每個(gè)說(shuō)話人的短時(shí)譜特征所具有的概率密度函數(shù)來(lái)衡量。高斯混合模型GMM將空間分布的概率密度用多個(gè)高斯概率密度函數(shù)的加權(quán)和來(lái)擬合,可以平滑地逼近任意形狀的概率密度函數(shù),并且是一個(gè)易于處理的參數(shù)模型。在具體表示上,這個(gè)模型實(shí)際上就是把高斯混合模型的每個(gè)高斯分量的均值向量排列在一起組成一個(gè)超向量作為某一個(gè)說(shuō)話人的模型,稱為均值超矢量。

可是,通常在實(shí)際中每一個(gè)說(shuō)話人的語(yǔ)音數(shù)據(jù)很少,而訓(xùn)練高斯混合模型又需要大量的訓(xùn)練數(shù)據(jù),怎么辦呢?于是,UBM通用背景模型被提了出來(lái)。在訓(xùn)練說(shuō)話人模型的時(shí)候,由于注冊(cè)時(shí)說(shuō)話人的數(shù)據(jù)稀疏,通常利用一個(gè)通用背景模型(Universal Background Model,UBM)和少量的說(shuō)話人數(shù)據(jù),通過(guò)自適應(yīng)算法(如最大后驗(yàn)概率MAP,最大似然線性回歸MLLR等)得到目標(biāo)說(shuō)話人模型。

OK,特征和模型都建立好了,我們?cè)趺礈y(cè)試呢?這里用到一個(gè)對(duì)數(shù)似然比的評(píng)價(jià)指標(biāo)。用測(cè)試數(shù)據(jù)分別與模型和UBM進(jìn)行似然度比較,然后將這兩個(gè)似然相除再取對(duì)數(shù),用得到的值作為打分來(lái)評(píng)價(jià)一條測(cè)試數(shù)據(jù)是否和模型匹配。

怎么理解這個(gè)打分標(biāo)準(zhǔn)呢?由于UBM代表了最最普遍的平凡的語(yǔ)音特征,而模型代表了屬于這一個(gè)說(shuō)話人的特征。用對(duì)數(shù)似然比來(lái)表示,就是評(píng)價(jià)測(cè)試數(shù)據(jù)到底和模型更接近還是和UBM最接近。最后設(shè)定一個(gè)閥值,用來(lái)進(jìn)行最后的分類(lèi)判斷。

聯(lián)合因子分析

上面的GMM-UBM系統(tǒng)非常經(jīng)典,之前一般作為說(shuō)話人識(shí)別的基線系統(tǒng)。但是,這個(gè)系統(tǒng)不能夠很好解決說(shuō)話人識(shí)別領(lǐng)域中的一個(gè)最令人頭疼的問(wèn)題,那就是信道魯棒。關(guān)于信道魯棒的復(fù)雜性問(wèn)題可以查閱資料。于是,就有人提出了將因子分析應(yīng)用到說(shuō)話人領(lǐng)域。

聯(lián)合因子分析認(rèn)為,在GMM-UBM系統(tǒng)中的高斯模型均值超矢量,大體上可以分為跟說(shuō)話人本身有關(guān)的矢量特征和跟信道以及其他變化有關(guān)的矢量特征的線性疊加。也就是,將說(shuō)話人GMM均值超矢量所在的空間劃分為本征空間,信道空間,最后還有一個(gè)殘差空間。這樣,如果我們能抽取出跟說(shuō)話人本身相關(guān)的特征而去掉和信道相關(guān)的特征,就能很好地克服信道影響進(jìn)行識(shí)別了。事實(shí)證明這種思路是對(duì)的,采用聯(lián)合因子分析后,系統(tǒng)的性能明顯提高。

基于I-vector特征的說(shuō)話人識(shí)別

傳統(tǒng)的聯(lián)合因子分析建模過(guò)程主要是基于兩個(gè)不同的空間:由本征音空間矩陣定義的說(shuō)話人空間,由本征信道空間矩陣定義的信道空間。受聯(lián)合因子分析理論的啟發(fā),Dehak提出了從GMM均值超矢量中提取一個(gè)更緊湊的矢量,稱為I-Vector。這里的I是身份(Identity)的意思,出于自然的理解,I-Vector相當(dāng)于說(shuō)話人的身份標(biāo)識(shí)。

I-vector方法采用一個(gè)空間來(lái)代替這兩個(gè)空間,這個(gè)新的空間可以成為全局差異空間,它即包含了說(shuō)話者之間的差異又包含了信道間的差異。所以I-Vector的建模過(guò)程在GMM均值超矢量中不嚴(yán)格區(qū)分話者的影響和信道的影響。這一建模方法的動(dòng)機(jī)來(lái)源于Dehak的又一研究: JFA建模后的信道因子不僅包含了信道效應(yīng)也夾雜著說(shuō)話人的信息。

所以到現(xiàn)在,我們主要用的特征是i-vector。這玩意是通過(guò)高斯超向量基于因子分析而得到的。這玩意是基于單一空間的跨信道算法,該空間既包含了說(shuō)話人空間的信息也包含了信道空間信息。相當(dāng)于用因子分析方法將語(yǔ)音從高位空間投影到低維。

你可以把I-vector看做是一種特征,也可以看做是簡(jiǎn)單的模型。最后,在測(cè)試階段,我們只要計(jì)算測(cè)試語(yǔ)音I-vector和模型的I-vector之間的consine距離,就可以作為最后的得分。這種方法也通常被作為基于I-vector說(shuō)話人識(shí)別系統(tǒng)的基線系統(tǒng)。

信道補(bǔ)償算法

其實(shí),信道補(bǔ)償相關(guān)的工作從有說(shuō)話人識(shí)別領(lǐng)域以來(lái)就一直有研究,包括上面的GMM-UBM系統(tǒng)和聯(lián)合因子分析系統(tǒng)。信道補(bǔ)償主要分三個(gè)層次:基于特征的補(bǔ)償,基于模型的補(bǔ)償和基于得分的補(bǔ)償。由于我所研究的方面都是在I-vector特征的基礎(chǔ)上的,所以這里重點(diǎn)說(shuō)一下基于I-vector特征的信道補(bǔ)償算法。

為啥要信道補(bǔ)償呢?前面說(shuō)I-vector的時(shí)候說(shuō)了,I-vector特征中既包含說(shuō)話者信息又包含信道信息,而我們只關(guān)心說(shuō)話者信息。也就是說(shuō),由于信道信息的存在,對(duì)我們做說(shuō)話人識(shí)別產(chǎn)生了干擾,甚至嚴(yán)重影響系統(tǒng)的識(shí)別準(zhǔn)確率。于是,我們就要想辦法盡量減小這種影響。這就是所謂的信道補(bǔ)償。

線性鑒別分析LDA

信道補(bǔ)償算法有很多,先說(shuō)一下LDA。關(guān)于LDA的資料很多,這里簡(jiǎn)單說(shuō)一下為什么LDA能夠用在說(shuō)話人識(shí)別而且是如何進(jìn)行信道補(bǔ)償?shù)摹?/p>

當(dāng)一個(gè)說(shuō)話人有很多語(yǔ)音時(shí),表現(xiàn)為這些語(yǔ)音在說(shuō)話人空間中聚集為一簇。如果這些語(yǔ)音收到信道的影響,那么就表現(xiàn)為這個(gè)說(shuō)話人的語(yǔ)音的方差很大。然后,LDA嘗試著找到一個(gè)新的空間,將原來(lái)的所有數(shù)據(jù)投影到這個(gè)空間,使得在這里空間中同一說(shuō)話人的數(shù)據(jù)具有最小的類(lèi)內(nèi)方差,同時(shí)不同說(shuō)話人之間的距離盡量大。這樣,就達(dá)到減小信道差異的影響了。

LDA其實(shí)也是一種降維方法。它盡量去移除不需要的方向,最小化類(lèi)內(nèi)的方差信息量。也就是,LDA尋找一個(gè)新的空間去更好地對(duì)不同的類(lèi)做出分類(lèi)。可見(jiàn),LDA非常適合作為說(shuō)話人識(shí)別系統(tǒng)的信道補(bǔ)償算法。

當(dāng)使用LDA對(duì)測(cè)試數(shù)據(jù)和模型的I-vector進(jìn)行重新投影后,然后計(jì)算它們之間的cosine距離,就可以作為最后的得分。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多