Meta 宣布,自己已經(jīng)建立了新的人工智能模型,可以識(shí)別和產(chǎn)生 1000 多種語言的語音——比目前可用的模型增加了 10 倍。該公司表示,這是朝著傳承有失傳風(fēng)險(xiǎn)的語言邁出的重要一步。 Meta 正在通過 GitHub 向公眾發(fā)布其模型。它聲稱,開源這些模型將幫助使用不同語言的開發(fā)人員構(gòu)建新的語音應(yīng)用程序——比如可以明白每個(gè)人所說語言的消息傳遞服務(wù),或者可以用于任何語言的虛擬現(xiàn)實(shí)系統(tǒng)。 世界上大約有 7000 種語言,但現(xiàn)有的語音識(shí)別模型卻只覆蓋了其中的大約 100 種語言。這是因?yàn)榇祟惸P屯枰罅康囊褬?biāo)注訓(xùn)練數(shù)據(jù),而這些數(shù)據(jù)只適用于少數(shù)語言,例如英語、西班牙語和漢語。 Meta 的研究人員通過重新訓(xùn)練該公司在 2020 年開發(fā)的一種現(xiàn)有的人工智能模型,從而解決了這個(gè)問題,該模型能夠從音頻中學(xué)習(xí)語音模式,而不需要大量的標(biāo)記數(shù)據(jù),比如轉(zhuǎn)錄后的文字記錄。 (來源:STEPHANIE ARNETT/MITTR | ENVATO) 他們對(duì)兩組新數(shù)據(jù)集進(jìn)行了訓(xùn)練:一套包含《圣經(jīng)·新約》的錄音,以及來自互聯(lián)網(wǎng)上的 1107 種語言的圣經(jīng)對(duì)應(yīng)文本,另一組包含 3809 種語言的未標(biāo)記的圣經(jīng)錄音。該團(tuán)隊(duì)首先處理了語音音頻和文本數(shù)據(jù),以提高其質(zhì)量,然后運(yùn)行一種算法,將音頻記錄與對(duì)應(yīng)的文本對(duì)齊。然后,他們用新對(duì)齊的數(shù)據(jù)訓(xùn)練另一種算法。有了這種方法,研究人員能夠訓(xùn)練算法更容易地學(xué)習(xí)一種新的語言,即使沒有對(duì)應(yīng)的文本。 “我們可以利用這個(gè)模型學(xué)到的東西,用非常非常少的數(shù)據(jù)快速構(gòu)建語音系統(tǒng),”擔(dān)任該項(xiàng)目的研究科學(xué)家的邁克爾·奧利(Michael Auli)說?!?/span> “對(duì)于英語,我們有很多很多好的數(shù)據(jù)集,但對(duì)于一些語言而言,我們可能找不到 1000 個(gè)使用者,我們拿不到好用的的數(shù)據(jù)集?!?/span> 研究人員表示,他們的模型可以轉(zhuǎn)換 1000 多種語言,但能識(shí)別 4000 多種語言。 他們將這些模型與包括 OpenAI Whisper 在內(nèi)的競(jìng)爭(zhēng)對(duì)手的模型進(jìn)行了比較,并聲稱它們的錯(cuò)誤率只有競(jìng)品的一半,盡管 Meta 覆蓋的模型是競(jìng)品的 11 倍。
研究非洲語言自然語言處理的克里斯·艾姆祖(Chris Emezue)表示,雖然這項(xiàng)研究的廣度令人印象深刻,但使用宗教文本來訓(xùn)練人工智能模型可能存在爭(zhēng)議。他沒有參與這個(gè)項(xiàng)目。 支持:Ren 原文: https://www./2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/ |
|