Meta AI大模型能識(shí)別4000多種語言，稱錯(cuò)誤率僅有OpenAI產(chǎn)品的一半

深柏淺覓探 2023-05-23 發(fā)布于江蘇

展開全文

Meta 宣布，自己已經(jīng)建立了新的人工智能模型，可以識(shí)別和產(chǎn)生 1000 多種語言的語音——比目前可用的模型增加了 10 倍。該公司表示，這是朝著傳承有失傳風(fēng)險(xiǎn)的語言邁出的重要一步。

Meta 正在通過 GitHub 向公眾發(fā)布其模型。它聲稱，開源這些模型將幫助使用不同語言的開發(fā)人員構(gòu)建新的語音應(yīng)用程序——比如可以明白每個(gè)人所說語言的消息傳遞服務(wù)，或者可以用于任何語言的虛擬現(xiàn)實(shí)系統(tǒng)。

世界上大約有 7000 種語言，但現(xiàn)有的語音識(shí)別模型卻只覆蓋了其中的大約 100 種語言。這是因?yàn)榇祟惸Ｐ屯枰罅康囊褬?biāo)注訓(xùn)練數(shù)據(jù)，而這些數(shù)據(jù)只適用于少數(shù)語言，例如英語、西班牙語和漢語。

Meta 的研究人員通過重新訓(xùn)練該公司在 2020 年開發(fā)的一種現(xiàn)有的人工智能模型，從而解決了這個(gè)問題，該模型能夠從音頻中學(xué)習(xí)語音模式，而不需要大量的標(biāo)記數(shù)據(jù)，比如轉(zhuǎn)錄后的文字記錄。

（來源：STEPHANIE ARNETT/MITTR | ENVATO）

他們對(duì)兩組新數(shù)據(jù)集進(jìn)行了訓(xùn)練：一套包含《圣經(jīng)·新約》的錄音，以及來自互聯(lián)網(wǎng)上的 1107 種語言的圣經(jīng)對(duì)應(yīng)文本，另一組包含 3809 種語言的未標(biāo)記的圣經(jīng)錄音。該團(tuán)隊(duì)首先處理了語音音頻和文本數(shù)據(jù)，以提高其質(zhì)量，然后運(yùn)行一種算法，將音頻記錄與對(duì)應(yīng)的文本對(duì)齊。然后，他們用新對(duì)齊的數(shù)據(jù)訓(xùn)練另一種算法。有了這種方法，研究人員能夠訓(xùn)練算法更容易地學(xué)習(xí)一種新的語言，即使沒有對(duì)應(yīng)的文本。

“我們可以利用這個(gè)模型學(xué)到的東西，用非常非常少的數(shù)據(jù)快速構(gòu)建語音系統(tǒng)，”擔(dān)任該項(xiàng)目的研究科學(xué)家的邁克爾·奧利（Michael Auli）說?！?/span>

“對(duì)于英語，我們有很多很多好的數(shù)據(jù)集，但對(duì)于一些語言而言，我們可能找不到 1000 個(gè)使用者，我們拿不到好用的的數(shù)據(jù)集?！?/span>

研究人員表示，他們的模型可以轉(zhuǎn)換 1000 多種語言，但能識(shí)別 4000 多種語言。

他們將這些模型與包括 OpenAI Whisper 在內(nèi)的競(jìng)爭(zhēng)對(duì)手的模型進(jìn)行了比較，并聲稱它們的錯(cuò)誤率只有競(jìng)品的一半，盡管 Meta 覆蓋的模型是競(jìng)品的 11 倍。

然而，該團(tuán)隊(duì)警告說，該模型仍然存在誤譯某些單詞或短語的風(fēng)險(xiǎn)，這可能導(dǎo)致不準(zhǔn)確或潛在的冒犯性標(biāo)注。他們還承認(rèn)，他們的語音識(shí)別模型比其他模型產(chǎn)生了更多的偏見詞匯，不過只高出了 0.7%。

研究非洲語言自然語言處理的克里斯·艾姆祖（Chris Emezue）表示，雖然這項(xiàng)研究的廣度令人印象深刻，但使用宗教文本來訓(xùn)練人工智能模型可能存在爭(zhēng)議。他沒有參與這個(gè)項(xiàng)目。

支持：Ren

原文：

https://www./2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：深柏淺覓探 > 《公開》

舉報(bào)/認(rèn)領(lǐng)