小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Meta AI大模型能識(shí)別4000多種語言,稱錯(cuò)誤率僅有OpenAI產(chǎn)品的一半

 深柏淺覓探 2023-05-23 發(fā)布于江蘇

Meta 宣布,自己已經(jīng)建立了新的人工智能模型,可以識(shí)別和產(chǎn)生 1000 多種語言的語音——比目前可用的模型增加了 10 倍。該公司表示,這是朝著傳承有失傳風(fēng)險(xiǎn)的語言邁出的重要一步。

Meta 正在通過 GitHub 向公眾發(fā)布其模型。它聲稱,開源這些模型將幫助使用不同語言的開發(fā)人員構(gòu)建新的語音應(yīng)用程序——比如可以明白每個(gè)人所說語言的消息傳遞服務(wù),或者可以用于任何語言的虛擬現(xiàn)實(shí)系統(tǒng)。

世界上大約有 7000 種語言,但現(xiàn)有的語音識(shí)別模型卻只覆蓋了其中的大約 100 種語言。這是因?yàn)榇祟惸P屯枰罅康囊褬?biāo)注訓(xùn)練數(shù)據(jù),而這些數(shù)據(jù)只適用于少數(shù)語言,例如英語、西班牙語和漢語。

Meta 的研究人員通過重新訓(xùn)練該公司在 2020 年開發(fā)的一種現(xiàn)有的人工智能模型,從而解決了這個(gè)問題,該模型能夠從音頻中學(xué)習(xí)語音模式,而不需要大量的標(biāo)記數(shù)據(jù),比如轉(zhuǎn)錄后的文字記錄。

文章圖片1

(來源:STEPHANIE ARNETT/MITTR | ENVATO)

他們對(duì)兩組新數(shù)據(jù)集進(jìn)行了訓(xùn)練:一套包含《圣經(jīng)·新約》的錄音,以及來自互聯(lián)網(wǎng)上的 1107 種語言的圣經(jīng)對(duì)應(yīng)文本,另一組包含 3809 種語言的未標(biāo)記的圣經(jīng)錄音。該團(tuán)隊(duì)首先處理了語音音頻和文本數(shù)據(jù),以提高其質(zhì)量,然后運(yùn)行一種算法,將音頻記錄與對(duì)應(yīng)的文本對(duì)齊。然后,他們用新對(duì)齊的數(shù)據(jù)訓(xùn)練另一種算法。有了這種方法,研究人員能夠訓(xùn)練算法更容易地學(xué)習(xí)一種新的語言,即使沒有對(duì)應(yīng)的文本。

“我們可以利用這個(gè)模型學(xué)到的東西,用非常非常少的數(shù)據(jù)快速構(gòu)建語音系統(tǒng),”擔(dān)任該項(xiàng)目的研究科學(xué)家的邁克爾·奧利(Michael Auli)說?!?/span>

“對(duì)于英語,我們有很多很多好的數(shù)據(jù)集,但對(duì)于一些語言而言,我們可能找不到 1000 個(gè)使用者,我們拿不到好用的的數(shù)據(jù)集?!?/span>

研究人員表示,他們的模型可以轉(zhuǎn)換 1000 多種語言,但能識(shí)別 4000 多種語言。

他們將這些模型與包括 OpenAI Whisper 在內(nèi)的競(jìng)爭(zhēng)對(duì)手的模型進(jìn)行了比較,并聲稱它們的錯(cuò)誤率只有競(jìng)品的一半,盡管 Meta 覆蓋的模型是競(jìng)品的 11 倍。


然而,該團(tuán)隊(duì)警告說,該模型仍然存在誤譯某些單詞或短語的風(fēng)險(xiǎn),這可能導(dǎo)致不準(zhǔn)確或潛在的冒犯性標(biāo)注。他們還承認(rèn),他們的語音識(shí)別模型比其他模型產(chǎn)生了更多的偏見詞匯,不過只高出了 0.7%。

研究非洲語言自然語言處理的克里斯·艾姆祖(Chris Emezue)表示,雖然這項(xiàng)研究的廣度令人印象深刻,但使用宗教文本來訓(xùn)練人工智能模型可能存在爭(zhēng)議。他沒有參與這個(gè)項(xiàng)目。

支持:Ren

原文:

https://www./2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多