【原】顛覆播客行業(yè) AI技術(shù)已能復(fù)制任何人類聲音

科技行者 2020-10-12

展開全文

人工智能現(xiàn)在能夠復(fù)制任何人類的聲音，這項(xiàng)技術(shù)進(jìn)步也在諸多行業(yè)中迎來熱烈反響。

來源丨DZone

編譯丨科技行者

播客行業(yè)正朝著更加輕松自然、非正式性的音頻敘事方向發(fā)展。這種較少使用嚴(yán)肅用語的傳播形式，也成功拉近了主播與聽眾間的溝通距離。

換句話說，主播們盡可能使用口語表達(dá)，降低表述內(nèi)容的理解與反應(yīng)難度。也正是憑借著這種通俗易懂優(yōu)勢(shì)，音頻敘事變得越來越流行，相關(guān)調(diào)查數(shù)據(jù)也證明了這一發(fā)展趨勢(shì)。

根據(jù)Statista公布的統(tǒng)計(jì)結(jié)果，2018年全美播客收聽者已經(jīng)達(dá)到7500萬;預(yù)計(jì)到2024年，月收聽用戶將增長(zhǎng)至1.64億。由此估計(jì)，2019年至2023年之間播客聽眾的復(fù)合年增長(zhǎng)率將高達(dá)17%。

2020年，四分之三的美國民眾明確知曉播客為何物，其中超過半數(shù)(55%)的受訪者已經(jīng)開始收聽播客。而作為全球收入最高的播客，喬·羅根(Joe Rogan)的《喬·羅根體驗(yàn)》(The Joe Rogan Experience)節(jié)目在2019年獲得高達(dá)5000萬美元銷售額，月均下載近2億次。

目前，播客行業(yè)面對(duì)的主要問題在于如何在維持內(nèi)容獨(dú)立性的同時(shí)，獲取支持行業(yè)快速增長(zhǎng)的必要資源。終于進(jìn)入正題——人工智能等突破性技術(shù)帶來的語音克隆功能，也許能夠帶來重要的解決手段，或者至少是部分解決方案。

以尼克松(Nixon)項(xiàng)目為例，其以令人信服的結(jié)果證明AI技術(shù)完全能夠重現(xiàn)出與人類對(duì)象沒有任何區(qū)別的語音效果。麻省理工學(xué)院的一組研究人員、新聞工作者及藝術(shù)家，同語音克隆廠商Respeecher及VDR公司的Canny AI開展合作，共同創(chuàng)造出模擬得出的首次登月通話記錄——只是這一次，宇航員阿姆斯特朗與奧德林未能完成任務(wù)，并被困在了月球上。

他們甚至還“偽造”了時(shí)任美國總統(tǒng)的尼克松的視頻，向全世界宣告此次登月之旅的悲慘失敗。

當(dāng)播客遇上AI

計(jì)算機(jī)化語音的主要挑戰(zhàn)，在于如何復(fù)制人類表達(dá)以及其中的種種細(xì)微差別，同時(shí)盡力避免機(jī)器音的存在。而在識(shí)別并重現(xiàn)細(xì)微聲音變化元素方面，以人工智能為基礎(chǔ)的語音轉(zhuǎn)換技術(shù)為我們指明了一條可行的發(fā)展道路。

蘋果Sir、Amazon Alexa、微軟Cortana以及Google Assistant等語音助手仍在使用文本到語音轉(zhuǎn)換技術(shù)。雖然這種技術(shù)的實(shí)用性確實(shí)很高，但卻很難帶來不同的語音類型。以Siri為例，要想實(shí)現(xiàn)老年男性的語音效果，除了需要引入龐大的預(yù)錄制文件之外，Siri還無法處理該音頻文件中未能包含的單詞。在這方面，AI支持下的語音到語音轉(zhuǎn)換就成了新的突破口。

如何將AI語音克隆應(yīng)用于播客領(lǐng)域?

人工智能不僅能夠?qū)崿F(xiàn)語音克隆，還能夠在任意播客節(jié)目中完美復(fù)制一切語音效果。其中使用的是一項(xiàng)名為“智能雞尾酒”的經(jīng)典數(shù)字信號(hào)處理算法，外加專用的深度生成建模技術(shù)——允許內(nèi)容制作者使用最適合的聲音解決以往難以實(shí)現(xiàn)的錄制效果(例如播報(bào)員有其他工作，或者需要重現(xiàn)某位已經(jīng)去世的配音演員的音色等)。

下面來看幾種語音克隆技術(shù)在播客制作領(lǐng)域的可行用例：

1. 讓名人加入您的節(jié)目

我們很難請(qǐng)到知名演員、作家、運(yùn)動(dòng)員等參與您的節(jié)目，但如果使用人工智能技術(shù)復(fù)制他們的聲音，就可以既輕松實(shí)現(xiàn)同樣的效果、又不必勞煩他們親自到錄音棚跑一趟。以此為基礎(chǔ)，聽眾們能夠聽到自己喜愛的聲音，節(jié)目制作方與名人們也省去了勞頓之苦。

2. 重現(xiàn)舊日之聲

語音克隆能夠讓已經(jīng)去世的演員們?cè)俅潍I(xiàn)聲。想不想讓肯尼迪總統(tǒng)為歷史播客配上旁白?沒有問題，語音轉(zhuǎn)換技術(shù)能夠精確重現(xiàn)他的聲音——是的，不只是“相似”，而是真正的完美還原。

3. 使用童聲朗讀，又不用強(qiáng)迫孩子們長(zhǎng)時(shí)間工作

孩子們講話總是非常有趣，這種趣味性不一定體現(xiàn)在內(nèi)容上，而更多在于他們的語音、語氣和語調(diào)當(dāng)中。但與孩子們一同工作可是相當(dāng)費(fèi)心費(fèi)力。通過語音合成技術(shù)，我們可以讓專業(yè)演員念出孩子的臺(tái)詞，再將其轉(zhuǎn)換為童聲效果，大大簡(jiǎn)化節(jié)目制作流程。

4. 快速推進(jìn)節(jié)目制作進(jìn)度，保證播客及時(shí)播出

AI可以瞬間重現(xiàn)人聲，而且短時(shí)間內(nèi)就可以提供高質(zhì)量的目標(biāo)語音成果。

總結(jié)

2017年，全球播客市場(chǎng)帶來的廣告收入高達(dá)2.2億美元，且每年都在翻番。而用戶參與度的提升，將成為吸引潛在廣告客戶的核心動(dòng)力。更重要的是，播客中的廣告其實(shí)效果極佳，調(diào)查顯示此類廣告擁有近90%的播放完成率。

此外，廣告客戶甚至愿意為某些播客節(jié)目支付高達(dá)30美元的CPM(廣告每千次展示成本)。單說這個(gè)數(shù)字大家可能沒有概念，但Facebook上的每千次廣告展示成本約為6美元。

網(wǎng)絡(luò)電視正在緩慢但堅(jiān)定地取代著有線電視，播客與傳統(tǒng)廣播之間的關(guān)系似乎也是這樣。而單純從傳統(tǒng)廣播類廣告出發(fā)，播客行業(yè)至少還能夠吸引到額外約200億美元收入。而正如我們?cè)谖恼麻_頭提到，播客節(jié)目能夠吸引到大量原本根本不聽廣播的群體，因此其利潤增長(zhǎng)期望可謂一片光明。

這些調(diào)查數(shù)字表明，播客業(yè)務(wù)將長(zhǎng)久存在，同時(shí)也迫切需要音頻內(nèi)容制作者們找到效率更高、效果更好的節(jié)目產(chǎn)出方法。

也許AI語音克隆技術(shù)，正是幫助播客行業(yè)在內(nèi)容獨(dú)立性與節(jié)目制作資源需求間找到完美平衡的終極解決方案。