新智元報(bào)道 【新智元導(dǎo)讀】AI Agent要淘汰人類導(dǎo)演了!初創(chuàng)公司Fable利用AI智能體,直接拍出了一集《南方公園》,AI的腦洞,真的不輸原作。AI Agent,又給我們帶來(lái)了億點(diǎn)點(diǎn)震撼——AI智能體直接晉升導(dǎo)演,拍出了一集《南方公園》! 沒(méi)錯(cuò),編劇、動(dòng)畫(huà)、導(dǎo)演、語(yǔ)音、編輯……劇集制作的全流程,都是由AI完成。 初創(chuàng)公司Fable新發(fā)布的節(jié)目統(tǒng)籌智能體(Showrunner),如同一聲驚雷炸響。 項(xiàng)目的靈感,就來(lái)自于此前斯坦福爆火的西部世界虛擬小鎮(zhèn)論文,其中25個(gè)AI智能體居住在包含學(xué)校、醫(yī)院、家庭的沙盒虛擬城鎮(zhèn)中。 而在這次的《南方公園》中,同樣是一群AI角色通過(guò)復(fù)雜的社交互動(dòng)來(lái)推動(dòng)自己的日常生活,每個(gè)人都有自己獨(dú)特的背景故事、個(gè)性和動(dòng)機(jī)。 論文地址:https://fablestudio./showrunner-agents/ 在多智能體無(wú)梯度架構(gòu)的驅(qū)動(dòng)下,每個(gè)角色的完整經(jīng)歷都會(huì)被存儲(chǔ)為自然語(yǔ)言。隨著時(shí)間的推移,這些記憶會(huì)被合成更高層次的反射,隨時(shí)動(dòng)態(tài)檢索,來(lái)實(shí)時(shí)計(jì)劃每個(gè)角色的行為。 而人類導(dǎo)演只需要給出一個(gè)高層次的構(gòu)思提示(標(biāo)題、概要、事件),這些AI智能體就會(huì)開(kāi)始「自導(dǎo)自演」了! 其中,兩個(gè)在《南方公園》數(shù)據(jù)集(約1200個(gè)角色和600張場(chǎng)景)上訓(xùn)練的自定義擴(kuò)散模型,可以生成新角色和新場(chǎng)景,一個(gè)超分辨率模型(R-ESRGAN-4x+-Anime6B)可以將場(chǎng)景放大。 語(yǔ)音克隆AI(如ElevenLabs),可以給角色即時(shí)配音。 英偉達(dá)首席AI科學(xué)家Jim Fan興奮斷言:多智能體模擬,將是新興智能的下一個(gè)前沿! Fable也激動(dòng)地介紹說(shuō):在用生成式AI生成image的偉大時(shí)代,Gen TV和Showrunner智能體會(huì)徹底改變游戲規(guī)則! 想象一下,用這個(gè)AI智能體,你可以重新拍出《權(quán)力的游戲》最后一季,讓它給你一個(gè)嶄新的結(jié)局,甚至讓你自己成為其中的主角,這可太科幻了…… 網(wǎng)友:誰(shuí)還不是個(gè)模擬了? 所以,這僅僅是個(gè)開(kāi)始。 Fable的研究者表示:所以單個(gè)AI Agent都會(huì)將失敗,因?yàn)樗麄儧](méi)有生命,無(wú)法共情——沒(méi)有人會(huì)想當(dāng)個(gè)缸中之腦,無(wú)休止地和人閑聊。 他們提出呼吁:AI應(yīng)該有自己的生活,為此我們需要建立屬于AI的社會(huì)。我們需要的不是更多的「Her」,而是真正的「自由人」! 網(wǎng)友們激動(dòng)表示:這太炸裂了! 「能不能來(lái)個(gè)AI真人秀?我們圍觀這些AI智能體,讓他們做任務(wù)、相互投票,看看社會(huì)動(dòng)力學(xué)是怎么發(fā)揮作用的?!?/span> 「作為獨(dú)立對(duì)齊研究的先鋒,讓真正的AI寫(xiě)下自己的背景故事,意識(shí)到自己是有知覺(jué)的——這就是目前的現(xiàn)實(shí)?!?/span> 有人表示:要真說(shuō)起來(lái),咱們和AI誰(shuí)還不是模擬了?只不過(guò)它們生活在虛擬世界中,我們生活在矩陣中…… 有人覺(jué)得,這似乎是AI對(duì)人類喜劇的蹩腳模仿…… 有人干脆懷疑,這是不是一出行為藝術(shù),看起來(lái)真的像假人假公司啊。(也是有點(diǎn)黑色幽默了) 這篇論文不是惡作劇嗎?網(wǎng)站,論文和從事這項(xiàng)工作的人,一切都感覺(jué)特別超級(jí)假,簡(jiǎn)直就像GPT-4和Midjourney生成的一樣 以后,或許就是虛擬世界教現(xiàn)實(shí)來(lái)做事了。 負(fù)責(zé)人介紹說(shuō),項(xiàng)目的目標(biāo)一直都是AGI,只有AGI,才是真正活著的AI,AI聊天機(jī)器人還遠(yuǎn)遠(yuǎn)算不上。 它們會(huì)在模擬世界中過(guò)著真實(shí)的日常生活,還會(huì)隨著時(shí)間推移而不斷成長(zhǎng)。 在這個(gè)虛擬世界中,我們可以觀看AI的生活,就仿佛一場(chǎng)屬于AI的真人秀。 在南方公園這個(gè)模擬小鎮(zhèn)中,你可以用Showrunner制作自己的電視劇IP。 在整個(gè)過(guò)程中,你可以讓智能體為你自動(dòng)寫(xiě)劇本,還可以給Showrunner一兩句話的prompt。 如果你希望深入地了解細(xì)節(jié),就可以通過(guò)prompt逐個(gè)編輯每個(gè)場(chǎng)景的對(duì)話。 智能體寫(xiě)出的劇情,是什么水平?讓我們來(lái)賞析一下。 在視頻開(kāi)頭,會(huì)介紹一段Westland編年史。 一家邪惡的公司Bizney創(chuàng)造出一只機(jī)器豬作為人類的AI伴侶,這只機(jī)器豬有嚴(yán)重的種族主義傾向,使公司陷入了一場(chǎng)公關(guān)噩夢(mèng)。 劇中的主人公發(fā)現(xiàn),馬斯克綁架了所有的好萊塢當(dāng)紅頂級(jí)演員,讓他們來(lái)火星陪他一起生活。 而自90年代以來(lái),我們見(jiàn)到的很多明星,比如湯姆克魯斯和梅麗爾斯特里普,其實(shí)都是他們的DeepFake。 最有趣的是,考慮到網(wǎng)友們或許自己也想成為「劇中人」,所以Fable特意新建了一個(gè)上傳功能,讓用戶可以上傳自己的照片和聲音,出現(xiàn)在節(jié)目中。 現(xiàn)有生成式AI在創(chuàng)作上的局限當(dāng)前的生成式AI還是有一些局限。 如Stable Diffusion和ChatGPT在短期的一般任務(wù)中表現(xiàn)出色,然而,在長(zhǎng)期創(chuàng)作過(guò)程中,它們卻沒(méi)有向用戶或Showrunner這樣的自動(dòng)故事生成系統(tǒng)提供任何上下文指導(dǎo),或表現(xiàn)出意向性。 但如果想做出高質(zhì)量的創(chuàng)意作品,長(zhǎng)期的創(chuàng)作過(guò)程是至關(guān)重要,尤其在現(xiàn)今IP開(kāi)發(fā)的背景下。 多智能體模擬,能讓內(nèi)容產(chǎn)品與IP故事世界更加一致。用戶可以利用角色的個(gè)人經(jīng)歷、目標(biāo)和情感、以及模擬事件和地點(diǎn)等數(shù)據(jù)來(lái)生成相關(guān)的場(chǎng)景和圖像資產(chǎn)。 基于IP的模擬還為用戶提供了他們熟知的故事背景,使用戶能夠更輕松地對(duì)生成的故事進(jìn)行判斷。 此外,通過(guò)人機(jī)交互,讓用戶對(duì)智能體的對(duì)話系統(tǒng)進(jìn)行控制、觀察和交流,從而讓智能體學(xué)會(huì)用戶的愿望和意愿,然后智能體在生成回復(fù)的時(shí)候就可以照著用戶的愿望和期待來(lái)生成。 就像生成個(gè)馬老板,讓他來(lái)回答你的問(wèn)題! 我們的模擬足夠的復(fù)雜且隨機(jī),有利于期望驗(yàn)證效應(yīng)(positive disconfirmation)。放大效應(yīng)有助于緩解我們認(rèn)為是不良的「老虎機(jī)」效應(yīng),我們稍后會(huì)簡(jiǎn)要提及。 我們習(xí)慣被動(dòng)的觀看,輸入關(guān)鍵詞,立即就會(huì)跳出「場(chǎng)景/劇集」結(jié)果。這一過(guò)程的時(shí)間跨度不鼓勵(lì)用戶立即判斷,減少了他們「重試」的欲望。 用戶簡(jiǎn)單的輸入和產(chǎn)生的高質(zhì)量長(zhǎng)篇輸出劇集之間的不對(duì)稱是期望驗(yàn)證效應(yīng)的一個(gè)關(guān)鍵因素。 但是 使用和prompt大型語(yǔ)言模型作為該過(guò)程的一部分可能會(huì)帶來(lái)「幾個(gè)挑戰(zhàn)」。 某些像幻覺(jué)這樣增加不確定性的效應(yīng),可以為故事增加創(chuàng)造性,它們就像創(chuàng)作過(guò)程中的「幸運(yùn)意外」。如果不過(guò)度破壞邏輯,這些「意外」可以增強(qiáng)用戶體驗(yàn)。 所以合理引入一些隨機(jī)性和不確定性,可以產(chǎn)生積極的創(chuàng)造性效果,增強(qiáng)用戶體驗(yàn)。關(guān)鍵是要保持邏輯自洽、不要完全破壞劇情,讓系統(tǒng)可以從中恢復(fù)。 「老虎機(jī)效應(yīng)」是指人工智能生成的內(nèi)容更像是隨機(jī)組合生成的內(nèi)容,而不是有目的性的創(chuàng)作過(guò)程。這是由于人工智能生成過(guò)程的不可預(yù)測(cè)和瞬時(shí)生成的性質(zhì)造成的。 當(dāng)前的生成式人工智能系統(tǒng)不支持或鼓勵(lì)在長(zhǎng)期創(chuàng)意目標(biāo)的背景下進(jìn)行多個(gè)創(chuàng)意評(píng)估步驟。它們的界面通常具有各種設(shè)置,例如滑塊和輸入字段,這些設(shè)置增加了控制水平和變化性。 但是,最終的輸出基本上是通過(guò)按下按鈕瞬間生成的。這種瞬時(shí)生成過(guò)程會(huì)給用戶帶來(lái)即時(shí)滿足,使他們的多巴胺噴涌...... 這種獎(jiǎng)勵(lì)機(jī)制在很長(zhǎng)一段時(shí)間內(nèi)有助于維持多步驟的創(chuàng)作過(guò)程,但當(dāng)前的界面、獎(jiǎng)勵(lì)頻率和缺乏進(jìn)展(陷入無(wú)限循環(huán))可能會(huì)導(dǎo)致負(fù)面影響,例如挫敗感、理想—實(shí)際生成之間的鴻溝或失去對(duì)創(chuàng)作過(guò)程的控制。 這種鴻溝是有利于即時(shí)滿足的行為偏見(jiàn)造成的,這對(duì)長(zhǎng)期創(chuàng)作的目標(biāo)來(lái)說(shuō)可能是有害的。 雖然我們不通過(guò)界面直接解決這些問(wèn)題,但是在模擬中對(duì)過(guò)程進(jìn)行情景化設(shè)定、采用輸入、輸出之間的時(shí)間控制將有助于減輕老虎機(jī)效應(yīng)對(duì)創(chuàng)作的負(fù)面影響。 此外,我們認(rèn)為在模擬過(guò)程中為角色設(shè)定discriminator(判別器),讓他們參與創(chuàng)作評(píng)估過(guò)程,也是一個(gè)緩解老虎機(jī)效應(yīng)的方法。 例如讓一個(gè)智能體反思他被分配的角色,或者他應(yīng)該表演的場(chǎng)景。 生成故事系統(tǒng)的多步驟「試錯(cuò)」過(guò)程不會(huì)呈現(xiàn)給用戶,系統(tǒng)不允許干預(yù)或判斷。這樣可以避免用戶在做出「接受或拒絕」決定時(shí)產(chǎn)生的對(duì)即時(shí)滿足的負(fù)面影響。 對(duì)于用戶體驗(yàn)來(lái)說(shuō),人工智能系統(tǒng)重試不同提示鏈的頻率并不重要,只要生成過(guò)程不是被負(fù)面地感知為空白時(shí)間,而是能無(wú)縫集成到與模擬游戲玩法中。 用戶只在整個(gè)過(guò)程的最后,在觀看生成的場(chǎng)景或劇集后才扮演鑒別者的角色。這也是一個(gè)利用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)概念來(lái)改進(jìn)多步創(chuàng)作過(guò)程及結(jié)果的自動(dòng)生成劇集的方法。 LLM通?;赥ransformer架構(gòu)構(gòu)建,這類模型依賴于自注意力機(jī)制。Transformer能夠高效利用計(jì)算資源,使得訓(xùn)練更大規(guī)模的語(yǔ)言模型成為可能。 例如,GPT-4包含數(shù)十億個(gè)參數(shù),在大規(guī)模數(shù)據(jù)集上訓(xùn)練,在其權(quán)重中有效編碼了大量的世界知識(shí)。 向量嵌入(vector embeddings)的概念對(duì)這些大語(yǔ)言模型的運(yùn)行機(jī)制至關(guān)重要。它們是將詞或短語(yǔ)表示為高維空間中的數(shù)學(xué)表示。這些嵌入捕獲了詞之間的語(yǔ)義關(guān)系,語(yǔ)義相似的詞在嵌入空間中位置鄰近。 在大語(yǔ)言模型中,模型詞匯表中的每個(gè)詞起初都表示為一個(gè)稠密向量,也稱為嵌入。這些向量在訓(xùn)練過(guò)程中被調(diào)整,它們的最終值或者說(shuō)「嵌入」,表示了單詞之間的學(xué)習(xí)關(guān)系。 在訓(xùn)練過(guò)程中,模型通過(guò)調(diào)整嵌入和其他參數(shù)來(lái)最小化預(yù)測(cè)詞和實(shí)際詞之間的差異,以預(yù)測(cè)句子中的下一個(gè)詞。因此,嵌入反映了模型對(duì)詞及其上下文的理解。 此外,由于Transformer可以關(guān)注句子中任意位置的詞,模型可以形成對(duì)句子含義更全面的理解。這是對(duì)舊模型只能考慮有限窗口中的詞的重大進(jìn)步。 向量嵌入和Transformer體系結(jié)構(gòu)的結(jié)合使得大語(yǔ)言模型可以更加深入細(xì)致地理解語(yǔ)言,這就是為什么這些模型可以生成如此高質(zhì)量、類人的文本的原因。 如前所述,基于Transformer的語(yǔ)言模型擅長(zhǎng)短期的一般任務(wù)。它們被視為是用快速思維的方式在運(yùn)行??焖偎季S涉及本能、自動(dòng)且通?;趩l(fā)式的決策,而慢思維涉及深思熟慮、分析和努力的過(guò)程。 LLM根據(jù)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的模式快速生成響應(yīng),而沒(méi)有內(nèi)省或理解其輸出背后的底層邏輯的能力。這意味著大語(yǔ)言模型缺乏深思熟慮、深入推理或像人類那樣從單一經(jīng)驗(yàn)中學(xué)習(xí)的能力。 雖然這些模型在文本生成任務(wù)取得了顯著的進(jìn)步,但快速思維的特性可能會(huì)限制它們?cè)谛枰疃壤斫饣蜢`活推理的任務(wù)上的潛力。 最近模仿慢思維能力的方法,如提示鏈工程(見(jiàn)Auto-GPT)就顯示了很有前景的結(jié)果。 大語(yǔ)言模型可以在多步驟過(guò)程中充當(dāng)自己的鑒別器。這能顯著改善它在不同情境下的推理能力,例如解決數(shù)學(xué)問(wèn)題。 在此項(xiàng)研究中,研究者大量使用GPT-4來(lái)影響模擬中的智能體,以及生成南方公園劇集的場(chǎng)景。 由于大多數(shù)南方公園劇集的轉(zhuǎn)錄是GPT-4訓(xùn)練數(shù)據(jù)集的一部分,它已經(jīng)對(duì)角色的個(gè)性、談話風(fēng)格以及節(jié)目的整體幽默感有很好的把握,無(wú)需再進(jìn)行定制微調(diào)。 而我們通過(guò)多步創(chuàng)作過(guò)程來(lái)模擬慢思維。為此,我們使用不同的提示鏈來(lái)比較和評(píng)估不同場(chǎng)景的事件,以及它們?nèi)绾瓮苿?dòng)整個(gè)故事朝著令人滿意的、與IP一致的結(jié)果發(fā)展。 我們嘗試通過(guò)提示鏈生成劇集,但故事生成是一個(gè)高度不連續(xù)的任務(wù)。這些是內(nèi)容創(chuàng)作無(wú)法以漸進(jìn)或連續(xù)的方式完成,而是需要一個(gè)「恍然大悟」的想法,來(lái)解決任務(wù)的進(jìn)展上一個(gè)不連續(xù)的飛躍。 內(nèi)容生成涉及發(fā)現(xiàn)或發(fā)明一種看待或構(gòu)建問(wèn)題的新方法。這可以啟用剩余內(nèi)容的生成。 不連續(xù)任務(wù)的例子有,需要開(kāi)創(chuàng)性的觀點(diǎn)或創(chuàng)造性應(yīng)用公式的數(shù)學(xué)問(wèn)題,撰寫(xiě)笑話或謎語(yǔ),想出科學(xué)假說(shuō)或哲學(xué)論點(diǎn),或開(kāi)拓出一種新的寫(xiě)作流派或風(fēng)格。 Diffusion模型的運(yùn)作原理是隨著時(shí)間的推移,逐漸從數(shù)據(jù)中添加或去除隨機(jī)噪聲,以生成或重構(gòu)輸出。圖像開(kāi)始作為隨機(jī)噪聲,經(jīng)過(guò)許多步驟后逐漸變換成一個(gè)連貫的圖片,反之亦然。 為了訓(xùn)練我們定制的Diffusion模型,我們收集了一個(gè)全面的數(shù)據(jù)集,包含來(lái)自動(dòng)畫(huà)劇《南方公園》約1200個(gè)角色和600個(gè)背景圖像。這個(gè)數(shù)據(jù)集為模型學(xué)習(xí)該劇的風(fēng)格提供了原始材料。 為了訓(xùn)練這些模型,我們使用了Dream Booth。此訓(xùn)練階段的結(jié)果是創(chuàng)建了兩個(gè)專門(mén)的Diffusion模型。 第一個(gè)模型專門(mén)用于生成單個(gè)角色,角色將會(huì)站在可摳背景顏色前。這有助于提取生成的角色進(jìn)行后續(xù)處理和動(dòng)畫(huà),使我們能夠無(wú)縫地將新生成的角色集成到各種場(chǎng)景和設(shè)置中。 此外,角色的Diffusion模型允許用戶通過(guò)Stable Diffusion的圖片到圖片過(guò)程,創(chuàng)建一個(gè)基于自己外觀的南方公園角色,并作為平等參與的智能體加入模擬。 由于能夠克隆自己的聲音,可以輕松想象到一個(gè)基于用戶外貌、書(shū)寫(xiě)風(fēng)格和聲音的完全實(shí)現(xiàn)的自主角色。 第二個(gè)模型經(jīng)過(guò)訓(xùn)練可以生成干凈的背景,而且能夠特別聚焦于外部和內(nèi)部環(huán)境。該模型提供了一個(gè)「舞臺(tái)」,我們生成的角色可以在上面互動(dòng),從而可以創(chuàng)建各種潛在的場(chǎng)景和情景。 但需要注意的是,因?yàn)檫@些模型的產(chǎn)出是基于像素的性質(zhì),這些模型生成的圖像在分辨率本質(zhì)上是有限的。 為了克服這個(gè)限制,我們使用AI升級(jí)技術(shù)對(duì)生成的圖像進(jìn)行再處理,特別是R-ESRGAN-4x+-Anime6B,它可以優(yōu)化和增強(qiáng)圖像質(zhì)量。 對(duì)于未來(lái)的2D交互作品,訓(xùn)練能生成基于矢量輸出的定制Transformer模型將具有以下幾個(gè)優(yōu)勢(shì)。 與基于像素的圖像不同,矢量圖形在調(diào)整大小或縮放時(shí)不會(huì)降低質(zhì)量,因此可以提供無(wú)限分辨率的潛力。這將使我們能夠生成無(wú)論以何種比例查看都能保持質(zhì)量和細(xì)節(jié)的圖像。 此外,基于矢量的形狀已經(jīng)分成單獨(dú)的部分,解決了基于像素的具有透明度和分割的后處理問(wèn)題。 這簡(jiǎn)化了生成資產(chǎn)集成到過(guò)程化世界的構(gòu)建,以及動(dòng)畫(huà)系統(tǒng)中的復(fù)雜性。 我們將一集定義為在特定地點(diǎn)進(jìn)行的一系列對(duì)話場(chǎng)景,一集南方公園的播放時(shí)間總共是22分鐘。 為了生成一個(gè)完整的南方公園劇集,我們通常以標(biāo)題、概要和我們希望在模擬虛擬世界的1周內(nèi)(=大約3小時(shí)的播放時(shí)間)發(fā)生的主要事件的形式,向故事系統(tǒng)提供一個(gè)高層次的想法。 基于此,故事系統(tǒng)會(huì)自動(dòng)使用模擬數(shù)據(jù)作為提示鏈的一部分,推斷出多達(dá)14個(gè)場(chǎng)景。 Showrunner系統(tǒng)負(fù)責(zé)為每個(gè)場(chǎng)景選派角色,以及故事應(yīng)該如何通過(guò)情節(jié)模式進(jìn)行。 每個(gè)場(chǎng)景都與一個(gè)情節(jié)字母(例如A,B,C)相關(guān)聯(lián),然后由Showrunner在一個(gè)劇集的過(guò)程中交替不同的角色組,并跟隨他們的各自故事線,以保持用戶的參與度。 最后,每個(gè)場(chǎng)景只定義了地點(diǎn)、角色和對(duì)話。在舞臺(tái)系統(tǒng)和AI攝像系統(tǒng)進(jìn)行初始設(shè)置后,根據(jù)情節(jié)模式(例如ABABC)回放場(chǎng)景。 每個(gè)角色的聲音都已經(jīng)提前克隆,并且每一條新的對(duì)話線都會(huì)即時(shí)生成語(yǔ)音剪輯。 如前所述,模擬產(chǎn)生的數(shù)據(jù),既為撰寫(xiě)初始提示的用戶,也為與LLM進(jìn)行提示鏈交互的生成故事系統(tǒng),提供了創(chuàng)新的燃料。 提示鏈?zhǔn)且环N技術(shù),它通過(guò)向語(yǔ)言模型提供一系列相關(guān)的提示,來(lái)模擬持續(xù)的思維過(guò)程。有時(shí),它可以在每一步中扮演不同的角色,對(duì)前一個(gè)提示和生成的結(jié)果進(jìn)行判別。 在這個(gè)例子中,我們會(huì)模仿一個(gè)非連續(xù)的創(chuàng)造性思維過(guò)程。 例如,要?jiǎng)?chuàng)建14個(gè)不同的《南方公園》場(chǎng)景,可以先提供一個(gè)概括性的提示,勾勒出總體敘事,然后再提供具體的提示,詳細(xì)說(shuō)明和評(píng)估每個(gè)場(chǎng)景的演員、地點(diǎn)和關(guān)鍵情節(jié)。 誰(shuí)在推動(dòng)這個(gè)故事? 參考資料: https://fablestudio./showrunner-agents/?mc_cid=f9d1eb56dc&mc_eid=bbcd57583d https://twitter.com/fablesimulation/status/1681352904152850437 https://twitter.com/DrJimFan/status/1682086586593443841 |
|
來(lái)自: 天承辦公室 > 《023新智元說(shuō)》