哈嘍,大家好,木易巷來(lái)啦! 剛剛躋身全球第三大初創(chuàng)公司的OpenAI在中國(guó)春節(jié)期間又甩出“王炸”! 繼文本模型ChatGPT和圖像模型Dall-E取得成功之后,Sora的出現(xiàn)讓許多行業(yè)感到興奮和期待,但同時(shí)也帶來(lái)了一些不安和擔(dān)憂。 一位匿名從事AI大模型研究多年的人士表示,Sora的推出將首先影響AI視頻和AI圖片領(lǐng)域的競(jìng)爭(zhēng)者,因?yàn)镾ora的出現(xiàn)意味著視頻生成的門(mén)檻大幅降低,可能會(huì)對(duì)廣告、影視和短視頻等行業(yè)帶來(lái)重大變革。 下面我們一起來(lái)了解一下Sora的強(qiáng)大~ Sora是如何實(shí)現(xiàn)如此顛覆性的能力的呢?這就不得不提到其背后的兩項(xiàng)核心技術(shù)突破——Spacetime Patch(時(shí)空Patch)技術(shù)和Diffusion Transformer(DiT,或擴(kuò)散型Transformer)架構(gòu)。 作為一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎,只需要接收一句話,Sora 便可以生成“充滿想象力”“史詩(shī)級(jí)”的大片,這無(wú)疑又是一顆投向人類的重磅“炸彈”。 目前官網(wǎng)上已經(jīng)更新了48個(gè)視頻demo,在這些demo中,Sora不僅能準(zhǔn)確呈現(xiàn)細(xì)節(jié),還能理解物體在物理世界中的存在,并生成具有豐富情感的角色。 下面是幾個(gè)畫(huà)面: 1、AI想象中的龍年春節(jié),紅旗迎風(fēng)招展,人山人海,兒童們緊隨舞龍隊(duì)伍,好奇地觀望,許多人掏出手機(jī)記錄這壯觀場(chǎng)面,各種人物角色各有各自的行為。 2、一位時(shí)尚女士漫步在東京街頭,周?chē)菧嘏W爍的霓虹燈和充滿活力的城市標(biāo)志。 3、通過(guò)豎屏超近景視角,展現(xiàn)了一只蜥蜴的細(xì)節(jié)。 在過(guò)去的一年多里,AI已在文本和圖片領(lǐng)域取得了成功,視頻領(lǐng)域雖然有進(jìn)展,但仍存在一些不足。然而,從Sora開(kāi)始,"有視頻有真相"可能也將成為歷史。 盡管OpenAI指出Sora目前存在一些弱點(diǎn),如難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,可能無(wú)法理解因果關(guān)系。 1、例如,描述“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”時(shí),狼的數(shù)量可能會(huì)變化,一些狼會(huì)憑空出現(xiàn)或消失。 此外,該模型還可能混淆提示的空間細(xì)節(jié),例如混淆左右等等。 2、例如,描述籃球“穿過(guò)籃筐然后爆炸”時(shí),籃球可能沒(méi)有被籃筐正確阻擋。 據(jù)報(bào)道,目前Sora已向部分用戶開(kāi)放,用于評(píng)估關(guān)鍵領(lǐng)域的潛在風(fēng)險(xiǎn)和危害。同時(shí),OpenAI也邀請(qǐng)了一些視覺(jué)藝術(shù)家、設(shè)計(jì)師和電影制作人加入,希望他們提供寶貴的反饋,推動(dòng)模型的進(jìn)步,為創(chuàng)意工作者提供更好的支持。 |
|