成為“中國版的Sora”遠不是這場AI視頻大模型競賽的終點,而恰恰只是起點。 @科技新知 原創(chuàng) 作者丨余寐 編輯丨賽柯 六個月前,由OpenAI研發(fā)的文生視頻大模型Sora橫空出世,給了科技圈一點大大的震撼。 用AI生成視頻并不是新鮮事,只不過此前一直無法突破合成10秒自然連貫視頻的瓶頸。而Sora在發(fā)布時就已經(jīng)能合成1分鐘超長視頻,視頻質(zhì)量畫面也效果驚人。 盡管Sora一直沒有開放公測供用戶體驗,但其底層架構(gòu)還是被扒了個遍。被稱之為“Sora路線”的DiT,全稱為Diffusion Transformer,本質(zhì)是把訓(xùn)練大模型方法機制融入到了擴散模型之中。 自此,相關(guān)平臺不甘落后,紛紛摸著Sora過河,你方唱罷我登場,競爭不可謂不激烈。有媒體統(tǒng)計,國內(nèi)有至少超20家公司推出了自研AI視頻產(chǎn)品/模型。入局玩家紛雜。
AI視頻大模型賽道如此之“卷”,究其原因,無疑是其背后蘊藏的商業(yè)空間與想象力。不過,用戶更關(guān)心的是產(chǎn)品本身。這也是行業(yè)必須要直面的問題:AI視頻大模型到了哪一步?Sora帶來的“光環(huán)”,究竟值不值得期待? 目前深度學(xué)習(xí)的框架,“數(shù)據(jù)是燃料、模型是引擎、算力是加速器”。在掌握模型搭建方法后,不斷投喂數(shù)據(jù)并提升算力和準確性是各平臺采取的主要策略。而進展是有限的。普遍來看,大模型在生成具有連貫性和邏輯一致性的視頻方面仍然存在困難。 本次我們選取幾個國內(nèi)頭部視頻生成模型進行實測,包括可靈、即夢、PixVerse、清影(智譜清言),具體直觀地測試不同的模型表現(xiàn)。 為盡可能客觀地比較測試結(jié)果,我們采用如下設(shè)定:
以下是各模型的實際生成效果: 場景1:二次創(chuàng)作場景 提示詞:做出加油的動作后做出鬼臉,吐舌頭并眨右眼。 場景說明:使用梗圖《握拳寶寶》,模擬用戶二次創(chuàng)作,測試模型對于圖片的理解和生成能力。對于模型主要的難點在于需要理解“鬼臉”的含義,并能對“吐舌頭”和“眨眼”兩個動作做出反饋和生成?,F(xiàn)階段,模型一般只能識別一個動詞。 網(wǎng)絡(luò)上曾經(jīng)爆火的“握拳寶寶” ↑即夢:主體的手部、嘴部產(chǎn)生了明顯畸變,對于提示詞動作的理解沒有非常明顯。 場景2:人物吃東西場景 提示詞:一個亞洲年輕男性在家里用筷子津津有味地吃一碗面條,風(fēng)格真實,類似于電影《天使愛美麗》,環(huán)境舒適溫馨,鏡頭逐漸拉近對準人物。 場景說明:對于模型來說,需要圍繞“亞洲年輕男性”“筷子”“面條”生成視頻,同時要理解電影風(fēng)格和環(huán)境,并按照指示進行運鏡。更重要的是,通過吃飯這個場景可以更清晰地讓模型展示手部細節(jié),并通過吃面條這個動作來展示模型對于物理世界的理解。 場景3:動物擬人場景 提示詞(簡單版):一頭大熊貓戴著金邊眼鏡在教室黑板前講課。 提示詞(復(fù)雜版):電影膠片感風(fēng)格的場景中,一頭大熊貓戴著金邊眼鏡,在教室黑板前講課。它的動作自然流暢,周圍是充滿質(zhì)感的教室環(huán)境,學(xué)生們認真聽講。整個場景如同電影畫面,光影處理細膩,色彩飽滿。電影膠片感風(fēng)格,氣氛溫馨,8K電影級。 場景說明:該場景通過設(shè)置兩版提示詞,來測試大模型對于想象力的理解。簡單版提示詞僅有大熊貓、金邊眼鏡、黑板,模型可以通過這三個關(guān)鍵詞生成具有可自主添加其他內(nèi)容的視頻,來展現(xiàn)模型的想象力和細節(jié)搭建;復(fù)雜版提示詞按照清影內(nèi)設(shè)的提示詞調(diào)試小程序生成,涉及場景、風(fēng)格、人物、環(huán)境、色彩、氛圍和清晰度等,測試模型的細節(jié)刻畫。 先看簡單版提示詞生成的效果: 升級提示詞后的效果: 場景4:科技想象場景
提示詞(復(fù)雜版):在充滿科技感的科幻風(fēng)格未來城市中,使用推近鏡頭,展現(xiàn)建筑和交通工具的細節(jié),無人機在空中穿梭,天氣晴朗,陽光灑在高樓大廈的玻璃幕墻上陽光透過高樓的縫隙灑下,周圍環(huán)境充滿未來感,科幻風(fēng)格,氣氛激昂明朗,HDR高動態(tài)。 場景說明:該場景同樣設(shè)置兩版關(guān)鍵詞,簡單版只給出科技感、城市和視角三個關(guān)鍵詞,由模型填充生成剩下的內(nèi)容;復(fù)雜版提示詞同樣使用清影的提示詞調(diào)試程序生成,涉及風(fēng)格、運鏡、場景、環(huán)境、色彩、氣氛和清晰度。一方面,該場景主要測試模型在不同顆粒度的提示詞下所生成的視頻內(nèi)容豐富性;另一方面。“未來”是現(xiàn)實物理世界與想象世界的結(jié)合,可以測試模型對于建筑、光影和科幻的理解。 同樣先看簡單版: 再看復(fù)雜提示詞版生成效果: ↑可靈:依然是不會出錯的方案,有一些畸變,就是看起來好像是北京動物園公交樞紐的實拍是怎么回事。 除了場景應(yīng)用,我們還從另外四個維度對所選取的四個大模型進行了測評:
基于「科技新知」的測試情況,在視頻質(zhì)量和清晰度方面,可靈大模型在四個模型中更勝一籌,例如在生成大熊貓視頻時,其能夠較為清晰細膩地表現(xiàn)出大熊貓毛發(fā)的紋理、質(zhì)感和色澤;對于物體的邊框勾勒也區(qū)分明確,畫面更真實,相對來說物體畸變也是最少的。清晰度方面,幾個大模型生成效果都還不錯,PixVerse效果相對落后。 從準確性和一致性比較,四個模型對于部分提示詞的忽略是普遍情況。對于兩個及以上動詞,通常模型只會關(guān)注其中一個,側(cè)重選擇哪些關(guān)鍵詞和關(guān)鍵信息也是考量模型理解能力的重要判斷方式。 從生成視頻的豐富性上,即夢和PixVerse表現(xiàn)較好。在一些除主體元素外的細節(jié)方面,二者都在盡量擴充內(nèi)容,尤其是即夢對光線光影頗有理解。反觀可靈,在這部分則相對保守,主要以保證主體元素和動作不出差錯為主要聚焦。 從使用成本上,目前四個模型均可以免費或付費使用。具體來看,截至測評日,清影可以無限量使用,可靈、即夢和PicVerse則采用每日贈送積分點數(shù)的方式供用戶體驗。除此之外,每家的付費機制各有側(cè)重。 四個頭部AI視頻生成模型對比表
四個頭部AI視頻生成模型生成速度對比表(數(shù)據(jù)測試時間為8月3日上午11時) 從交互來看,在注冊登錄門檻上,清影僅采用手機驗證碼注冊登錄,相對簡單;可靈支持手機驗證碼和快手賬號兩種登錄方式,默認使用手機驗證碼;PixVerse則遵循海外主流產(chǎn)品的登錄方式,提供谷歌、Discord綁定和郵箱三種登錄方式;即夢帶有一貫的字節(jié)系產(chǎn)品特色,比如在電腦端使用產(chǎn)品之前,需要先下載抖音才能掃碼登錄,當然也可以選擇使用手機驗證碼登錄,但又必須授權(quán)抖音驗證。 在頁面布局上,PixVerse采用純英文界面,右上角為賬戶等個人信息,左側(cè)為功能性按鈕,界面交互非常簡單,可調(diào)節(jié)參數(shù)也并不多,主要是正向提示詞、負提示詞,模型選擇,時長,畫面比例等。 可靈的頁面布局也類似,使用傳統(tǒng)操作臺界面,右上角為賬戶信息,左側(cè)為調(diào)試臺,中間為預(yù)覽窗口,右側(cè)為歷史記錄,動線流暢??烧{(diào)節(jié)等參數(shù)包括正向提示詞、創(chuàng)意想象力/創(chuàng)意相關(guān)性,生成模式、時長、視頻比例、運鏡、負提示詞等。
即夢模型主界面簡潔,總體色調(diào)和布局承襲剪映的風(fēng)格,分為左側(cè)調(diào)試和右側(cè)預(yù)覽兩部分,調(diào)試部分與其他模型大同小異。在右側(cè)預(yù)覽部分,對生成的視頻可以實現(xiàn)延長時長、對口型、補幀、提升分辨率等會員功能,用于對生成視頻的調(diào)整,也符合用戶工作流習(xí)慣。 測評觀察 總體使用下來,「科技新知」個人的感受是產(chǎn)品使用不及預(yù)期,頗有雷聲大雨點小之意。就「科技新知」的測試體驗而言,幾款模型中體驗最好的是可靈,不論是文生視頻還是圖生視頻,相對來說都比較絲滑。對新手用戶來說,不需要掌握非常復(fù)雜的提示詞技巧,僅按照模型操作界面的提示,使用純自然語言就能夠達到相對滿意的效果。另一方面,生成的視頻在細節(jié)(比如手部)方面處理得較平滑,失誤率較少。對于現(xiàn)階段生成視頻通常需要“抽卡”(碰運氣)的賽道常態(tài)來說,減少失誤率就意味著提升質(zhì)量。 在本次測試場景的反饋中,即夢和PixVerse生成的視頻質(zhì)量相對不穩(wěn)定,一定程度上表現(xiàn)出了模型穩(wěn)定性還有待提升。而清影模型,不知是否因為訓(xùn)練素材的原因,生成的視頻總是帶有濃郁的色彩和卡通風(fēng)格,讓人不由想起B(yǎng)站“學(xué)了五年動畫的朋友”系列。 技術(shù)的發(fā)展固然鼓舞人心。除了速度提升以外,不少AI視頻生成模型已經(jīng)初步具備了“理解”世界的能力。即在視頻生成時可以理解物體運動過程中的物理世界,也能預(yù)測視頻下一步可能發(fā)生什么。 但在實際應(yīng)用層面,這類大模型的局限也很顯然。5到10秒的可選視頻長度對于用戶來說稍顯尷尬,很難進行任何故事性創(chuàng)作。目前最匹配的領(lǐng)域,或許只能是制作一些表情包或梗圖二次創(chuàng)作。企業(yè)并非沒有意識到問題,只是現(xiàn)實很骨感——長度限制是由開發(fā)成本導(dǎo)致的?,F(xiàn)階段在AI視頻生成賽道上,玩家比的不只是技術(shù),還有資金。為了“回血”,平臺紛紛設(shè)計了會員機制,怎奈花的比掙的多得多。 據(jù)調(diào)查機構(gòu) Factorial Funds 的數(shù)據(jù),以 Sora 為例,它 30 億參數(shù)(主流猜測 )的訓(xùn)練成本,比 1.8 萬億參數(shù)的 GPT-4 還要多。這還只是訓(xùn)練,實際使用的推理成本要更多。國內(nèi)有 AI 企業(yè)做過一個折算,生成一個差不多兩分鐘的視頻,企業(yè)的成本是 180 元。收取的會員制費用相對于其研發(fā)成本來說簡直是九牛一毛。 從這個層面看,像抖音、快手這類擁有短視頻平臺的玩家自帶天然優(yōu)勢。一方面,其訓(xùn)練數(shù)據(jù)并不缺乏,另一方面,自身的海量用戶也使企業(yè)更容易實現(xiàn)商業(yè)化路徑的閉環(huán)。但變現(xiàn)門檻也無法忽視。設(shè)想一下,如果只是一名普通的C端用戶,除了一開始的新鮮勁兒,如何保證其付費率和付費意愿? 因此,成為“中國版的Sora”遠不是這場AI視頻大模型競賽的終點,而恰恰只是起點。產(chǎn)品問世之后,誰能找到可持續(xù)的商業(yè)化之路,落地產(chǎn)業(yè)化應(yīng)用,才是國產(chǎn)AI賽道的終極玩家。 |
|