國產(chǎn)AI視頻生成技術(shù)的新突破：生數(shù)科技的Vidu模型

心之聲音 2024-04-29 發(fā)布于廣東

展開全文

在人工智能領(lǐng)域，Sora技術(shù)的出現(xiàn)無疑引起了全球范圍內(nèi)的廣泛關(guān)注。其革命性的Diffusion加Transformer架構(gòu)不僅在視頻生成的準(zhǔn)確性和靈活性上取得了質(zhì)的飛躍，更被看作是通往通用人工智能（AGI）的關(guān)鍵一步。然而，Sora技術(shù)的非開源性質(zhì)，使得其他企業(yè)難以復(fù)現(xiàn)其成果，這對于追求技術(shù)創(chuàng)新的中國AI企業(yè)來說，無疑是一大挑戰(zhàn)。

國產(chǎn)Sora的希望：生數(shù)科技的Vidu模型

在這樣的背景下，生數(shù)科技聯(lián)合清華大學(xué)推出了國內(nèi)首個基于純自研U-ViT架構(gòu)的視頻大模型——Vidu。這一模型不僅支持一鍵生成長達(dá)16秒、分辨率高達(dá)1080p的高清視頻內(nèi)容，而且在多鏡頭生成、時間和空間一致性、模擬真實物理世界以及想象力等方面，幾乎與Sora齊平。Vidu模型的發(fā)布，為國產(chǎn)AI視頻生成技術(shù)的發(fā)展注入了一劑強(qiáng)心針。

1248

技術(shù)路線的選擇與創(chuàng)新

生數(shù)科技之所以能在短短時間內(nèi)取得顯著成果，關(guān)鍵在于其選擇了正確的技術(shù)路線。與市面上大部分視頻生成算法不同，Vidu模型采用了融合架構(gòu)，即Diffusion與Transformer的結(jié)合。這種架構(gòu)充分發(fā)揮了Transformer的可擴(kuò)展性與Diffusion模型處理視覺數(shù)據(jù)的優(yōu)勢，使得Vidu在視覺任務(wù)中展現(xiàn)出卓越的能力。

1246

團(tuán)隊實力與研究成果

生數(shù)科技的團(tuán)隊核心成員來自清華大學(xué)人工智能研究院，是國內(nèi)最早開展深度生成式研究的團(tuán)隊之一。團(tuán)隊的多項研究成果已被OpenAI、蘋果、Stability AI等應(yīng)用于DALL·E 2、Stable Diffusion等模型中，是現(xiàn)階段在生成式領(lǐng)域發(fā)表論文成果數(shù)最多的國內(nèi)團(tuán)隊。此外，生數(shù)科技已獲得螞蟻集團(tuán)、啟明創(chuàng)投、BV百度風(fēng)投、字節(jié)系錦秋基金等多家知名機(jī)構(gòu)的認(rèn)可，并完成了數(shù)億元融資。

1242

工程化經(jīng)驗的積累與應(yīng)用

生數(shù)科技在圖像和3D領(lǐng)域的深入研究，為其在視頻生成技術(shù)上的突破奠定了堅實的基礎(chǔ)。公司通過在前期的圖像等任務(wù)中的準(zhǔn)備鋪墊，積累了高效的工程化經(jīng)驗。這些經(jīng)驗在Vidu模型的開發(fā)中得到了有效應(yīng)用，使得生數(shù)科技能夠在保證計算精度的同時，顯著提升訓(xùn)練速度和效率。

1241

國產(chǎn)AI視頻生成技術(shù)的未來展望

生數(shù)科技的Vidu模型的發(fā)布，不僅展示了國產(chǎn)AI視頻生成技術(shù)的巨大潛力，也為國內(nèi)AI企業(yè)的發(fā)展提供了新的方向。隨著技術(shù)的不斷進(jìn)步和市場的日益成熟，我們有理由相信，國產(chǎn)AI視頻生成技術(shù)將迎來更加廣闊的發(fā)展前景。同時，生數(shù)科技的成功經(jīng)驗也表明，找準(zhǔn)技術(shù)方向、積累工程化經(jīng)驗、走出國產(chǎn)特色，是國產(chǎn)AI企業(yè)在激烈的市場競爭中生存和發(fā)展的關(guān)鍵。

1240

生數(shù)科技的Vidu模型的問世，是國產(chǎn)AI視頻生成技術(shù)發(fā)展史上的重要里程碑。它不僅打破了國外技術(shù)壟斷的局面，更為國內(nèi)AI企業(yè)指明了創(chuàng)新發(fā)展的道路。在未來，我們期待看到更多像生數(shù)科技這樣的企業(yè)，通過技術(shù)創(chuàng)新和工程化經(jīng)驗的積累，推動國產(chǎn)AI技術(shù)的不斷進(jìn)步，為全球人工智能的發(fā)展貢獻(xiàn)中國智慧和中國方案。