機器之心報道 機器之心編輯部
今天,我們都在感受 Sora 的帶來的魅力。 OpenAI 的首個視頻生成模型 Sora,讓「一句話生成視頻」的前沿 AI 技術(shù)向上突破了一大截,引發(fā)了業(yè)界對于生成式 AI 技術(shù)方向的大討論。 Sora 生成的視頻范例。提示詞:「兩艘海盜船在一個咖啡杯中航行、互相戰(zhàn)斗的逼真特寫視頻?!箒碓矗?br>https://twitter.com/DrJimFan/status/1758210245799920123 此前,我們已經(jīng)見證過許多創(chuàng)業(yè)公司提出的視頻生成模型。相比之下,OpenAI 提出的新模型不論是效果還是理念上,似乎都具有劃時代的意義。 有人第一時間總結(jié)道,Sora 不是一個簡單的視頻生成器,它是一個數(shù)據(jù)驅(qū)動的物理引擎,其對于虛擬和現(xiàn)實世界進行模擬。在這個過程中,模擬器通過一些去噪和梯度數(shù)學(xué)方法來學(xué)習(xí)復(fù)雜的視覺渲染,構(gòu)建出「直觀」的物理效果,以及進行長期推理和語義基礎(chǔ)。 在 Sora 推出后,OpenAI 很快公布了技術(shù)報告。 OpenAI 探索了視頻數(shù)據(jù)生成模型的大規(guī)模訓(xùn)練。具體來說,研究人員在可變持續(xù)時間、分辨率和寬高比的視頻和圖像上聯(lián)合訓(xùn)練了一個文本條件擴散模型。作者利用對視頻和圖像潛在代碼的時空補丁進行操作的 transformer 架構(gòu),其最大的模型 Sora 能夠生成長達一分鐘的高質(zhì)量視頻。 OpenAI 認(rèn)為,新展示的結(jié)果表明,擴展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有前途的途徑。 技術(shù)報告地址: OpenAI 在技術(shù)報告中重點展示了:(1)將所有類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一表示,從而能夠大規(guī)模訓(xùn)練生成模型的方法;以及(2)對 Sora 的能力和局限性進行定性評估。 令人遺憾的是,OpenAI 的報告不包含模型和訓(xùn)練的細節(jié)。 最近一段時間,視頻生成是 AI 領(lǐng)域的重要方向,先前的許多工作研究了視頻數(shù)據(jù)的生成建模方向,包括循環(huán)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)、自回歸 transformer 和擴散模型。這些工作通常關(guān)注一小類視覺數(shù)據(jù)、較短的視頻或固定大小的視頻。 與之不同的是,OpenAI 的 Sora 是視覺數(shù)據(jù)的通用模型,它可以生成不同時長、長寬比和分辨率的視頻和圖像,而且最多可以輸出長達一分鐘的高清視頻。 視覺數(shù)據(jù)轉(zhuǎn)為 Patches 大型語言模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進行訓(xùn)練,獲得了出色的通用能力中,OpenAI 從這一點汲取了靈感。LLM 得以確立新范式,部分得益于創(chuàng)新了 token 使用的方法。研究人員們巧妙地將文本的多種模態(tài) —— 代碼、數(shù)學(xué)和各種自然語言統(tǒng)一了起來。 在這項工作中,OpenAI 考慮了生成視覺數(shù)據(jù)的模型如何繼承這種方法的好處。大型語言模型有文本 token,而 Sora 有視覺 patches。此前的研究已經(jīng)證明 patches 是視覺數(shù)據(jù)模型的有效表示。OpenAI 發(fā)現(xiàn) patches 是訓(xùn)練生成各種類型視頻和圖像的模型的可擴展且有效的表示。 在更高層面上,OpenAI 首先將視頻壓縮到較低維的潛在空間,然后將表示分解為時空 patches,從而將視頻轉(zhuǎn)換為 patches。 視頻壓縮網(wǎng)絡(luò) OpenAI 訓(xùn)練了一個降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。該網(wǎng)絡(luò)將原始視頻作為輸入,并輸出在時間和空間上壓縮的潛在表示。Sora 在這個壓縮的潛在空間中接受訓(xùn)練,而后生成視頻。OpenAI 還訓(xùn)練了相應(yīng)的解碼器模型,將生成的潛在表示映射回像素空間。 時空潛在 patches 給定一個壓縮的輸入視頻,OpenAI 提取一系列時空 patches,充當(dāng) Transformer 的 tokens。該方案也適用于圖像,因為圖像可視為單幀視頻。OpenAI 基于 patches 的表示使 Sora 能夠?qū)Σ煌直媛?、持續(xù)時間和長寬比的視頻和圖像進行訓(xùn)練。在推理時,OpenAI 可以通過在適當(dāng)大小的網(wǎng)格中排列隨機初始化的 patches 來控制生成視頻的大小。 用于視頻生成的縮放 Transformer Sora 是個擴散模型;給定輸入噪聲 patches(以及文本提示等調(diào)節(jié)信息),訓(xùn)練出的模型來預(yù)測原始的「干凈」patches。重要的是,Sora 是一個擴散 Transformer。Transformer 在各個領(lǐng)域都表現(xiàn)出了卓越的縮放特性,包括語言建模、計算機視覺、和圖像生成。 在這項工作中,OpenAI 發(fā)現(xiàn)擴散 Transformers 也可以有效地縮放為視頻模型。下面,OpenAI 展示了訓(xùn)練過程中具有固定種子和輸入的視頻樣本的比較。隨著訓(xùn)練計算的增加,樣本質(zhì)量顯著提高。 可變的持續(xù)時間,分辨率,寬高比 過去的圖像和視頻生成方法通常需要調(diào)整大小、進行裁剪或者是將視頻剪切到標(biāo)準(zhǔn)尺寸,例如 4 秒的視頻分辨率為 256x256。相反,該研究發(fā)現(xiàn)在原始大小的數(shù)據(jù)上進行訓(xùn)練,可以提供以下好處: 首先是采樣的靈活性:Sora 可以采樣寬屏視頻 1920x1080p,垂直視頻 1920x1080p 以及兩者之間的視頻。這使 Sora 可以直接以其天然縱橫比為不同設(shè)備創(chuàng)建內(nèi)容。Sora 還允許在生成全分辨率的內(nèi)容之前,以較小的尺寸快速創(chuàng)建內(nèi)容原型 —— 所有內(nèi)容都使用相同的模型。 其次是改進幀和內(nèi)容組成:研究者通過實證發(fā)現(xiàn),使用視頻的原始長寬比進行訓(xùn)練可以提升內(nèi)容組成和幀的質(zhì)量。將 Sora 在與其他模型的比較中,后者將所有訓(xùn)練視頻裁剪成正方形,這是訓(xùn)練生成模型時的常見做法。經(jīng)過正方形裁剪訓(xùn)練的模型(左側(cè))生成的視頻,其中的視頻主題只是部分可見。相比之下,Sora 生成的視頻(右側(cè))具有改進的幀內(nèi)容。 語言理解 訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本字幕的視頻。研究團隊將 DALL?E 3 中的重字幕(re-captioning)技術(shù)應(yīng)用于視頻。 具體來說,研究團隊首先訓(xùn)練一個高度描述性的字幕生成器模型,然后使用它為訓(xùn)練集中所有視頻生成文本字幕。研究團隊發(fā)現(xiàn),對高度描述性視頻字幕進行訓(xùn)練可以提高文本保真度以及視頻的整體質(zhì)量。 與 DALL?E 3 類似,研究團隊還利用 GPT 將簡短的用戶 prompt 轉(zhuǎn)換為較長的詳細字幕,然后發(fā)送到視頻模型。這使得 Sora 能夠生成準(zhǔn)確遵循用戶 prompt 的高質(zhì)量視頻。 以圖像和視頻作為提示 我們已經(jīng)看到了文本到視頻的諸多生成示例。實際上,Sora 還可以使用其他輸入,如已有的圖像或視頻。這使 Sora 能夠執(zhí)行各種圖像和視頻編輯任務(wù) — 創(chuàng)建完美的循環(huán)視頻、靜態(tài)圖像動畫、向前或向后延長視頻時間等。 為 DALL-E 圖像制作動畫 只要輸入圖像和提示,Sora 就能生成視頻。下面展示了根據(jù) DALL-E 2 和 DALL-E 3 圖像生成的視頻示例: 狗戴著貝雷帽、穿著黑色高領(lǐng)毛衣 帶有 Sora 的云圖像 視頻內(nèi)容拓展 Sora 還能夠在開頭或結(jié)尾擴展視頻內(nèi)容。以下是 Sora 從一段生成的視頻向后拓展出的三個新視頻。新視頻的開頭各不相同,擁有相同的結(jié)尾。 不妨使用這種方法無限延長視頻的內(nèi)容,實現(xiàn)「視頻制作永動機」。 視頻到視頻編輯 擴散模型激發(fā)了多種根據(jù)文本 prompt 編輯圖像和視頻的方法。OpenAI 的研究團隊將其中一種方法 ——SDEdit 應(yīng)用于 Sora,使得 Sora 能夠在零樣本(zero-shot)條件下改變輸入視頻的風(fēng)格和環(huán)境。 輸入視頻如下: 輸出結(jié)果: 連接視頻 我們還可以使用 Sora 在兩個輸入視頻之間逐漸進行轉(zhuǎn)場,從而在具有完全不同主題和場景構(gòu)成的視頻之間創(chuàng)建無縫過渡。 圖像生成能力 Sora 還能生成圖像。為此,OpenAI 將高斯噪聲 patch 排列在空間網(wǎng)格中,時間范圍為一幀。該模型可生成不同大小的圖像,最高分辨率可達 2048x2048。 涌現(xiàn)模擬能力 OpenAI 發(fā)現(xiàn),視頻模型在經(jīng)過大規(guī)模訓(xùn)練后,會表現(xiàn)出許多有趣的新能力。這些能力使 Sora 能夠模擬物理世界中的人、動物和環(huán)境的某些方面。這些特性的出現(xiàn)沒有任何明確的三維、物體等歸納偏差 — 它們純粹是規(guī)模現(xiàn)象。 三維一致性。Sora 可以生成動態(tài)攝像機運動的視頻。隨著攝像機的移動和旋轉(zhuǎn),人物和場景元素在三維空間中的移動是一致的。 長序列連貫性和目標(biāo)持久性。視頻生成系統(tǒng)面臨的一個重大挑戰(zhàn)是在對長視頻進行采樣時保持時間一致性。OpenAI 發(fā)現(xiàn),雖然 Sora 并不總是能有效地模擬短距離和長距離的依賴關(guān)系,但它在很多時候仍然能做到這一點。例如,即使人、動物和物體被遮擋或離開畫面,Sora 模型也能保持它們的存在。同樣,它還能在單個樣本中生成同一角色的多個鏡頭,并在整個視頻中保持其外觀。 與世界互動。Sora 有時可以模擬以簡單方式影響世界狀態(tài)的動作。例如,畫家可以在畫布上留下新的筆觸,這些筆觸會隨著時間的推移而持續(xù),或者一個人可以吃漢堡并留下咬痕。 模擬數(shù)字世界。Sora 還能模擬人工進程,視頻游戲就是一個例子。Sora 可以通過基本策略同時控制 Minecraft 中的玩家,同時高保真地呈現(xiàn)世界及其動態(tài)。只需在 Sora 的提示字幕中提及 「Minecraft」,就能零樣本激發(fā)這些功能。 這些功能表明,視頻模型的持續(xù)擴展是開發(fā)物理和數(shù)字世界以及其中的物體、動物和人的高能力模擬器的一條大有可為的道路。 局限性討論 作為一款模擬器,Sora 目前還存在許多局限性。例如,它不能準(zhǔn)確模擬許多基本交互的物理現(xiàn)象,如玻璃碎裂。其他交互,如吃食物,并不總能產(chǎn)生正確的物體狀態(tài)變化。官方主頁列舉了該模型的其他常見失效模式,例如長時間樣本中出現(xiàn)的不一致性或物體的自發(fā)出現(xiàn)。 不過,Sora 目前所展現(xiàn)的能力證明了持續(xù)擴大視頻模型的規(guī)模是一個充滿希望的方向,這也將助力物理和數(shù)字世界及其中的物體、動物和人類能夠有更加精確的模擬。 關(guān)于 Sora 參考文獻,大家可以自行查閱。 參考鏈接: |
|
來自: 獨角戲jlahw6jw > 《Av2》