更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅

天承辦公室 2024-07-09 發(fā)布于江蘇

展開全文

機器之心原創(chuàng)

作者：杜偉

一轉眼，2024 年已經過半。我們不難發(fā)現，AI 尤其是 AIGC 領域出現一個越來越明顯的趨勢：文生圖賽道進入到了穩(wěn)步推進、加速商業(yè)落地的階段，但同時僅生成靜態(tài)圖像已經無法滿足人們對生成式 AI 能力的期待，對動態(tài)視頻的創(chuàng)作需求前所未有的高漲。

因此，文生視頻賽道持續(xù)高熱，尤其是自年初 OpenAI 發(fā)布 Sora 以來，以 Diffusion Transformer（DiT）為底層架構的視頻生成模型迎來了井噴期。在這一賽道，國內外視頻生成模型廠商們正默默展開著一場技術競速。

在國內，一家成立于去年 3 月、專注于構建視覺多模態(tài)基礎模型及應用的生成式 AI 初創(chuàng)公司不斷出現在人們的視野中。它就是智象未來（HiDream.ai），其自主研發(fā)的視覺多模態(tài)基礎模型實現了不同模態(tài)之間的生成轉換，支持文生圖、文生視頻、圖生視頻和文生 3D，并推出了一站式 AI 圖像和視頻生成平臺「Pixeling 千象」供社會大眾上手使用。

體驗地址：www.hidreamai.com

自智象大模型 2023 年 8 月上線以來，期間歷經數次迭代與打磨，通過優(yōu)化基礎模型來深挖、拓展文生圖和文生視頻等 AIGC 能力。尤其是在視頻生成領域，支持的生成時長從最開始的 4 秒增加到了 15 秒，成像效果也肉眼可見地更優(yōu)。

如今，智象大模型再次迎來升級，基于中文原生的獨有 DiT 架構釋放出更強大、更穩(wěn)定、對用戶更友好的圖像和視頻生成能力，包括更具美感和藝術性的圖像生成、圖像中文字嵌入、分鐘級視頻生成等。

所有這些圖像和視頻生成新技能的展示，離不開智象未來在多模態(tài)視覺生成領域的技術積累和持續(xù)創(chuàng)新。

生成效果持續(xù)提升

更強大基模能力是引擎

智象大模型從一開始便瞄準了文本、圖像、視頻、3D 的聯合建模，通過交互式生成技術實現精準可控的多模態(tài)內容生成，構筑強大的基模能力，讓用戶在其文生圖、文生視頻 AIGC 平臺中有更好的創(chuàng)作體驗。

此次智象大模型 2.0 的整體升級，相較于 1.0 版本在底層架構、訓練數據和訓練策略上均有質的變化，由此帶來了文本、圖像、視頻和 3D 多模能力的又一次飛躍和交互體驗上的切實提升。

可以說，升級后的智象大模型在圖像、視頻生成領域迎來了全方位加強，并為多模態(tài)大模型創(chuàng)作一站式 AIGC 生成平臺注入了更加強勁的驅動力。

文生圖技能再進化

有了更高層次的「追求」

作為 AIGC 的一站式生成平臺，文生圖是文生視頻的前提和重要的技術壁壘。因此智象未來在文生圖方向上寄予了很高的預期，以自己的節(jié)奏推進更多樣性功能、更逼真視覺效果以及更友好用戶體驗。

經過了一系列針對性調整和優(yōu)化，智象大模型 2.0 文生圖能力相較以往版本顯著改進，并從多個外在呈現效果上很容易看出來。

首先，智象大模型 2.0 生成的圖像更有美感、更具藝術性。當前的文生圖大模型在語義理解、生成圖像結構和畫面細節(jié)等較為直觀的方面可以做得很好，但在質感、美感、藝術性等偏感官方面可能無法讓人滿意。因此，追求美感成為了此次文生圖升級的重點。究竟效果如何呢？我們可以來看下面兩個示例。

第一個示例輸入的 Prompt 為「一個戴著巨大帽子的小女孩，帽子上有很多城堡，花草樹木，鳥類，五顏六色，特寫，細節(jié)，插畫風格」。

第二個示例輸入的 Prompt 為「綠色植物葉子特寫照片，深色主題，水滴細節(jié)，移動壁紙」。

生成的兩張圖像，無論是構圖色調，還是細節(jié)豐富度，看上去都有一種讓人眼前一亮的感覺，這些都極大地拉升了整體畫面美感。

除了讓生成的圖像看上去更美之外，生成圖像的相關性也更強。這也是圖像生成發(fā)展到一定階段后，大家非常關注的一個方面。

為了提升生成圖像的相關性，智象大模型重點強化了對一些復雜邏輯的理解，比如不同的空間布局、位置關系、不同類型的物體、生成物體的數量等，這些都是實現更高相關性的重要因素。一番調教下來，智象大模型可以輕松搞定包含多物體、多位置分布、復雜空間邏輯的圖像生成任務，更好地滿足現實生活中用戶的實際需求。

我們來看下面三個需要對不同物體、空間位置關系進行深刻理解的生成示例。結果表明，對于包含復雜邏輯的長短文本 Prompt，文生圖現在都能輕松搞定。

第一個示例輸入的 Prompt 為「廚房桌子上有三個裝滿水果的籃子。中間的籃子里裝滿了青蘋果。左邊的籃子里裝滿了草莓。右邊的籃子里滿是藍莓?；@子后面是一只白色狗。背景是一面青綠色的墻壁，上面有彩色的文字 'Pixeling v2'」。

第二個示例輸入的 Prompt 為「右邊是一只貓，左邊是一只狗，中間是一個綠色的立方體放在一個藍色的球上」。

第三個示例輸入的 Prompt 為「在月球上，一名宇航員騎著一頭牛，穿著粉色芭蕾裙，手拿著藍色傘。牛的右邊是一只戴著高頂帽的企鵝。底部寫著文字 “HiDream.Al”」。

同時，圖像中嵌入文字的生成更加準確、高效，這一海報或營銷文案中使用比較多的功能得到加強。

在技術實現上，生成圖像中嵌入文字需要大模型深刻理解輸入的 Prompt 中視覺外觀描述和精準文字內容，從而在保證圖像整體美感和藝術性的同時實現對文字內容的精準刻畫。

在接受機器之心的專訪時，智象未來 CTO 姚霆博士提到，對于此類任務，以往版本很多時候無法生成，即便能生成也存在問題，在生成的字符或者準確性上都有欠缺?，F在這些問題得到了很好地解決，智象大模型實現了圖像中長文本的嵌入生成，最多可以做到幾十個單詞。

下面從左到右三個生成示例展示出了很好的文字嵌入效果，尤其是圖右準確無誤地嵌入了二十幾個單詞及標點符號。

可以說，此次智象大模型的文生圖功能在行業(yè)中實現了行業(yè)引領的效果，為視頻生成打下了關鍵的牟定基礎。

視頻生成邁入分鐘級

如果說升級后的智象大模型 2.0 在文生圖方向做到了穩(wěn)扎穩(wěn)打，那么在文生視頻方向則迎來了跨越式突破。

去年 12 月，智象大模型的文生視頻打破了 4 秒時長限制，做到了支持 15 秒鐘以上的生成時長。半年過去了，文生視頻在時長、畫面自然度、內容和角色一致性上均有顯著提升，而這要歸功于其自研了一套成熟的 DiT 架構。

相較于 U-Net，DiT 架構靈活度更高，且能增強圖像、視頻的生成質量。Sora 的出現更直觀地驗證了這一點，采用此類架構的擴散模型表現出了天然生成高質量圖像和視頻的傾向，并在可定制化、生成內容可控性方面具有相對優(yōu)勢。對于智象大模型 2.0 而言，其采用的 DiT 架構又有一些獨特的地方。

我們知道，DiT 架構的底層實現都是基于 Transformer，智象大模型 2.0 在整個 Transformer 網絡結構、訓練數據的構成和訓練策略上采用完全自研的模塊，尤其在網絡訓練策略上下足了功夫。

首先，Transformer 網絡結構采用了高效的時空聯合注意力機制，不僅契合了視頻兼具空間域和時間域的特征，而且解決了傳統注意力機制在實際訓練過程中速度跟不上的難題。

其次，AI 視頻任務中的長鏡頭生成對訓練數據的來源、篩選提出了更高要求。因此，智象大模型最多支持幾分鐘甚至十幾分鐘視頻片段的訓練，這樣一來，直接輸出分鐘級時長的視頻有了可能。同時，對分鐘級視頻內容的描述也是比較困難的事情，智象未來自研了視頻描述生成的 Captioning Model，實現了詳細且精準的描述輸出。

最后在訓練策略上，由于長鏡頭視頻數據有限，因此智象大模型 2.0 使用了不同長度的視頻片段，進行視頻和圖片數據的聯合訓練，并動態(tài)地改變不同長度視頻的采樣率，進而完成長鏡頭訓練，同時在訓練時還會根據用戶反饋數據進行強化學習以進一步優(yōu)化模型性能。

也因此，更強大自研 DiT 架構為此次文生視頻效果的進一步提升提供了技術支撐。

現在，智象大模型 2.0 支持生成的視頻時長從 15 秒左右提升到了分鐘級，達到了業(yè)界較高水平。

在視頻時長邁入分鐘級之外，可變時長和尺寸也是此次文生視頻功能升級的一大看點。

當前視頻生成模型通常是固定生成時長，用戶無法選擇。智象未來將生成時長的選擇權開放給了用戶，既可以讓他們指定時長，也能夠根據輸入的 Prompt 內容進行動態(tài)判斷。如果比較復雜則生成較長視頻，比較簡單則生成較短視頻，通過這樣一個動態(tài)過程來自適應地滿足用戶的創(chuàng)作需求。生成視頻的尺寸也可以按需定制，對用戶使用非常友好。

此外，整體畫面觀感變得更好，生成視頻中物體的動作或運動更加自然流暢，細節(jié)渲染更加到位，并支持了 4K 超清畫質。

短短半年時間，與以往版本相比，升級后的文生視頻功能用「脫胎換骨」來形容也不為過。不過在姚霆博士看來，當前無論是智象未來還是其他同行，視頻生成大部分仍處于單鏡頭階段。如果對標自動駕駛領域的 L1 到 L5 階段，文生視頻大致處于 L2 階段。此次借助基模能力的升級，智象未來想要追求更高質量的多鏡頭視頻生成，也邁出了探索 L3 階段的關鍵一步。

智象未來表示，迭代后的文生視頻功能將在 7 月中旬上線使用。大家可以狠狠地期待一波了！

寫在最后

成立不到一年半的時間，無論是基礎模型能力的持續(xù)迭代，還是文生圖、文生視頻實際體驗的提升，智象未來在視覺多模態(tài)生成這一方向上走得既穩(wěn)又快，并收獲了大量 C 端和 B 端用戶。

我們了解到，智象未來 C 端用戶單月訪問量超過了百萬，生成 AI 圖像和視頻的總數量也超過千萬。低門檻、好應用構成了智象大模型的特質，并基于它打造了最適合社會大眾使用的首款 AIGC 應用平臺。

在 B 端，智象未來積極與中國移動、聯想集團、科大訊飛、上影集團、慈文集團、神州數碼、央視網、印象筆記、天工異彩、杭州靈伴等企業(yè)達成戰(zhàn)略合作協議，深化模型應用場景，將模型能力延展到包括運營商、智能終端、影視制作、電子商務、文旅宣傳和品牌營銷在內的更多行業(yè)，最終在商業(yè)化落地過程中發(fā)揮模型潛能并創(chuàng)造價值。

目前，智象大模型擁有大約 100 家頭部企業(yè)客戶，并為 30000 + 小微企業(yè)客戶提供了 AIGC 服務。

在智象大模型 2.0 發(fā)布之前，智象未來已經聯合中國移動咪咕集團推出了國民級 AIGC 應用「AI 一語成片」，不僅為普通用戶提供零基礎 AI 視頻彩鈴創(chuàng)作功能，還助力企業(yè)客戶生成豐富的品牌及營銷視頻內容，讓企業(yè)擁有屬于自己的彩鈴品牌，讓我們看到了視頻生成融合行業(yè)場景的巨大潛力。

此外，AI 生態(tài)也是大模型廠商發(fā)力的重要陣地。在這方面，智象未來持開放的態(tài)度，聯合聯想集團、科大訊飛、神州數碼等大客戶、小型開發(fā)團隊和獨立開發(fā)者共建包括視頻生成在內的廣泛 AI 生態(tài)，覆蓋用戶的更多元化需求。

2024 年被視為大模型應用落地元年，對所有廠商來說都是關鍵的發(fā)展節(jié)點。智象未來正在圍繞更強大的基模能力做深文章。

一方面，在統一的框架中強化圖像、視頻、3D 多模態(tài)的理解與生成能力，比如在視頻生成領域繼續(xù)優(yōu)化底層架構、算法、數據以求得時長、質量上的更大突破，成為推動未來通用人工智能的不可或缺的一部分；另一方面在用戶體驗、創(chuàng)新應用、行業(yè)生態(tài)等多個方向發(fā)力，擴大自身的行業(yè)影響力。

搶占視頻生成賽道的高地，智象未來已經做好了充足準備。

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發(fā)現有害或侵權內容，請點擊一鍵舉報。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅

更美圖像生成、直出分鐘級視頻，國產自研DiT架構的越級之旅