曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包

天承辦公室 2024-06-27

展開全文

機器之心發(fā)布

機器之心編輯部

日前，曠視科技發(fā)布了一項新的開源 AI 人像視頻生成框架 ——MegActor?；谠摽蚣?，用戶只需輸入一張靜態(tài)的肖像圖片，以及一段視頻（演講、表情包、rap）文件，即可生成一段表情豐富、動作一致的 AI 人像視頻。MegActor 所生成的視頻長度，取決于給定的驅(qū)動視頻的長度。與阿里 EMO、微軟 VASA 等最新涌現(xiàn)的 AI 視頻模型不同，曠視 MegActor 將采用開源的方式，提供給開發(fā)者社區(qū)使用。MegActor 能夠呈現(xiàn)出絲毫畢現(xiàn)的效果，面部細節(jié)更加豐富自然，畫質(zhì)更出色。

為了進一步展示其泛化性，MegActor 甚至可以讓 VASA 里面的人物肖像和它們的視頻彼此組合生成，得到表情生動的視頻生成結(jié)果。

即使是對比阿里 EMO 的官方 Case，MegActor 也能生成近似的結(jié)果。

總的來說，不管是讓肖像開口說話，讓肖像進行唱歌 Rap，還是讓肖像模仿各種搞怪的表情包，MegActor 都可以得到非常逼真的生成效果。

論文：https:///abs/2405.20851
代碼地址：https://github.com/megvii-research/megactor
項目地址：https://megactor./

MegActor 是曠視研究院的最新研究成果。曠視研究院，是曠視打造的公司級研究機構(gòu)。曠視研究院旨在通過基礎(chǔ)創(chuàng)新突破 AI 技術(shù)邊界，以工程創(chuàng)新實現(xiàn)技術(shù)到產(chǎn)品的快速轉(zhuǎn)化。經(jīng)過多年發(fā)展，曠視研究院已成為全球規(guī)模領(lǐng)先的人工智能研究院。

在目前的人像視頻生成領(lǐng)域，許多工作通常使用高質(zhì)量的閉源自采數(shù)據(jù)進行訓練，以追求更好的效果。而曠視研究院始終堅持全面開源，確保實際效果的可復現(xiàn)性。MegActor 的訓練數(shù)據(jù)全部來自公開可獲取的開源數(shù)據(jù)集，配合開源代碼，使得感興趣的從業(yè)者可以從頭開始完整復現(xiàn)這些令人驚艷的效果。

為了完全復刻原始視頻的表情和動作，MegActor 采用了原始圖像進行驅(qū)動，這與多數(shù)廠商使用 sketch、pose、landmark 的中間表示皆然不同，能夠捕捉到細致的表情和運動信息。

曠視科技研究總經(jīng)理范浩強表示，在 AI 視頻生成領(lǐng)域，我們發(fā)現(xiàn)目前主流的骨骼關(guān)鍵點控制方式不僅要求用戶提供難以獲取的專業(yè)控制信號，同時生成視頻相較于原肖像的保真程度也不盡如人意。通過一系列研究發(fā)現(xiàn)，使用原視頻進行驅(qū)動，不僅將幫助用戶降低控制信號的門檻，更能生成更加保真且動作一致的視頻。

具體來說，MegActor 主要由兩個階段構(gòu)成：

使用了一個 ReferenceNet 對參考圖像進行特征提取，負責得到參考圖像的外觀和背景等信息；
使用了一個 PoseGuider，對輸入的視頻進行運動和表情信息提取，負責將運動和表情信息遷移到參考圖像上。

盡管相較于使用音頻或 landmark 等表示方式，使用原始視頻進行驅(qū)動能帶來更加豐富的表情細節(jié)和運動信息。然而，使用原始視頻進行驅(qū)動依然存在兩大核心技術(shù)挑戰(zhàn)：一是 ID 泄露問題；二是原始視頻中的背景和人物皺紋等無關(guān)信息會干擾影響合成表現(xiàn)。

為此，MegActor 開創(chuàng)性地采用了條件擴散模型。首先，它引入了一個合成數(shù)據(jù)生成框架，用于創(chuàng)建具有一致動作和表情但不一致身份 ID 的視頻，以減輕身份泄露的問題。其次，MegActor 分割了參考圖像的前景和背景，并使用 CLIP 對背景細節(jié)進行編碼。這些編碼的信息隨后通過文本嵌入模塊集成到網(wǎng)絡中，從而確保了背景的穩(wěn)定性。

在數(shù)據(jù)訓練方面，曠視研究院團隊僅使用公開的數(shù)據(jù)集進行訓練，處理了 VFHQ 和 CeleV 數(shù)據(jù)集進行訓練，總時長超過 700 小時。同時，為了避免 ID 泄露問題，MegActor 還使用換臉和風格化方法 1:1 生成合成數(shù)據(jù)，實現(xiàn)表情和動作一致、但 ID 不一致的數(shù)據(jù)。此外，為了提高對大范圍動作和夸張表情的模仿能力，團隊使用注視檢測模型對數(shù)據(jù)進行處理，獲取大約 5% 的高質(zhì)量數(shù)據(jù)進行 Finetune 訓練。

通過采用一系列新的模型框架和訓練方法，曠視研究院團隊僅使用了不到 200 塊 V100 顯卡小時的訓練時長，最終實現(xiàn)的具體特性包括：