后GPT時代，多模態(tài)是最大的機(jī)會

天承辦公室 2023-05-05 發(fā)布于江蘇

展開全文

作者：王詠剛，SeedV實驗室創(chuàng)始人/CEO，創(chuàng)新工場AI工程院執(zhí)行院長

編者按：ChatGPT/GPT-4的橫空出世，已經(jīng)徹底改變了NLP領(lǐng)域的研究態(tài)勢，并以其多模態(tài)的潛能，點燃了人們心中通往AGI的第一簇火花。

AI 2.0時代因此而至。但新時代的技術(shù)列車將通往何方？全新的商業(yè)機(jī)會又埋藏在何處？SeedV實驗室創(chuàng)始人/CEO、創(chuàng)新工場AI工程院執(zhí)行院長王詠剛認(rèn)為：多模態(tài)算法正處在“寒武紀(jì)大爆發(fā)”的早期。

以下為王詠剛的筆記全文分享。

△王詠剛

我既是軟件工程師，也是投資人和創(chuàng)業(yè)者。我曾參與多個成功AI項目的創(chuàng)建、孵化或投資。

今天，ChatGPT開啟了嶄新的AI 2.0時代，我個人也全力投入到一個3D+AI的全新創(chuàng)業(yè)歷程中。在我的創(chuàng)業(yè)團(tuán)隊，大家最關(guān)心的AI核心技術(shù)是跨文本、圖像、視頻、3D、動畫序列等信息的多模態(tài)AI。

此前一段時間，我將我們團(tuán)隊在這個領(lǐng)域的思考整理成多份筆記。本文是這些筆記的匯總和歸納。童超、潘昊等SeedV實驗室成員直接為本文貢獻(xiàn)了重要的技術(shù)實驗、思考結(jié)論或參考信息，在此表示特別感謝。

核心觀點
大語言模型的“壟斷”與“白菜化”
多模態(tài)AI的廣闊天地
多模態(tài)技術(shù)處于大爆發(fā)早期
多模態(tài)AI為什么這么難
大語言模型本身的多模態(tài)能力
另一個“大力出奇跡”的結(jié)局？
多模態(tài)應(yīng)用的創(chuàng)新“藍(lán)海”
參考資料

核心觀點

一、未來的通用智能一定是多模態(tài)智能；
二、GPT-4代表的大語言模型具備某些多模態(tài)潛能；
三、多模態(tài)算法正處在“寒武紀(jì)大爆發(fā)”的早期；
四、多模態(tài)算法很可能再次收斂到某種“大力出奇跡”的超級大模型；
五、多模態(tài)是大模型科研與工程領(lǐng)域最好的彎道超車機(jī)會；
六、GPT讓AI平民化，應(yīng)用開發(fā)者很難建立核心技術(shù)壁壘；
七、但在多模態(tài)領(lǐng)域，三至五年內(nèi)仍有修建“技術(shù)護(hù)城河”的大量機(jī)會；
八、多模態(tài)領(lǐng)域的應(yīng)用創(chuàng)新、模式創(chuàng)新機(jī)會遠(yuǎn)多于單模態(tài)領(lǐng)域。

大語言模型的“壟斷”與“白菜化”

我做過很多年自然語言處理（NLP）相關(guān)的工程研發(fā)。不夸張地說，GPT終結(jié)了大多數(shù)獨立存在的NLP上下游任務(wù)。不僅大量科研方向被GPT超越，無數(shù)自然語言生成、對話、交互相關(guān)的應(yīng)用問題也一夜之間得以解決。

好消息是，人人都能用GPT API攢出點兒效果驚艷的應(yīng)用產(chǎn)品，不懂編程的人還能雇傭AI幫忙編程序；壞消息是，NLP技術(shù)徹底失去了神秘感，所有應(yīng)用開發(fā)團(tuán)隊的NLP水平被強(qiáng)行拉齊，大家可以拼產(chǎn)品、拼運營，但要在應(yīng)用側(cè)建立NLP相關(guān)的技術(shù)護(hù)城河，就顯得特別困難了。

一方面，OpenAI的ChatGPT、GPT API、ChatGPT Plugin核心生態(tài)已初具規(guī)模，LangChain、AutoGPT、HuggingGPT等外圍生態(tài)方興未艾。未來無論中美，只要是面向消費者的，線上的，不需要私有部署或不涉及敏感數(shù)據(jù)的應(yīng)用，大都可以直接連接大廠大模型。與搜索引擎時代的搜索和廣告產(chǎn)品類似，這個領(lǐng)域必將是贏者通吃、大廠壟斷的模式。中美市場里，大概各自有兩三個超級AI大模型一起吃掉通用智能計算的全部份額。

另一方面，在企業(yè)級客戶、政府客戶那邊，有體量巨大的私有部署、私域數(shù)據(jù)、敏感數(shù)據(jù)、定制開發(fā)等專有智能計算的需求。這些需求限于數(shù)據(jù)無法充分交換，不能用大廠大模型或通用方案解決。幸好，以LLaMA為發(fā)端，“羊駝家族”為流變，層出不窮的小模型（可以在終端設(shè)備甚至瀏覽器中運行）、中模型（數(shù)十億到數(shù)百億參數(shù)）、大模型（千億參數(shù)或以上）以開源模式殺入市場。只要原始許可協(xié)議支持，開發(fā)者就能基于這些開源模型迅速完成定制、領(lǐng)域?qū)R和封裝、部署，為企業(yè)或政府客戶提供智能應(yīng)用產(chǎn)品。

上圖來自Yang, JF et al., Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond。

態(tài)勢很明顯，在通用智能計算領(lǐng)域，壟斷會是未來的基本形態(tài)；在專有智能計算領(lǐng)域，基于開源模型簡單封裝的解決方案將迅速實用化，并在開發(fā)和部署成本上實現(xiàn)“白菜價”。

大語言模型（還可以算上多模態(tài)領(lǐng)域里已經(jīng)開源和普及的Stable Diffusion套裝）會迅速像此前的人臉識別技術(shù)一樣，發(fā)展為人人可用的“白菜化”解決方案。

大語言模型和相關(guān)技術(shù)仍在發(fā)展，但上述超級平臺和開源生態(tài)齊頭并進(jìn)的態(tài)勢在事實上消弭了AI產(chǎn)品之間的技術(shù)差異。除了少數(shù)幾家超級平臺類的產(chǎn)品公司和少量處在開源生態(tài)核心地位的技術(shù)公司外，其他所有科技公司、創(chuàng)業(yè)者都很難在大語言模型這個領(lǐng)域建立起真正意義上的“技術(shù)護(hù)城河”。對用戶來說，新一代AI技術(shù)的平民化肯定是大好事。但對行業(yè)競爭的參與者來說，未來比拼的可能就不是技術(shù)，而是資源、平臺、流量、模式、運營能力、產(chǎn)品迭代速度這些老生常談的市場要素了。

當(dāng)然了，信仰技術(shù)驅(qū)動型創(chuàng)新的創(chuàng)業(yè)者也不用失望；我覺得，三至五年內(nèi)還有一片拼技術(shù)的藍(lán)?？梢怨┐蠹覜_浪——與大語言模型相比，多模態(tài)AI在技術(shù)上遠(yuǎn)未收斂，無論在科研、工程還是應(yīng)用層面，都是一片廣闊天地，大有可為。

多模態(tài)AI的廣闊天地

概念上，多模態(tài)AI指的是能夠執(zhí)行一種或多種跨模態(tài)/多模態(tài)任務(wù)的AI算法。典型的跨模態(tài)/多模態(tài)任務(wù)（科研上，“跨模態(tài)”與“多模態(tài)”有不同的內(nèi)涵，本文不做詳細(xì)說明）包括：

跨模態(tài)的生成任務(wù)，如文生圖；
輸出多模態(tài)信息的生成任務(wù)，如根據(jù)文字描述，自動輸出混合了圖、文、視頻內(nèi)容的展示文稿；
跨模態(tài)的理解任務(wù)，如自動為視頻編配語義字幕；
跨模態(tài)的邏輯推理任務(wù)，如根據(jù)輸入的幾何圖形，給出有關(guān)定理的文字證明；
多模態(tài)的邏輯推理任務(wù)，如請AI玩密室逃脫——這需要AI根據(jù)密室空間結(jié)構(gòu)，文字信息，圖片信息等推理出最優(yōu)解決方案；
……

GPT-4展示出強(qiáng)大的通用問題解決能力后，為什么我們還需要在多模態(tài)領(lǐng)域進(jìn)一步提升AI的認(rèn)知效率？

其實，我們還沒有弄清人類智能和機(jī)器智能之間的所有關(guān)聯(lián)，甚至難以深入揭示二者的運行規(guī)律（可解釋性）。不過，一些非常樸素的，形而上的經(jīng)驗認(rèn)知，還是能幫助我們廓清大語言模型與多模態(tài)模型之間的互補關(guān)系：

GPT-4的確擁有非常明顯的初級AGI能力（參見微軟Spark of AGI論文），而且，這部分初級的AGI能力是由GPT主要通過閱讀和統(tǒng)計人類語言文字信息獲取的；
另一方面，人類的生存環(huán)境和思考過程肯定是多模態(tài)的（圖、文、聲、光、電、影……）；
即便在語言文字出現(xiàn)前，人類的祖先也能勝任不同類型的智慧任務(wù)——這應(yīng)該是多模態(tài)學(xué)習(xí)或思考的功勞；
雖然語言文字這樣的符號化系統(tǒng)可以間接存儲其他模態(tài)的信息或知識，但，為什么計算機(jī)不能從其他模態(tài)數(shù)據(jù)中直接學(xué)習(xí)呢？
如果單純依賴語言文字，AI真的能學(xué)到這個多模態(tài)世界的所有知識嗎？
……

無疑，真正的AGI必須能像人類一樣即時、高效、準(zhǔn)確、符合邏輯地處理這個世界上所有模態(tài)的信息，完成各類跨模態(tài)或多模態(tài)任務(wù)。但通向這個終極目標(biāo)的技術(shù)路徑可能是多樣的，或需要探索和嘗試的。從結(jié)論上，我個人會傾向于：

未來真正的AGI必然是與人類相仿的，高效的多模態(tài)智能處理機(jī)；
單純從語言文字中學(xué)習(xí)大概率無法獲得完整的世界認(rèn)知；
真正的AGI需要同時從所有模態(tài)信息中學(xué)習(xí)知識、經(jīng)驗、邏輯、方法。

GPT-4擁有初步的圖像語義理解能力（參見GPT-4 Technical Report）。文生圖模型Stable Diffusion與ControlNet，LoRA等條件控制和微調(diào)技術(shù)結(jié)合后，也能輸出優(yōu)異和可控的結(jié)果。不過，與我們真正需要的全部多模態(tài)能力相比，今天的GPT-4和Stable Diffustion在多模態(tài)能力上最多只是幼兒園水平。

試想，如果AI可以像人類一樣通過視覺、聽覺、嗅覺、味覺、觸覺等多模態(tài)傳感器收集并有效處理這個世界的各類信息，我們肯定不會滿足于簡單的文生圖功能。假如多模態(tài)AI能盡早成熟，我特別愿意憧憬下面這些極具誘惑力的應(yīng)用場景：

機(jī)器人僅憑視覺系統(tǒng)，對現(xiàn)場環(huán)境快速準(zhǔn)確的還原。這里的“還原”包括但不限于精準(zhǔn)的3D重建，光場重建，材質(zhì)重建，運動參數(shù)重建等等。
上一條有關(guān)機(jī)器人的需求，如果換到自動駕駛領(lǐng)域，就必然意味著一部與人類司機(jī)擁有同等級別感知能力、判斷能力，能夠獲得上路許可的新一代自動駕駛汽車。
AI可以通過觀察一只小狗的生活影像，像Pixar的藝術(shù)家那樣為一只3D建模的玩具狗賦予動作、表情、體態(tài)、情感、性格甚至虛擬生命。
動畫片導(dǎo)演用文字描述的拍攝思路，可以由AI解釋和轉(zhuǎn)換為場景設(shè)計、分鏡設(shè)計、建模設(shè)計、光照設(shè)計、材質(zhì)和渲染設(shè)計、動畫設(shè)計、攝像機(jī)控制等一系列專業(yè)任務(wù)。
小朋友向AI描述自己幻想中的童趣世界，多模態(tài)AI利用虛擬現(xiàn)實技術(shù)幫助小朋友圓夢。
任何一個人都可以成為未來世界的游戲設(shè)計師。人類用戶只需要籠統(tǒng)定義游戲場景、游戲角色和游戲規(guī)則，剩下的專業(yè)工作都可以交給未來的多模態(tài)AI。
多模態(tài)AI成熟后，聊天機(jī)器人可以迅速演變成能夠在視頻聊天里“察言觀色”或用“肢體語言”來幫助自己提高表達(dá)能力的換代產(chǎn)品。
AI程序有可能第一次具備與情感相關(guān)的功能屬性——想象一個懂得眼淚的不同含義的AI助理；或者，想象一套深入理解人類情感的虛擬心理咨詢師。
AI有可能輕易掌握人類在藝術(shù)創(chuàng)作中常用的“通感”技巧：因為看見風(fēng)起云涌的海岬，創(chuàng)作出節(jié)奏與情緒層層遞進(jìn)的高水準(zhǔn)交響樂；因為欣賞白鶴的曼妙舞姿，創(chuàng)作出仙風(fēng)道骨的飄逸舞蹈…

多模態(tài)技術(shù)處于大爆發(fā)早期

個人觀點：今天多模態(tài)AI的技術(shù)進(jìn)展?fàn)顟B(tài)，像極了2017年前后的NLP領(lǐng)域。

2017年是Google提出Transformer技術(shù)的時間，也是NLP科研領(lǐng)域百花齊放，多路徑同時迭代，上下游任務(wù)各自突破的時代。在自然語言處理頂級學(xué)術(shù)會議ACL 2017年的論文列表（https:///events/acl-2017/）中，我們可以找到那個時代科研人員最關(guān)心的技術(shù)話題。

2017年，文本分類、語義解析（Semantic Parsing）、向量編碼、機(jī)器翻譯、文本生成、閱讀理解、知識問答、主題模型、方面提取（Aspect Extraction）等等上下游任務(wù)與Attention、RNN、CNN、Sequence-to-sequence、Sequence-to-Dependency等不同技術(shù)路線之間以各種方式排列組合，讓人目不暇給。即便是進(jìn)入了2018年的BERT時代，科研圈的很多人還是在反復(fù)爭論到底哪一種路線才是通往“人工智能圣杯”的最優(yōu)路徑。

拿我自己來說，至少在GPT-3出現(xiàn)之前，我作為有多年NLP經(jīng)驗的工程師，是完全沒有預(yù)料到AGI的曙光會離我們這么近的。

今天的多模態(tài)AI在科研領(lǐng)域幾乎與2017年時的NLP科研一模一樣，所有需要研究的上下游任務(wù)與所有可能的技術(shù)路線之間，正在上演各種形式的排列組合游戲。CVPR 2023年已接收的論文列表（https://cvpr2023./Conferences/2023/AcceptedPapers）可以真實地反映出這種強(qiáng)烈的“拼接感”。

僅拿3D生成方面的研究為例，近兩年所有text-to-3D，image-to-3D，video-to-3D以及更加基礎(chǔ)一些的3D-representation方面的論文，絕大多數(shù)屬于對不同技術(shù)模式的拼接、組合、嘗試、探索。其中涉及的可拼接要素包括不同的3D表示方法，不同的多模態(tài)信息對齊和混合編碼方式，不同的3D重建管線等等。

簡單歸納一下，為了生成3D對象或場景，最基本的3D表示或編碼方式可以從以下候選項中選擇使用（包括組合使用多個選型；下列某些選項之間也存在互相覆蓋的內(nèi)涵）：

三維網(wǎng)格（Mesh）
八叉樹（Octree）
三維體元（Voxels，也稱體素）
隱函數(shù)（Implicit Function）
點云（Point Cloud）
神經(jīng)場（Neural Field），或神經(jīng)輻射場（NeRF）
三平面（Tri-plane）
……

而整個生成算法或網(wǎng)絡(luò)結(jié)構(gòu)（Structure），則可以在以下幾大技術(shù)脈絡(luò)或他們的進(jìn)一步組合、變化中嘗試最優(yōu)方案（下列選項之間并非嚴(yán)格并列關(guān)系，而是大家在3D生成模型中常用的技術(shù)手段；不同選項在生成網(wǎng)絡(luò)中的地位并不都是可對應(yīng)替換的）：

生成對抗網(wǎng)絡(luò)（GAN）：GAN在2D圖片生成領(lǐng)域完敗給擴(kuò)散模型（Diffusion Model），但在今天的3D生成科研中，GAN仍是熱門候選技術(shù)之一；
變分自編碼器（VAE）：在生成類任務(wù)中經(jīng)常與GAN相提并論，但較少作為獨立的主干網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計?？梢栽趯嶋H算法中演變成專用于特定模態(tài)的各類自編碼器；
擴(kuò)散模型（Diffusion Model）：擴(kuò)散模型在2D文生圖任務(wù)中取得巨大成功，自然會被3D生成借鑒；這個方向上，還可以算上OpenAI新近提出并開源的一致性模型（Consistency Model）；
Transformer模型：在文本領(lǐng)域大放異彩，但在3D生成領(lǐng)域的使用還相對有限；
神經(jīng)輻射場（NeRF）：既可以把NeRF看成一種生成模型內(nèi)部使用的3D表示或編碼方法，也完全可以將其視作3D生成模型的一種典型框架設(shè)計（以NeRF表示為中介，圍繞可微的3D函數(shù)做插值或反解）；
參數(shù)化（Parameterization）：AI模型或子模塊的輸出結(jié)果是另一個或多個成熟子系統(tǒng)的輸入?yún)?shù)。參數(shù)化更多指的是一種技術(shù)模塊之間的銜接思路，而不是一種網(wǎng)絡(luò)架構(gòu)設(shè)計；
基于對比學(xué)習(xí)的多模態(tài)預(yù)訓(xùn)練（CLIP）：這通常也被視為一種模態(tài)之間、模塊之間的連接思路。這項由OpenAI發(fā)明的圖文混合訓(xùn)練技術(shù)已極其廣泛地應(yīng)用到各種不同模態(tài)的組合訓(xùn)練中。在多模態(tài)領(lǐng)域，無論如何重視CLIP的“連接”力量都不為過；任何多模態(tài)信息混合編碼、對齊和訓(xùn)練的管線里，幾乎都可以找到CLIP原始設(shè)計的影子。
……

舉一些直觀的例子吧（這里引述的論文僅用給出典型技術(shù)路線和模型架構(gòu)的設(shè)計案例，既不是綜述性質(zhì)的列表，也不是基于論文價值的推薦）：

Textured-3d-GAN（https:///pdf/2103.15627.pdf）是典型的利用3D Mesh表示3D知識，使用GAN完成生成任務(wù)的算法設(shè)計。

輸入圖片與3D Mesh之間的關(guān)聯(lián)，是基于3D管線里常用的UV映射，材質(zhì)貼圖（Texture），置換貼圖（Displacement Map）等2D形式完成的——這個關(guān)聯(lián)本身其實也是一種將3D建模參數(shù)化的設(shè)計范式。

因為直接基于3D Mesh來編碼多模態(tài)信息，Textured-3d-GAN容易得到直觀的3D語義分割圖示：

PIFuHD（https:///pdf/2004.00452.pdf）及其前身PIFu（https:///pdf/1905.05172.pdf）利用隱函數(shù)來表示生成過程里的3D空間知識：

GET3D（https://nv-tlabs./GET3D/assets/paper.pdf）是Textured-3D-GAN設(shè)計思路的發(fā)展或升級。整體上仍使用GAN生成網(wǎng)絡(luò)的基本結(jié)構(gòu)。生成器內(nèi)部利用3D知識，將被生成對象分成有向距離場（SDF）表示的3D結(jié)構(gòu)，以及紋理貼圖兩條生成管線，并基于3D知識將二者關(guān)聯(lián)在一起。

OpenAI的Point-E（https:///pdf/2212.08751.pdf）是點云和擴(kuò)散模型的組合體；OpenAI擅長的CLIP預(yù)訓(xùn)練模型和Transformer模型也在整個網(wǎng)絡(luò)結(jié)構(gòu)中扮演了重要角色：

DreamFusion（https:///pdf/2209.14988.pdf）是NeRF方法在3D生成領(lǐng)域的代表算法，整體框架同樣使用了擴(kuò)散模型由隨機(jī)噪音到目標(biāo)對象的基本思路：

EG3D（https://nvlabs./eg3d/media/eg3d.pdf）在訓(xùn)練框架上選擇了GAN，卻在3D信息表示上，使用了有趣的三平面（Tri-plane）表示法：

EG3D的三平面表示法直接啟發(fā)了微軟前些時發(fā)布的效果出眾的虛擬人頭部重建算法——Rodin（https:///pdf/2212.06135.pdf）：

DiffRF（https://sirwyver./DiffRF/）可以看成是神經(jīng)輻射場（NeRF）與擴(kuò)散模型（Diffusion Model）的一種新的組合形態(tài)：

TANGO（https:///pdf/2210.11277.pdf）將CLIP的跨模態(tài)訓(xùn)練模式與3D世界多種任務(wù)的參數(shù)化方法結(jié)合，根據(jù)提示文本生成3D渲染需要的各類參數(shù)（材質(zhì)、法線、光照等）：

管中窺豹——上面幾個例子，已足以看出今天3D生成領(lǐng)域科研的基本態(tài)勢：

科研勢頭火熱；
科研方向處于探索和發(fā)散階段；
3D生成的整體效果目前還無法滿足用戶需求；
在一些限定領(lǐng)域或風(fēng)格的應(yīng)用場景，SOTA模型可以很好地完成任務(wù)。

從2017到2022，NLP領(lǐng)域經(jīng)歷了科研大爆發(fā)到GPT-4等超級大模型一統(tǒng)江湖的演進(jìn)過程。

今天，在形態(tài)組合上層出不窮的多模態(tài)AI算法，會不會催生出另一種類型的超級大模型呢？

多模態(tài)AI為什么這么難

多模態(tài)的生成、語義理解、邏輯推理等任務(wù)肯定比單純的NLP任務(wù)難。

文生圖這樣最基礎(chǔ)的跨模態(tài)任務(wù)，今天許多人認(rèn)為已經(jīng)完美解決。Stable Diffusion + ControlNet + LoRA的組合看上去無懈可擊，Midjourney工具用起來也似乎得心應(yīng)手。

但真實情況是，基于擴(kuò)散模型的文生圖算法在娛樂和大眾傳播領(lǐng)域非常受歡迎，但想融入專業(yè)制作流程或取代職業(yè)美術(shù)師，還是有相當(dāng)難度。

《CG大佬暴擊AI現(xiàn)場》（https://zhuanlan.zhihu.com/p/623967958）記錄了人類專業(yè)美術(shù)師挑戰(zhàn)AI繪畫的一個具體案例。從這個案例看，人類對創(chuàng)意和細(xì)節(jié)的掌控力暫時還是遠(yuǎn)強(qiáng)于AI的。ControlNet所做的事情，本質(zhì)上還是用人類的控制力來彌補AI作畫容易發(fā)散、難受控制的缺陷——這從另一個角度證明了人類高水平畫師在當(dāng)前時間節(jié)點的不可替代性。

文生圖尚如此，文生視頻，文生3D，文生動畫，圖文混合邏輯推理等更難的任務(wù)，今天確實還處在非常早期的階段。這里面的根本原因是——多模態(tài)AI特別難。

卡內(nèi)基梅隆大學(xué)發(fā)表的Foundations & Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions將多模態(tài)AI科研面臨的挑戰(zhàn)歸納為以下六點：

第一，表示（Representation）：文本、圖片領(lǐng)域的信息表示方法相對穩(wěn)定，視頻、動畫、3D等領(lǐng)域仍在實驗各種新的表示方法。沒有好的表示方法，AI就無法學(xué)習(xí)到高質(zhì)量的知識。

第二，對齊（Alignment）：CLIP提供了不同模態(tài)之間相互對齊的框架思路，但真到處理多模態(tài)對齊的時候，還是要反復(fù)實驗，尋找最優(yōu)方案。

第三，推理（Reasoning）：前兩條解決不好的話，模型的推理能力肯定無法提高；即便單獨考慮推理，也涉及到認(rèn)知空間里的信息連接關(guān)系，模型網(wǎng)絡(luò)結(jié)構(gòu)，模型規(guī)模等大量細(xì)節(jié)。

第四，生成（Generation）：生成部分包含多模態(tài)信息抽取，跨模態(tài)信息翻譯，多模態(tài)信息創(chuàng)建三個階段。與單純的文本生成任務(wù)相比，這三件事在多模態(tài)任務(wù)中的復(fù)雜度都直線上升。

第五，知識遷移（Transference）：很多領(lǐng)域的知識天然存在于不同模態(tài)的信息中，但如何在多模態(tài)信息之間互通有無，相互補全缺失的知識呢？更重要的是，一些模態(tài)（如3D）的訓(xùn)練數(shù)據(jù)極度匱乏，而訓(xùn)練數(shù)據(jù)相對豐富的圖片、視頻領(lǐng)域其實包含了大量3D知識。這時，如何做好知識遷移就成了必須回答的關(guān)鍵問題。

第六，量化分析（Quantification）：這個困難在所有深度學(xué)習(xí)模型中都存在。如何定量評估模型網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)缺點，如何在持續(xù)迭代中改進(jìn)模型中最薄弱的環(huán)節(jié)，如何甄別模型中是否學(xué)習(xí)到了偏見，如何測試模型的魯棒性等等，都是深度學(xué)習(xí)理論界的老大難問題。

還是以3D場景或?qū)ο蟮淖詣由蔀槔?，多模態(tài)AI面臨的科研或工程挑戰(zhàn)在3D生成領(lǐng)域會轉(zhuǎn)化為以下這些非常棘手的問題：

數(shù)據(jù)匱乏：與隨處可見的高質(zhì)量圖像數(shù)據(jù)集相比，高質(zhì)量的3D數(shù)據(jù)集屈指可數(shù)。常用的科研圖像數(shù)據(jù)集通常都包含上億或更多圖片，而很多質(zhì)量較高，可用于科研的3D數(shù)據(jù)集只有數(shù)千或數(shù)萬個3D模型。
知識遷移困難：目前的科研還在全力拆解單張或多張圖像中包含的3D信息，要精確還原或?qū)R文本、視頻、動畫序列中包含的3D信息，就更加困難。
技術(shù)選型困難：以3D場景或?qū)ο蟮谋硎痉椒槔?，可選的方法有好多種，新方法也在持續(xù)涌現(xiàn)。連輸入端的信息如何表示都難成定論，又如何去要求模型的輸出質(zhì)量呢？
大算力依賴：未來，訓(xùn)練一個多模態(tài)超級大模型需要的算力，可能會遠(yuǎn)遠(yuǎn)超過訓(xùn)練GPT-4需要的算力。
缺少“模型訓(xùn)練→產(chǎn)品應(yīng)用→用戶反饋→改進(jìn)模型訓(xùn)練”的正循環(huán)：因為3D生成難度大，3D生成類的產(chǎn)品較難解決普通用戶的實際問題，就難以得到更多用戶數(shù)據(jù)和用戶反饋，更無法借助用戶反饋迭代和改進(jìn)模型質(zhì)量。

多模態(tài)AI的技術(shù)挑戰(zhàn)真實存在，但有挑戰(zhàn)就意味著有機(jī)會；通過技術(shù)突破、技術(shù)創(chuàng)新在多模態(tài)AI領(lǐng)域大步前進(jìn)，目前正是最好的時機(jī)。

大語言模型本身的多模態(tài)能力

一方面，多模態(tài)AI有相當(dāng)多技術(shù)挑戰(zhàn)要解決；另一方面，GPT等大語言模型其實已經(jīng)學(xué)到了人類語言文字中記錄的一部分多模態(tài)知識（GPT-4中也編碼了圖像語義，可同時接受文、圖兩種模態(tài)的輸入；這方面的信息可參考GPT-4論文，本節(jié)不再討論）。我們能否利用大語言模型學(xué)習(xí)到的多模態(tài)知識來加速多模態(tài)AI的科研與應(yīng)用開發(fā)呢？

這是一條超級有趣的技術(shù)路徑，值得我們深入探索。

例如，拿我們團(tuán)隊關(guān)心的3D創(chuàng)建和控制類任務(wù)來說，從GPT-4開放使用界面和接口的時刻起，我們就一直在測試GPT-4有關(guān)三維空間的知識儲備與邏輯推理能力。

微軟Spark of AI的論文中提到了一小部分GPT-4的3D能力。在一項實驗中，研究員要求GPT-4使用JavaScript創(chuàng)建“一個擁有浮動島嶼，瀑布，橋梁的奇幻世界，一條龍從空中飛過，一座城堡坐落在最大的島嶼上”（實際實驗過程包含多輪次的指令或提示信息），GPT-4通過JavaScript編程創(chuàng)建出的3D世界如下圖所示——雖然簡陋如幼童作品，但基本從語義上還原了提示要求：

考慮到GPT-4從來沒有直接學(xué)習(xí)過任何3D模態(tài)的信息，僅從人類語言文字中獲取有關(guān)3D世界、3D建模、3D編程的知識，這樣的輸出結(jié)果是非常驚艷的。

NVIDIA Omniverse團(tuán)隊利用ChatGPT和GPT-4完成了另一項3D內(nèi)容創(chuàng)建實驗，同樣有趣地展示了GPT-4與3D工具的編程接口連接后，可以達(dá)到怎樣的創(chuàng)造力與控制力（參見文章How ChatGPT and GPT-4 Can Be Used for 3D Content Generation）：

與微軟和NVIDIA的研究團(tuán)隊不同，我們團(tuán)隊更希望深入調(diào)研GPT-4對3D空間基本構(gòu)成元素的認(rèn)知到底有多透徹。我們期待GPT-4理解并操控的基本空間元素包括：

坐標(biāo)系
空間方位
幾何體的三維構(gòu)成
幾何體的形式化表示
幾何體的空間關(guān)系
幾何體的空間運動

我們做了大量相關(guān)實驗，結(jié)果是令人震撼的：GPT-4在3D空間認(rèn)知和操控上的“智力水平“，與一個正在拼搭積木的2~3歲小朋友近似；GPT-4可以像幼童一樣準(zhǔn)確理解最基本的空間方位，懂得幾何形體的基本構(gòu)型，同時也像幼童一樣總是”笨手笨腳“，難以精細(xì)化控制空間元素的細(xì)節(jié)。

在開展具體實驗前，我們希望GPT-4自己推薦一組可以在有限文本長度內(nèi)描述空間對象的形式化方法。GPT-4完全明白，直接使用（x, y, z）坐標(biāo)系統(tǒng)及3D網(wǎng)格（Mesh）的精確表達(dá)方式肯定沒辦法在數(shù)千個語義符號（Token）的窗口內(nèi)描述一個3D物體。它推薦我們使用下面幾種精簡的形式化方法：

使用八叉樹（Octree）來編碼對象的空間結(jié)構(gòu)；
使用構(gòu)造實體幾何法（Constructive Solid Geometry），利用基本形狀或自定義網(wǎng)格組合成復(fù)雜形狀；
使用低多邊形（Low-poly）方法簡化3D網(wǎng)格；
使用行程編碼（RLE）來壓縮3D形狀的形式化表達(dá)；
使用參數(shù)化（Parametric）或過程式（Procedural）建模方法；
在不同分辨率的空間層級使用不同精度的表達(dá)系統(tǒng)。

很顯然，GPT-4從3D圖形學(xué)書籍或文章中很好地汲取了形式化描述3D對象的主流方法。我們就使用GPT-4推薦的方法，進(jìn)一步測試GPT-4在3D任務(wù)中的實戰(zhàn)能力。

基于構(gòu)造實體幾何（Constructive Solid Geometry）的思路，我們請GPT-4利用1x1x1的單元積木塊，在一塊給定范圍的小空間內(nèi)，拼搭一只“粗線條”的積木小狗，并輸出每個單元積木塊所在的單元格坐標(biāo)或序號。我們用一個Blender插件將GPT-4的輸出結(jié)果直接渲染成3D場景。
GPT-4根據(jù)“一只積木小狗”的提示，拼搭出的積木對象如下：

我們通過追加提示請GPT-4為小狗增加細(xì)節(jié)，特別是增加小狗的兩只耳朵。GPT-4出色地完成了任務(wù)：

當(dāng)我們請GPT-4自我發(fā)揮，搭建一所它認(rèn)為漂亮的，包含一扇門和一扇窗的小房子時，GPT-4創(chuàng)建的積木結(jié)構(gòu)同樣非常有趣：

在未經(jīng)提示時，GPT-4似乎不會用“鏤空”的方式留出門窗的孔洞，而是在門窗所在位置重疊擺放了表示門和窗的積木塊。為了在視覺上有所區(qū)分，我們用藍(lán)色渲染出GPT-4認(rèn)為是門窗的積木塊（生成過程中，GPT-4會很細(xì)致地分步驟解釋每一組積木的用途）。

接下來，當(dāng)我們要求GPT-4用積木拼搭有手有腳的積木小人，且同時給出了Minecraft風(fēng)格的限定提示時，GPT-4創(chuàng)作的積木小人簡明而準(zhǔn)確：

特別有趣的是，當(dāng)我們要求GPT-4將積木小人的左手向前伸出時，GPT-4準(zhǔn)確做出了一只手臂向前伸出的動作，但很遺憾搞錯了左右，下圖中的小人向前平伸的手不是左手而是右手：

這是一個在類似實驗中反復(fù)出現(xiàn)的有趣現(xiàn)象：GPT-4通常可以準(zhǔn)確認(rèn)知或定位3D空間中的上與下、前與后，卻經(jīng)常把左和右搞反。在我們的實驗里，如果不在提示詞中強(qiáng)調(diào)哪個方向為左哪個方向為右，GPT-4混淆左右的概率就遠(yuǎn)高于正確處理左右的概率。兩三歲的小孩子好像也經(jīng)常搞不清左右——莫非GPT-4已經(jīng)具備了某種“生命特征”？

經(jīng)團(tuán)隊顧問提醒，這種混淆左右的現(xiàn)象其實不難解釋：在所有語言文字類的3D場景描述中，大多數(shù)講者都是站在第三人稱觀察者的視角來描述3D空間里的方位信息的。假如觀察者面對3D空間中一個虛擬人物的正面，觀察者左側(cè)對應(yīng)的一定是虛擬人物形象的右手，觀察者右側(cè)對應(yīng)的一定是虛擬人物形象的左手。因為只通過語言文字材料學(xué)習(xí)3D知識，GPT-4形成左右方向相反的“觀察者偏見“就在所難免了。

這種左右顛倒的現(xiàn)象似乎進(jìn)一步說明：僅僅從語言文字中學(xué)習(xí)世界知識，并不足以建立完整、準(zhǔn)確的多模態(tài)認(rèn)知。未來的AI大概率還是需要直接從多模態(tài)傳感器、影像資料、3D場景、動畫序列中直接學(xué)習(xí)知識。

如果允許GPT-4使用任意形狀的六面體積木，就必須將GPT-4每一輪次的輸出限定為每塊積木的空間位置（x, y, z）和空間大小（w, h, d），然后同步修改我們的Blender插件。

下圖是GPT-4自行選擇積木大小后，重新拼搭出的積木小狗：

下圖是根據(jù)“類似匹諾曹的木偶小人”的提示，GPT-4用自選形狀積木搭建出的作品（“長鼻子”的視覺意像，應(yīng)該是GPT-4從“匹諾曹”的提示中領(lǐng)悟得到的）：

注意上圖中，GPT-4將木偶小人的兩只眼睛擺在了頭頂偏前的位置。為了解決這個空間方位錯誤，我們又使用了好幾輪提示，才“教會”GPT-4如何將兩只眼睛挪動到面部上方。

接下來，我們期望GPT-4生成連續(xù)的動畫關(guān)鍵幀，讓木偶小人在動畫中逐漸抬起一條腿。GPT-4可以準(zhǔn)確理解我們的意圖，也能將“抬起一條腿”的動作映射到空間中的對象結(jié)構(gòu)。只不過，六面體積木的表達(dá)能力有限（我們與GPT-4約定的形式語言甚至缺少積木旋轉(zhuǎn)角度的表達(dá)），GPT-4所能做到的最好的視覺效果，也就是下圖這樣了：

除了上述這些簡單而有趣的結(jié)果，我們還做了大量更加細(xì)致、深入的實驗，包括：

在八叉樹、基本幾何體的布爾組合等方向上深入探索GPT-4的空間表達(dá)能力；
在幾何體UV貼圖的方向，探索GPT-4將渲染效果與空間位置關(guān)聯(lián)的能力；
探索GPT-4根據(jù)指令（如“典型的攝影工作室的三燈照明設(shè)計”）控制場景內(nèi)光照的能力；
實驗GPT-4對動畫關(guān)鍵幀的理解和控制能力；
……

后續(xù)，我們可能會用專門的文章，系統(tǒng)性發(fā)布這些實驗結(jié)果以及從中觀察到的規(guī)律性知識。

我們團(tuán)隊做的系列實驗，不斷逼近GPT-4在3D模態(tài)任務(wù)上的認(rèn)知極限。愈是深入實驗，愈是感覺GPT-4在這個領(lǐng)域的行為特征上與兩三歲小孩子搭積木極為近似。所謂“AGI的曙光”，大概也可以從這個方向來理解吧。

另一個“大力出奇跡”的結(jié)局？

今天的多模態(tài)AI仍處在技術(shù)方向發(fā)散的大探索、大發(fā)展階段。

多模態(tài)AI會不會像NLP任務(wù)那樣，被一個“大力出奇跡”的超級大模型全面取代呢？

個人認(rèn)為，這個結(jié)局的可能性極大；但到達(dá)這個結(jié)局的路徑可能會很漫長。

首先，OpenAI或Google之類的AI大廠已經(jīng)在發(fā)力研發(fā)下一代多模態(tài)混合的預(yù)訓(xùn)練模型了。文、圖甚至文、圖、視頻混合訓(xùn)練出來的通用大模型，應(yīng)該會在不久的將來展示出遠(yuǎn)超GPT-4的多模態(tài)能力。按照經(jīng)驗認(rèn)知，OpenAI在多模態(tài)超級大模型的競爭中再次勝出，一定是個大概率事件。

其次，如前文所述，文、圖以外的多模態(tài)領(lǐng)域，仍存在相當(dāng)大的變數(shù)——訓(xùn)練數(shù)據(jù)極度匱乏，3D等復(fù)雜多模態(tài)信息的表示和對齊缺少公認(rèn)的最優(yōu)解，多模態(tài)訓(xùn)練對算力要求遠(yuǎn)高于純文本數(shù)據(jù)等等技術(shù)挑戰(zhàn)，像天塹一樣橫亙在所有研究者和開發(fā)者面前。

本質(zhì)上，文字是在一維時間序列上編碼語義信息，圖像是典型的二維空間信息，視頻可以理解為二維空間信息與時間序列的組合（三維信息），而3D動畫則升級為三個空間維度與時間序列的組合（四維信息）。理論上，3D動畫是對真實時空的終極映射；文本、圖像甚至視頻，只是真實時空在更低維度上的投影。

GPT等大語言模型建立起一種有可能通向AGI的智能范式。但將這種智能范式擴(kuò)展到三維、四維的時空范圍，復(fù)雜度的增長是指數(shù)級別的。因此，在視頻、3D、動畫序列等較文、圖更復(fù)雜的多模態(tài)領(lǐng)域，技術(shù)迭代并收斂到一個大一統(tǒng)方法的時間周期可能會相當(dāng)長，三至五年只是我的保守估計。

也許必須采用新算法設(shè)計來解決復(fù)雜度爆炸的問題?；蛘?，因為模態(tài)間知識遷移的可能性，讓AI更加深入理解訓(xùn)練數(shù)據(jù)豐富的低維度文、圖信息，一定可以幫助AI更快地從高維度信息中學(xué)習(xí)知識。另外，基于今天較早期的多模態(tài)技術(shù)快速推出實用產(chǎn)品，然后通過平臺級、工具級的產(chǎn)品建立用戶場景、數(shù)據(jù)、工程、科研之間的聯(lián)動關(guān)系，這也是加速技術(shù)迭代的好思路。

簡單講，好消息和壞消息同時存在，多模態(tài)AI的發(fā)展趨勢極難預(yù)測。本文有關(guān)未來的預(yù)測并非基于嚴(yán)格的數(shù)學(xué)建模，肯定不準(zhǔn)確?；仡欉^去數(shù)十年的AI技術(shù)發(fā)展，也根本沒有誰能準(zhǔn)確預(yù)測AI科研何時巔峰，何時低谷。

一切都取決于我們這些從業(yè)者的努力工作。

多模態(tài)應(yīng)用的創(chuàng)新“藍(lán)?！?/strong>

GPT等大語言模型開啟了應(yīng)用創(chuàng)新的新時代。生機(jī)勃勃的多模態(tài)AI則會把這一輪應(yīng)用創(chuàng)新推到最高潮。

與單純通過自然語言進(jìn)行交互或輸入輸出相比，多模態(tài)應(yīng)用顯然具備更強(qiáng)的可感知、可交互、可“通感”等天然屬性。目前Midjourney在文生圖領(lǐng)域的應(yīng)用模式創(chuàng)新，我相信只是未來多模態(tài)應(yīng)用世界的冰山一角。

簡單羅列一些我非常看好的未來多模態(tài)應(yīng)用吧：

跨多模態(tài)語義的知識檢索與數(shù)據(jù)提?。?/li>
新一代的多模態(tài)數(shù)據(jù)庫；
跨模態(tài)的知識挖掘，典型如醫(yī)藥領(lǐng)域（跨病歷，醫(yī)療影像，基因序列，分子結(jié)構(gòu)等）的知識挖掘；
多模態(tài)信息展示（如產(chǎn)品、年報、課程、演講）的自動生成；
多模態(tài)廣告的自動生成；
多模態(tài)網(wǎng)頁或小程序的自動生成；
自動視頻編輯；
自動視頻生成；
混合了多模態(tài)創(chuàng)建能力的下一代用戶原創(chuàng)內(nèi)容（UGC）工具或平臺；
電商平臺內(nèi)的虛擬導(dǎo)購；
自動生成可交互的電商貨架；
教育領(lǐng)域里的虛擬課程，虛擬老師；
各種類型的虛擬角色；
AI表情或肢體語言；
AI虛擬情感；
AI創(chuàng)作音樂和歌舞；
AI為核心的新一代動畫設(shè)計工具；
自動游戲開發(fā)；
增強(qiáng)了多模態(tài)感知和決策能力的新一代的機(jī)器人技術(shù)；
增強(qiáng)了多模態(tài)感知和決策能力的新一代自動駕駛技術(shù)；
虛擬現(xiàn)實和混合現(xiàn)實中的自動內(nèi)容創(chuàng)建；
多模態(tài)社交應(yīng)用的自動生成；
多模態(tài)小游戲的自動生成；
……

今天的大量AI應(yīng)用還局限在既有存量市場、既有應(yīng)用模式下的漸進(jìn)式創(chuàng)新；上面這些多模態(tài)的應(yīng)用創(chuàng)新機(jī)會里，不少都屬于有可能創(chuàng)造一個增量市場或平臺產(chǎn)品的變革式創(chuàng)新。

為什么多模態(tài)領(lǐng)域容易誕生變革式創(chuàng)新？

以UGC的工具和平臺為例：20年前，普通用戶在互聯(lián)網(wǎng)上創(chuàng)建的原創(chuàng)內(nèi)容以文字為主；進(jìn)入移動互聯(lián)網(wǎng)時代后，圖片和長視頻在用戶原創(chuàng)內(nèi)容中的占比明顯升高；最近幾年，短視頻工具和平臺一躍成為UGC世界的核心流量……但用戶的創(chuàng)造欲已經(jīng)被完全滿足了嗎？要知道，普通用戶的想象力是無窮無盡的。只要有更好的表達(dá)方式和更簡單的工具，用戶就一定能再次創(chuàng)造數(shù)字內(nèi)容的新風(fēng)潮。

根本矛盾在于，目前的技術(shù)工具無法滿足用戶旺盛的創(chuàng)造需求。例如，專業(yè)的影視、3D動畫、游戲等團(tuán)隊擅長創(chuàng)建各類精彩內(nèi)容或超凡用戶體驗，但普通用戶很難效法。類似Final Cut Pro、After Effects、Blender、Cinema 4D、Unity之類的專業(yè)工具從設(shè)計理念上就將絕大多數(shù)普通用戶排除在外，它們無一例外擁有非常陡峭的學(xué)習(xí)曲線，追求極致的專業(yè)控制力，還必須滿足專業(yè)工作流、工具鏈的整合需要。

新一代的多模態(tài)AI技術(shù)顯然有重新定義內(nèi)容創(chuàng)建工具的極大機(jī)會。一個“草根用戶”如果計劃在虛擬世界里構(gòu)建腦洞大開的發(fā)明創(chuàng)造（參考手工耿的實體作品），是不是可以直接用自然語言指導(dǎo)AI完成任務(wù)，而不是從頭學(xué)習(xí)專業(yè)工具軟件的使用方法？一個孩子創(chuàng)造了天才的游戲玩法，但苦于缺少游戲開發(fā)的專業(yè)經(jīng)驗，未來的多模態(tài)AI是不是可以大顯身手？

AI賦能的智能工具遲早會拋開“專業(yè)”的包袱，將普通用戶從陡峭的學(xué)習(xí)曲線中解放出來。每個內(nèi)容創(chuàng)建者都可以專注于創(chuàng)意本身，而不是復(fù)雜的工具軟件交互。到那時，下一代UGC平臺還會停留在文、圖、短視頻這些簡單形態(tài)上嗎？

多模態(tài)應(yīng)用有廣闊的想象空間。即便假定多模態(tài)AI已經(jīng)成熟，在應(yīng)用層級也還需要探索和迭代大量工程技術(shù)問題。例如：

AI生成的元素如何與傳統(tǒng)的影視、3D、動畫、游戲等工作流完美結(jié)合？
多模態(tài)場景中，自然語言主導(dǎo)的人機(jī)交互該如何設(shè)計才最高效？
未來的計算機(jī)、手機(jī)或新一代個人計算設(shè)備如何連接不同模態(tài)的傳感器？
操作系統(tǒng)或應(yīng)用程序如何用更好的多模態(tài)形式展示計算結(jié)果？
蘋果公司即將推出的VR/AR設(shè)備會如何改變多模態(tài)應(yīng)用市場的競爭格局？
AI輔助編程如何更好地提高多模態(tài)應(yīng)用的開發(fā)和部署效率？
……

我個人相信，在后GPT時代里，多模態(tài)是最大的科研、工程與應(yīng)用研發(fā)機(jī)會。水平有限，這個基本觀點連同以上思考內(nèi)容，肯定不會完全正確。整理并發(fā)表出來，僅供大家參考。

參考資料：
[1]Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, https://www./publication/370224758_Harnessing_the_Power_of_LLMs_in_Practice_A_Survey_on_ChatGPT_and_Beyond
[2]Sparks of Artificial General Intelligence: Early experiments with GPT-4, https:///abs/2303.12712
[3]GPT-4 Technical Report, https:///abs/2303.08774
[4]Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions, https:///abs/2209.03430
[5]How ChatGPT and GPT-4 Can Be Used for 3D Content Generation, https:///@nvidiaomniverse/chatgpt-and-gpt-4-for-3d-content-generation-9cbe5d17ec15

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)注我們，第一時間獲知前沿科技動態(tài)