編者按:ChatGPT/GPT-4的橫空出世,已經(jīng)徹底改變了NLP領(lǐng)域的研究態(tài)勢,并以其多模態(tài)的潛能,點燃了人們心中通往AGI的第一簇火花。 AI 2.0時代因此而至。但新時代的技術(shù)列車將通往何方?全新的商業(yè)機(jī)會又埋藏在何處?SeedV實驗室創(chuàng)始人/CEO、創(chuàng)新工場AI工程院執(zhí)行院長王詠剛認(rèn)為:多模態(tài)算法正處在“寒武紀(jì)大爆發(fā)”的早期。 以下為王詠剛的筆記全文分享。 △王詠剛 我既是軟件工程師,也是投資人和創(chuàng)業(yè)者。我曾參與多個成功AI項目的創(chuàng)建、孵化或投資。 今天,ChatGPT開啟了嶄新的AI 2.0時代,我個人也全力投入到一個3D+AI的全新創(chuàng)業(yè)歷程中。在我的創(chuàng)業(yè)團(tuán)隊,大家最關(guān)心的AI核心技術(shù)是跨文本、圖像、視頻、3D、動畫序列等信息的多模態(tài)AI。 此前一段時間,我將我們團(tuán)隊在這個領(lǐng)域的思考整理成多份筆記。本文是這些筆記的匯總和歸納。童超、潘昊等SeedV實驗室成員直接為本文貢獻(xiàn)了重要的技術(shù)實驗、思考結(jié)論或參考信息,在此表示特別感謝。 目錄
核心觀點一、未來的通用智能一定是多模態(tài)智能; 大語言模型的“壟斷”與“白菜化”我做過很多年自然語言處理(NLP)相關(guān)的工程研發(fā)。不夸張地說,GPT終結(jié)了大多數(shù)獨立存在的NLP上下游任務(wù)。不僅大量科研方向被GPT超越,無數(shù)自然語言生成、對話、交互相關(guān)的應(yīng)用問題也一夜之間得以解決。 好消息是,人人都能用GPT API攢出點兒效果驚艷的應(yīng)用產(chǎn)品,不懂編程的人還能雇傭AI幫忙編程序;壞消息是,NLP技術(shù)徹底失去了神秘感,所有應(yīng)用開發(fā)團(tuán)隊的NLP水平被強(qiáng)行拉齊,大家可以拼產(chǎn)品、拼運營,但要在應(yīng)用側(cè)建立NLP相關(guān)的技術(shù)護(hù)城河,就顯得特別困難了。 一方面,OpenAI的ChatGPT、GPT API、ChatGPT Plugin核心生態(tài)已初具規(guī)模,LangChain、AutoGPT、HuggingGPT等外圍生態(tài)方興未艾。未來無論中美,只要是面向消費者的,線上的,不需要私有部署或不涉及敏感數(shù)據(jù)的應(yīng)用,大都可以直接連接大廠大模型。與搜索引擎時代的搜索和廣告產(chǎn)品類似,這個領(lǐng)域必將是贏者通吃、大廠壟斷的模式。中美市場里,大概各自有兩三個超級AI大模型一起吃掉通用智能計算的全部份額。 另一方面,在企業(yè)級客戶、政府客戶那邊,有體量巨大的私有部署、私域數(shù)據(jù)、敏感數(shù)據(jù)、定制開發(fā)等專有智能計算的需求。這些需求限于數(shù)據(jù)無法充分交換,不能用大廠大模型或通用方案解決。幸好,以LLaMA為發(fā)端,“羊駝家族”為流變,層出不窮的小模型(可以在終端設(shè)備甚至瀏覽器中運行)、中模型(數(shù)十億到數(shù)百億參數(shù))、大模型(千億參數(shù)或以上)以開源模式殺入市場。只要原始許可協(xié)議支持,開發(fā)者就能基于這些開源模型迅速完成定制、領(lǐng)域?qū)R和封裝、部署,為企業(yè)或政府客戶提供智能應(yīng)用產(chǎn)品。 上圖來自Yang, JF et al., Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond。 態(tài)勢很明顯,在通用智能計算領(lǐng)域,壟斷會是未來的基本形態(tài);在專有智能計算領(lǐng)域,基于開源模型簡單封裝的解決方案將迅速實用化,并在開發(fā)和部署成本上實現(xiàn)“白菜價”。 大語言模型(還可以算上多模態(tài)領(lǐng)域里已經(jīng)開源和普及的Stable Diffusion套裝)會迅速像此前的人臉識別技術(shù)一樣,發(fā)展為人人可用的“白菜化”解決方案。 大語言模型和相關(guān)技術(shù)仍在發(fā)展,但上述超級平臺和開源生態(tài)齊頭并進(jìn)的態(tài)勢在事實上消弭了AI產(chǎn)品之間的技術(shù)差異。除了少數(shù)幾家超級平臺類的產(chǎn)品公司和少量處在開源生態(tài)核心地位的技術(shù)公司外,其他所有科技公司、創(chuàng)業(yè)者都很難在大語言模型這個領(lǐng)域建立起真正意義上的“技術(shù)護(hù)城河”。對用戶來說,新一代AI技術(shù)的平民化肯定是大好事。但對行業(yè)競爭的參與者來說,未來比拼的可能就不是技術(shù),而是資源、平臺、流量、模式、運營能力、產(chǎn)品迭代速度這些老生常談的市場要素了。 當(dāng)然了,信仰技術(shù)驅(qū)動型創(chuàng)新的創(chuàng)業(yè)者也不用失望;我覺得,三至五年內(nèi)還有一片拼技術(shù)的藍(lán)??梢怨┐蠹覜_浪——與大語言模型相比,多模態(tài)AI在技術(shù)上遠(yuǎn)未收斂,無論在科研、工程還是應(yīng)用層面,都是一片廣闊天地,大有可為。 多模態(tài)AI的廣闊天地概念上,多模態(tài)AI指的是能夠執(zhí)行一種或多種跨模態(tài)/多模態(tài)任務(wù)的AI算法。典型的跨模態(tài)/多模態(tài)任務(wù)(科研上,“跨模態(tài)”與“多模態(tài)”有不同的內(nèi)涵,本文不做詳細(xì)說明)包括:
GPT-4展示出強(qiáng)大的通用問題解決能力后,為什么我們還需要在多模態(tài)領(lǐng)域進(jìn)一步提升AI的認(rèn)知效率? 其實,我們還沒有弄清人類智能和機(jī)器智能之間的所有關(guān)聯(lián),甚至難以深入揭示二者的運行規(guī)律(可解釋性)。不過,一些非常樸素的,形而上的經(jīng)驗認(rèn)知,還是能幫助我們廓清大語言模型與多模態(tài)模型之間的互補關(guān)系:
無疑,真正的AGI必須能像人類一樣即時、高效、準(zhǔn)確、符合邏輯地處理這個世界上所有模態(tài)的信息,完成各類跨模態(tài)或多模態(tài)任務(wù)。但通向這個終極目標(biāo)的技術(shù)路徑可能是多樣的,或需要探索和嘗試的。從結(jié)論上,我個人會傾向于:
GPT-4擁有初步的圖像語義理解能力(參見GPT-4 Technical Report)。文生圖模型Stable Diffusion與ControlNet,LoRA等條件控制和微調(diào)技術(shù)結(jié)合后,也能輸出優(yōu)異和可控的結(jié)果。不過,與我們真正需要的全部多模態(tài)能力相比,今天的GPT-4和Stable Diffustion在多模態(tài)能力上最多只是幼兒園水平。 試想,如果AI可以像人類一樣通過視覺、聽覺、嗅覺、味覺、觸覺等多模態(tài)傳感器收集并有效處理這個世界的各類信息,我們肯定不會滿足于簡單的文生圖功能。假如多模態(tài)AI能盡早成熟,我特別愿意憧憬下面這些極具誘惑力的應(yīng)用場景:
多模態(tài)技術(shù)處于大爆發(fā)早期個人觀點:今天多模態(tài)AI的技術(shù)進(jìn)展?fàn)顟B(tài),像極了2017年前后的NLP領(lǐng)域。 2017年是Google提出Transformer技術(shù)的時間,也是NLP科研領(lǐng)域百花齊放,多路徑同時迭代,上下游任務(wù)各自突破的時代。在自然語言處理頂級學(xué)術(shù)會議ACL 2017年的論文列表(https:///events/acl-2017/)中,我們可以找到那個時代科研人員最關(guān)心的技術(shù)話題。 2017年,文本分類、語義解析(Semantic Parsing)、向量編碼、機(jī)器翻譯、文本生成、閱讀理解、知識問答、主題模型、方面提取(Aspect Extraction)等等上下游任務(wù)與Attention、RNN、CNN、Sequence-to-sequence、Sequence-to-Dependency等不同技術(shù)路線之間以各種方式排列組合,讓人目不暇給。即便是進(jìn)入了2018年的BERT時代,科研圈的很多人還是在反復(fù)爭論到底哪一種路線才是通往“人工智能圣杯”的最優(yōu)路徑。 拿我自己來說,至少在GPT-3出現(xiàn)之前,我作為有多年NLP經(jīng)驗的工程師,是完全沒有預(yù)料到AGI的曙光會離我們這么近的。 今天的多模態(tài)AI在科研領(lǐng)域幾乎與2017年時的NLP科研一模一樣,所有需要研究的上下游任務(wù)與所有可能的技術(shù)路線之間,正在上演各種形式的排列組合游戲。CVPR 2023年已接收的論文列表(https://cvpr2023./Conferences/2023/AcceptedPapers)可以真實地反映出這種強(qiáng)烈的“拼接感”。 僅拿3D生成方面的研究為例,近兩年所有text-to-3D,image-to-3D,video-to-3D以及更加基礎(chǔ)一些的3D-representation方面的論文,絕大多數(shù)屬于對不同技術(shù)模式的拼接、組合、嘗試、探索。其中涉及的可拼接要素包括不同的3D表示方法,不同的多模態(tài)信息對齊和混合編碼方式,不同的3D重建管線等等。 簡單歸納一下,為了生成3D對象或場景,最基本的3D表示或編碼方式可以從以下候選項中選擇使用(包括組合使用多個選型;下列某些選項之間也存在互相覆蓋的內(nèi)涵):
而整個生成算法或網(wǎng)絡(luò)結(jié)構(gòu)(Structure),則可以在以下幾大技術(shù)脈絡(luò)或他們的進(jìn)一步組合、變化中嘗試最優(yōu)方案(下列選項之間并非嚴(yán)格并列關(guān)系,而是大家在3D生成模型中常用的技術(shù)手段;不同選項在生成網(wǎng)絡(luò)中的地位并不都是可對應(yīng)替換的):
舉一些直觀的例子吧(這里引述的論文僅用給出典型技術(shù)路線和模型架構(gòu)的設(shè)計案例,既不是綜述性質(zhì)的列表,也不是基于論文價值的推薦): Textured-3d-GAN(https:///pdf/2103.15627.pdf)是典型的利用3D Mesh表示3D知識,使用GAN完成生成任務(wù)的算法設(shè)計。 輸入圖片與3D Mesh之間的關(guān)聯(lián),是基于3D管線里常用的UV映射,材質(zhì)貼圖(Texture),置換貼圖(Displacement Map)等2D形式完成的——這個關(guān)聯(lián)本身其實也是一種將3D建模參數(shù)化的設(shè)計范式。 因為直接基于3D Mesh來編碼多模態(tài)信息,Textured-3d-GAN容易得到直觀的3D語義分割圖示: PIFuHD(https:///pdf/2004.00452.pdf)及其前身PIFu(https:///pdf/1905.05172.pdf)利用隱函數(shù)來表示生成過程里的3D空間知識: GET3D(https://nv-tlabs./GET3D/assets/paper.pdf)是Textured-3D-GAN設(shè)計思路的發(fā)展或升級。整體上仍使用GAN生成網(wǎng)絡(luò)的基本結(jié)構(gòu)。生成器內(nèi)部利用3D知識,將被生成對象分成有向距離場(SDF)表示的3D結(jié)構(gòu),以及紋理貼圖兩條生成管線,并基于3D知識將二者關(guān)聯(lián)在一起。 OpenAI的Point-E(https:///pdf/2212.08751.pdf)是點云和擴(kuò)散模型的組合體;OpenAI擅長的CLIP預(yù)訓(xùn)練模型和Transformer模型也在整個網(wǎng)絡(luò)結(jié)構(gòu)中扮演了重要角色: DreamFusion(https:///pdf/2209.14988.pdf)是NeRF方法在3D生成領(lǐng)域的代表算法,整體框架同樣使用了擴(kuò)散模型由隨機(jī)噪音到目標(biāo)對象的基本思路: EG3D(https://nvlabs./eg3d/media/eg3d.pdf)在訓(xùn)練框架上選擇了GAN,卻在3D信息表示上,使用了有趣的三平面(Tri-plane)表示法: EG3D的三平面表示法直接啟發(fā)了微軟前些時發(fā)布的效果出眾的虛擬人頭部重建算法——Rodin(https:///pdf/2212.06135.pdf): DiffRF(https://sirwyver./DiffRF/)可以看成是神經(jīng)輻射場(NeRF)與擴(kuò)散模型(Diffusion Model)的一種新的組合形態(tài): TANGO(https:///pdf/2210.11277.pdf)將CLIP的跨模態(tài)訓(xùn)練模式與3D世界多種任務(wù)的參數(shù)化方法結(jié)合,根據(jù)提示文本生成3D渲染需要的各類參數(shù)(材質(zhì)、法線、光照等): 管中窺豹——上面幾個例子,已足以看出今天3D生成領(lǐng)域科研的基本態(tài)勢:
從2017到2022,NLP領(lǐng)域經(jīng)歷了科研大爆發(fā)到GPT-4等超級大模型一統(tǒng)江湖的演進(jìn)過程。 今天,在形態(tài)組合上層出不窮的多模態(tài)AI算法,會不會催生出另一種類型的超級大模型呢? 多模態(tài)AI為什么這么難 多模態(tài)的生成、語義理解、邏輯推理等任務(wù)肯定比單純的NLP任務(wù)難。 文生圖這樣最基礎(chǔ)的跨模態(tài)任務(wù),今天許多人認(rèn)為已經(jīng)完美解決。Stable Diffusion + ControlNet + LoRA的組合看上去無懈可擊,Midjourney工具用起來也似乎得心應(yīng)手。 但真實情況是,基于擴(kuò)散模型的文生圖算法在娛樂和大眾傳播領(lǐng)域非常受歡迎,但想融入專業(yè)制作流程或取代職業(yè)美術(shù)師,還是有相當(dāng)難度。 《CG大佬暴擊AI現(xiàn)場》(https://zhuanlan.zhihu.com/p/623967958)記錄了人類專業(yè)美術(shù)師挑戰(zhàn)AI繪畫的一個具體案例。從這個案例看,人類對創(chuàng)意和細(xì)節(jié)的掌控力暫時還是遠(yuǎn)強(qiáng)于AI的。ControlNet所做的事情,本質(zhì)上還是用人類的控制力來彌補AI作畫容易發(fā)散、難受控制的缺陷——這從另一個角度證明了人類高水平畫師在當(dāng)前時間節(jié)點的不可替代性。 文生圖尚如此,文生視頻,文生3D,文生動畫,圖文混合邏輯推理等更難的任務(wù),今天確實還處在非常早期的階段。這里面的根本原因是——多模態(tài)AI特別難。 卡內(nèi)基梅隆大學(xué)發(fā)表的Foundations & Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions將多模態(tài)AI科研面臨的挑戰(zhàn)歸納為以下六點: 第一,表示(Representation):文本、圖片領(lǐng)域的信息表示方法相對穩(wěn)定,視頻、動畫、3D等領(lǐng)域仍在實驗各種新的表示方法。沒有好的表示方法,AI就無法學(xué)習(xí)到高質(zhì)量的知識。 第二,對齊(Alignment):CLIP提供了不同模態(tài)之間相互對齊的框架思路,但真到處理多模態(tài)對齊的時候,還是要反復(fù)實驗,尋找最優(yōu)方案。 第三,推理(Reasoning):前兩條解決不好的話,模型的推理能力肯定無法提高;即便單獨考慮推理,也涉及到認(rèn)知空間里的信息連接關(guān)系,模型網(wǎng)絡(luò)結(jié)構(gòu),模型規(guī)模等大量細(xì)節(jié)。 第四,生成(Generation):生成部分包含多模態(tài)信息抽取,跨模態(tài)信息翻譯,多模態(tài)信息創(chuàng)建三個階段。與單純的文本生成任務(wù)相比,這三件事在多模態(tài)任務(wù)中的復(fù)雜度都直線上升。 第五,知識遷移(Transference):很多領(lǐng)域的知識天然存在于不同模態(tài)的信息中,但如何在多模態(tài)信息之間互通有無,相互補全缺失的知識呢?更重要的是,一些模態(tài)(如3D)的訓(xùn)練數(shù)據(jù)極度匱乏,而訓(xùn)練數(shù)據(jù)相對豐富的圖片、視頻領(lǐng)域其實包含了大量3D知識。這時,如何做好知識遷移就成了必須回答的關(guān)鍵問題。 第六,量化分析(Quantification):這個困難在所有深度學(xué)習(xí)模型中都存在。如何定量評估模型網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)缺點,如何在持續(xù)迭代中改進(jìn)模型中最薄弱的環(huán)節(jié),如何甄別模型中是否學(xué)習(xí)到了偏見,如何測試模型的魯棒性等等,都是深度學(xué)習(xí)理論界的老大難問題。 還是以3D場景或?qū)ο蟮淖詣由蔀槔?,多模態(tài)AI面臨的科研或工程挑戰(zhàn)在3D生成領(lǐng)域會轉(zhuǎn)化為以下這些非常棘手的問題:
多模態(tài)AI的技術(shù)挑戰(zhàn)真實存在,但有挑戰(zhàn)就意味著有機(jī)會;通過技術(shù)突破、技術(shù)創(chuàng)新在多模態(tài)AI領(lǐng)域大步前進(jìn),目前正是最好的時機(jī)。 大語言模型本身的多模態(tài)能力 一方面,多模態(tài)AI有相當(dāng)多技術(shù)挑戰(zhàn)要解決;另一方面,GPT等大語言模型其實已經(jīng)學(xué)到了人類語言文字中記錄的一部分多模態(tài)知識(GPT-4中也編碼了圖像語義,可同時接受文、圖兩種模態(tài)的輸入;這方面的信息可參考GPT-4論文,本節(jié)不再討論)。我們能否利用大語言模型學(xué)習(xí)到的多模態(tài)知識來加速多模態(tài)AI的科研與應(yīng)用開發(fā)呢? 這是一條超級有趣的技術(shù)路徑,值得我們深入探索。 例如,拿我們團(tuán)隊關(guān)心的3D創(chuàng)建和控制類任務(wù)來說,從GPT-4開放使用界面和接口的時刻起,我們就一直在測試GPT-4有關(guān)三維空間的知識儲備與邏輯推理能力。 微軟Spark of AI的論文中提到了一小部分GPT-4的3D能力。在一項實驗中,研究員要求GPT-4使用JavaScript創(chuàng)建“一個擁有浮動島嶼,瀑布,橋梁的奇幻世界,一條龍從空中飛過,一座城堡坐落在最大的島嶼上”(實際實驗過程包含多輪次的指令或提示信息),GPT-4通過JavaScript編程創(chuàng)建出的3D世界如下圖所示——雖然簡陋如幼童作品,但基本從語義上還原了提示要求: 考慮到GPT-4從來沒有直接學(xué)習(xí)過任何3D模態(tài)的信息,僅從人類語言文字中獲取有關(guān)3D世界、3D建模、3D編程的知識,這樣的輸出結(jié)果是非常驚艷的。 NVIDIA Omniverse團(tuán)隊利用ChatGPT和GPT-4完成了另一項3D內(nèi)容創(chuàng)建實驗,同樣有趣地展示了GPT-4與3D工具的編程接口連接后,可以達(dá)到怎樣的創(chuàng)造力與控制力(參見文章How ChatGPT and GPT-4 Can Be Used for 3D Content Generation): 與微軟和NVIDIA的研究團(tuán)隊不同,我們團(tuán)隊更希望深入調(diào)研GPT-4對3D空間基本構(gòu)成元素的認(rèn)知到底有多透徹。我們期待GPT-4理解并操控的基本空間元素包括:
我們做了大量相關(guān)實驗,結(jié)果是令人震撼的:GPT-4在3D空間認(rèn)知和操控上的“智力水平“,與一個正在拼搭積木的2~3歲小朋友近似;GPT-4可以像幼童一樣準(zhǔn)確理解最基本的空間方位,懂得幾何形體的基本構(gòu)型,同時也像幼童一樣總是”笨手笨腳“,難以精細(xì)化控制空間元素的細(xì)節(jié)。 在開展具體實驗前,我們希望GPT-4自己推薦一組可以在有限文本長度內(nèi)描述空間對象的形式化方法。GPT-4完全明白,直接使用(x, y, z)坐標(biāo)系統(tǒng)及3D網(wǎng)格(Mesh)的精確表達(dá)方式肯定沒辦法在數(shù)千個語義符號(Token)的窗口內(nèi)描述一個3D物體。它推薦我們使用下面幾種精簡的形式化方法:
很顯然,GPT-4從3D圖形學(xué)書籍或文章中很好地汲取了形式化描述3D對象的主流方法。我們就使用GPT-4推薦的方法,進(jìn)一步測試GPT-4在3D任務(wù)中的實戰(zhàn)能力。 基于構(gòu)造實體幾何(Constructive Solid Geometry)的思路,我們請GPT-4利用1x1x1的單元積木塊,在一塊給定范圍的小空間內(nèi),拼搭一只“粗線條”的積木小狗,并輸出每個單元積木塊所在的單元格坐標(biāo)或序號。我們用一個Blender插件將GPT-4的輸出結(jié)果直接渲染成3D場景。 我們通過追加提示請GPT-4為小狗增加細(xì)節(jié),特別是增加小狗的兩只耳朵。GPT-4出色地完成了任務(wù): 當(dāng)我們請GPT-4自我發(fā)揮,搭建一所它認(rèn)為漂亮的,包含一扇門和一扇窗的小房子時,GPT-4創(chuàng)建的積木結(jié)構(gòu)同樣非常有趣: 在未經(jīng)提示時,GPT-4似乎不會用“鏤空”的方式留出門窗的孔洞,而是在門窗所在位置重疊擺放了表示門和窗的積木塊。為了在視覺上有所區(qū)分,我們用藍(lán)色渲染出GPT-4認(rèn)為是門窗的積木塊(生成過程中,GPT-4會很細(xì)致地分步驟解釋每一組積木的用途)。 接下來,當(dāng)我們要求GPT-4用積木拼搭有手有腳的積木小人,且同時給出了Minecraft風(fēng)格的限定提示時,GPT-4創(chuàng)作的積木小人簡明而準(zhǔn)確: 特別有趣的是,當(dāng)我們要求GPT-4將積木小人的左手向前伸出時,GPT-4準(zhǔn)確做出了一只手臂向前伸出的動作,但很遺憾搞錯了左右,下圖中的小人向前平伸的手不是左手而是右手: 這是一個在類似實驗中反復(fù)出現(xiàn)的有趣現(xiàn)象:GPT-4通常可以準(zhǔn)確認(rèn)知或定位3D空間中的上與下、前與后,卻經(jīng)常把左和右搞反。在我們的實驗里,如果不在提示詞中強(qiáng)調(diào)哪個方向為左哪個方向為右,GPT-4混淆左右的概率就遠(yuǎn)高于正確處理左右的概率。兩三歲的小孩子好像也經(jīng)常搞不清左右——莫非GPT-4已經(jīng)具備了某種“生命特征”? 經(jīng)團(tuán)隊顧問提醒,這種混淆左右的現(xiàn)象其實不難解釋:在所有語言文字類的3D場景描述中,大多數(shù)講者都是站在第三人稱觀察者的視角來描述3D空間里的方位信息的。假如觀察者面對3D空間中一個虛擬人物的正面,觀察者左側(cè)對應(yīng)的一定是虛擬人物形象的右手,觀察者右側(cè)對應(yīng)的一定是虛擬人物形象的左手。因為只通過語言文字材料學(xué)習(xí)3D知識,GPT-4形成左右方向相反的“觀察者偏見“就在所難免了。 這種左右顛倒的現(xiàn)象似乎進(jìn)一步說明:僅僅從語言文字中學(xué)習(xí)世界知識,并不足以建立完整、準(zhǔn)確的多模態(tài)認(rèn)知。未來的AI大概率還是需要直接從多模態(tài)傳感器、影像資料、3D場景、動畫序列中直接學(xué)習(xí)知識。 如果允許GPT-4使用任意形狀的六面體積木,就必須將GPT-4每一輪次的輸出限定為每塊積木的空間位置(x, y, z)和空間大小(w, h, d),然后同步修改我們的Blender插件。 下圖是GPT-4自行選擇積木大小后,重新拼搭出的積木小狗: 下圖是根據(jù)“類似匹諾曹的木偶小人”的提示,GPT-4用自選形狀積木搭建出的作品(“長鼻子”的視覺意像,應(yīng)該是GPT-4從“匹諾曹”的提示中領(lǐng)悟得到的): 注意上圖中,GPT-4將木偶小人的兩只眼睛擺在了頭頂偏前的位置。為了解決這個空間方位錯誤,我們又使用了好幾輪提示,才“教會”GPT-4如何將兩只眼睛挪動到面部上方。 接下來,我們期望GPT-4生成連續(xù)的動畫關(guān)鍵幀,讓木偶小人在動畫中逐漸抬起一條腿。GPT-4可以準(zhǔn)確理解我們的意圖,也能將“抬起一條腿”的動作映射到空間中的對象結(jié)構(gòu)。只不過,六面體積木的表達(dá)能力有限(我們與GPT-4約定的形式語言甚至缺少積木旋轉(zhuǎn)角度的表達(dá)),GPT-4所能做到的最好的視覺效果,也就是下圖這樣了: 除了上述這些簡單而有趣的結(jié)果,我們還做了大量更加細(xì)致、深入的實驗,包括:
后續(xù),我們可能會用專門的文章,系統(tǒng)性發(fā)布這些實驗結(jié)果以及從中觀察到的規(guī)律性知識。 我們團(tuán)隊做的系列實驗,不斷逼近GPT-4在3D模態(tài)任務(wù)上的認(rèn)知極限。愈是深入實驗,愈是感覺GPT-4在這個領(lǐng)域的行為特征上與兩三歲小孩子搭積木極為近似。所謂“AGI的曙光”,大概也可以從這個方向來理解吧。 另一個“大力出奇跡”的結(jié)局? 今天的多模態(tài)AI仍處在技術(shù)方向發(fā)散的大探索、大發(fā)展階段。 多模態(tài)AI會不會像NLP任務(wù)那樣,被一個“大力出奇跡”的超級大模型全面取代呢? 個人認(rèn)為,這個結(jié)局的可能性極大;但到達(dá)這個結(jié)局的路徑可能會很漫長。 首先,OpenAI或Google之類的AI大廠已經(jīng)在發(fā)力研發(fā)下一代多模態(tài)混合的預(yù)訓(xùn)練模型了。文、圖甚至文、圖、視頻混合訓(xùn)練出來的通用大模型,應(yīng)該會在不久的將來展示出遠(yuǎn)超GPT-4的多模態(tài)能力。按照經(jīng)驗認(rèn)知,OpenAI在多模態(tài)超級大模型的競爭中再次勝出,一定是個大概率事件。 其次,如前文所述,文、圖以外的多模態(tài)領(lǐng)域,仍存在相當(dāng)大的變數(shù)——訓(xùn)練數(shù)據(jù)極度匱乏,3D等復(fù)雜多模態(tài)信息的表示和對齊缺少公認(rèn)的最優(yōu)解,多模態(tài)訓(xùn)練對算力要求遠(yuǎn)高于純文本數(shù)據(jù)等等技術(shù)挑戰(zhàn),像天塹一樣橫亙在所有研究者和開發(fā)者面前。 本質(zhì)上,文字是在一維時間序列上編碼語義信息,圖像是典型的二維空間信息,視頻可以理解為二維空間信息與時間序列的組合(三維信息),而3D動畫則升級為三個空間維度與時間序列的組合(四維信息)。理論上,3D動畫是對真實時空的終極映射;文本、圖像甚至視頻,只是真實時空在更低維度上的投影。 GPT等大語言模型建立起一種有可能通向AGI的智能范式。但將這種智能范式擴(kuò)展到三維、四維的時空范圍,復(fù)雜度的增長是指數(shù)級別的。因此,在視頻、3D、動畫序列等較文、圖更復(fù)雜的多模態(tài)領(lǐng)域,技術(shù)迭代并收斂到一個大一統(tǒng)方法的時間周期可能會相當(dāng)長,三至五年只是我的保守估計。 也許必須采用新算法設(shè)計來解決復(fù)雜度爆炸的問題?;蛘?,因為模態(tài)間知識遷移的可能性,讓AI更加深入理解訓(xùn)練數(shù)據(jù)豐富的低維度文、圖信息,一定可以幫助AI更快地從高維度信息中學(xué)習(xí)知識。另外,基于今天較早期的多模態(tài)技術(shù)快速推出實用產(chǎn)品,然后通過平臺級、工具級的產(chǎn)品建立用戶場景、數(shù)據(jù)、工程、科研之間的聯(lián)動關(guān)系,這也是加速技術(shù)迭代的好思路。 簡單講,好消息和壞消息同時存在,多模態(tài)AI的發(fā)展趨勢極難預(yù)測。本文有關(guān)未來的預(yù)測并非基于嚴(yán)格的數(shù)學(xué)建模,肯定不準(zhǔn)確?;仡欉^去數(shù)十年的AI技術(shù)發(fā)展,也根本沒有誰能準(zhǔn)確預(yù)測AI科研何時巔峰,何時低谷。 一切都取決于我們這些從業(yè)者的努力工作。 多模態(tài)應(yīng)用的創(chuàng)新“藍(lán)?!?/strong> GPT等大語言模型開啟了應(yīng)用創(chuàng)新的新時代。生機(jī)勃勃的多模態(tài)AI則會把這一輪應(yīng)用創(chuàng)新推到最高潮。 與單純通過自然語言進(jìn)行交互或輸入輸出相比,多模態(tài)應(yīng)用顯然具備更強(qiáng)的可感知、可交互、可“通感”等天然屬性。目前Midjourney在文生圖領(lǐng)域的應(yīng)用模式創(chuàng)新,我相信只是未來多模態(tài)應(yīng)用世界的冰山一角。 簡單羅列一些我非常看好的未來多模態(tài)應(yīng)用吧:
今天的大量AI應(yīng)用還局限在既有存量市場、既有應(yīng)用模式下的漸進(jìn)式創(chuàng)新;上面這些多模態(tài)的應(yīng)用創(chuàng)新機(jī)會里,不少都屬于有可能創(chuàng)造一個增量市場或平臺產(chǎn)品的變革式創(chuàng)新。 為什么多模態(tài)領(lǐng)域容易誕生變革式創(chuàng)新? 以UGC的工具和平臺為例:20年前,普通用戶在互聯(lián)網(wǎng)上創(chuàng)建的原創(chuàng)內(nèi)容以文字為主;進(jìn)入移動互聯(lián)網(wǎng)時代后,圖片和長視頻在用戶原創(chuàng)內(nèi)容中的占比明顯升高;最近幾年,短視頻工具和平臺一躍成為UGC世界的核心流量……但用戶的創(chuàng)造欲已經(jīng)被完全滿足了嗎?要知道,普通用戶的想象力是無窮無盡的。只要有更好的表達(dá)方式和更簡單的工具,用戶就一定能再次創(chuàng)造數(shù)字內(nèi)容的新風(fēng)潮。 根本矛盾在于,目前的技術(shù)工具無法滿足用戶旺盛的創(chuàng)造需求。例如,專業(yè)的影視、3D動畫、游戲等團(tuán)隊擅長創(chuàng)建各類精彩內(nèi)容或超凡用戶體驗,但普通用戶很難效法。類似Final Cut Pro、After Effects、Blender、Cinema 4D、Unity之類的專業(yè)工具從設(shè)計理念上就將絕大多數(shù)普通用戶排除在外,它們無一例外擁有非常陡峭的學(xué)習(xí)曲線,追求極致的專業(yè)控制力,還必須滿足專業(yè)工作流、工具鏈的整合需要。 新一代的多模態(tài)AI技術(shù)顯然有重新定義內(nèi)容創(chuàng)建工具的極大機(jī)會。一個“草根用戶”如果計劃在虛擬世界里構(gòu)建腦洞大開的發(fā)明創(chuàng)造(參考手工耿的實體作品),是不是可以直接用自然語言指導(dǎo)AI完成任務(wù),而不是從頭學(xué)習(xí)專業(yè)工具軟件的使用方法?一個孩子創(chuàng)造了天才的游戲玩法,但苦于缺少游戲開發(fā)的專業(yè)經(jīng)驗,未來的多模態(tài)AI是不是可以大顯身手? AI賦能的智能工具遲早會拋開“專業(yè)”的包袱,將普通用戶從陡峭的學(xué)習(xí)曲線中解放出來。每個內(nèi)容創(chuàng)建者都可以專注于創(chuàng)意本身,而不是復(fù)雜的工具軟件交互。到那時,下一代UGC平臺還會停留在文、圖、短視頻這些簡單形態(tài)上嗎? 多模態(tài)應(yīng)用有廣闊的想象空間。即便假定多模態(tài)AI已經(jīng)成熟,在應(yīng)用層級也還需要探索和迭代大量工程技術(shù)問題。例如:
我個人相信,在后GPT時代里,多模態(tài)是最大的科研、工程與應(yīng)用研發(fā)機(jī)會。水平有限,這個基本觀點連同以上思考內(nèi)容,肯定不會完全正確。整理并發(fā)表出來,僅供大家參考。 參考資料: — 完 — 量子位 QbitAI · 頭條號簽約 關(guān)注我們,第一時間獲知前沿科技動態(tài) |
|