胡 璇 騰訊研究院高級(jí)研究員 內(nèi)容生產(chǎn),特別是創(chuàng)意工作,一向被認(rèn)為是人類的專屬和智能的體現(xiàn)。牛津大學(xué)計(jì)算機(jī)學(xué)院院長邁克爾·伍爾德里奇2019年寫作的《人工智能全傳》一書中,“撰寫有趣的故事”被列為人工智能“遠(yuǎn)未實(shí)現(xiàn)”的任務(wù)之一。 如今,AI正大步邁入數(shù)字內(nèi)容生產(chǎn)領(lǐng)域。AIGC(AI Generated Content)不僅在寫作、繪畫、作曲多項(xiàng)領(lǐng)域達(dá)到“類人”表現(xiàn),更展示出在大數(shù)據(jù)學(xué)習(xí)基礎(chǔ)上的非凡創(chuàng)意潛能。2023年3月15日,多模態(tài)信息處理標(biāo)桿GPT-4模型正式發(fā)布,使生成內(nèi)容的準(zhǔn)確度及合規(guī)性進(jìn)一步提升。數(shù)字內(nèi)容生產(chǎn)的人機(jī)協(xié)作新范式正在形成,創(chuàng)作者和更多普通人得以跨越“技法”和“效能”限制,盡情揮灑內(nèi)容創(chuàng)意。 也有人擔(dān)憂,AI是否會(huì)讓創(chuàng)作者們集體“失業(yè)”,甚至讓“創(chuàng)作”本身走向衰頹,就像機(jī)械復(fù)制時(shí)代的藝術(shù)品可能失去“靈韻”那樣。換言之,AIGC的流行給了我們一個(gè)重新審視“創(chuàng)作”是什么、是否為人所獨(dú)有這些問題的機(jī)會(huì)。 本文將分析AIGC改變數(shù)字內(nèi)容創(chuàng)作的現(xiàn)狀、關(guān)鍵突破和挑戰(zhàn),并嘗試探討以上問題。 AIGC正在成為互聯(lián)網(wǎng)內(nèi)容生產(chǎn)基礎(chǔ)設(shè)施AIGC正在越來越多地參與數(shù)字內(nèi)容的創(chuàng)意性生成工作,以人機(jī)協(xié)同的方式釋放價(jià)值,成為未來互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)基礎(chǔ)設(shè)施。 從范圍上看,AIGC逐步深度融入到文字、代碼、音樂、圖片、視頻、3D多種媒介形態(tài)的生產(chǎn)中,可以擔(dān)任新聞、論文、小說寫手,音樂作曲和編曲者,多樣化風(fēng)格的畫手,長短視頻的剪輯者和后期處理工程師,3D建模師等多樣化的助手角色,在人類的指導(dǎo)下完成指定主題內(nèi)容的創(chuàng)作、編輯和風(fēng)格遷移工作。 從效果上看,AIGC在基于自然語言的文本、語音和圖片生成領(lǐng)域初步令人滿意,特別是知識(shí)類中短文,插畫等高度風(fēng)格化的圖片創(chuàng)作,創(chuàng)作效果可以與有中級(jí)經(jīng)驗(yàn)的創(chuàng)作者相匹敵;在視頻和3D等媒介復(fù)雜度高的領(lǐng)域處于探索階段。盡管AIGC對極端案例的處理、細(xì)節(jié)把控、成品準(zhǔn)確率等方面仍有許多進(jìn)步空間,但蘊(yùn)含的潛力令人期待。 從方式上看,AIGC的跨文字、圖像、視頻和3D的多模態(tài)加工是熱點(diǎn)。吳恩達(dá)(Andrew Ng)認(rèn)為多模態(tài)是2021年AI的最重要趨勢,AI 模型在發(fā)現(xiàn)文本與圖像間關(guān)系中取得了顯著進(jìn)步,如OPEN AI的CLIP能匹配圖像和文本,Dall·E生成與輸入文本對應(yīng)的圖像;DeepMind的Perceiver IO可以對文本、圖像、視頻和點(diǎn)云進(jìn)行分類。典型應(yīng)用包括如文本轉(zhuǎn)換語音TTS(Text To Speech)、文本生成圖片(Text-to-Image),廣義來看AI翻譯、圖片風(fēng)格化也可以看作是兩個(gè)不同“模態(tài)“間的映射。 關(guān)鍵突破:自然語言技術(shù)解放創(chuàng)作力AIGC對創(chuàng)作者的解放體現(xiàn)在:“只要會(huì)說話,你就能創(chuàng)作”,無需懂得原理,不用學(xué)習(xí)代碼,或者Photoshop等專業(yè)工具。創(chuàng)作者以自然語言向AI描述腦海中的要素甚至想法(術(shù)語是給出“prompt”)后,AI就能生成對應(yīng)的結(jié)果。這也是人機(jī)互動(dòng)從打孔紙帶,到編程語言,圖形界面后的又一次飛躍。自然語言是不同數(shù)字內(nèi)容類型間轉(zhuǎn)化的根信息和紐帶,比如“貓”這個(gè)詞語就是加菲貓的圖片,音樂劇《貓》和無數(shù)內(nèi)容的索引,這些不同的內(nèi)容類型可以稱為“多模態(tài)”。 AIGC此輪浪潮,最大底層進(jìn)化就在AI對自然語言“理解”和“運(yùn)用”能力的飛躍,這離不開2017年Google發(fā)布的Transformer,它開啟了大型語言模型(Large Language Model,簡稱LLM)時(shí)代。有了這一強(qiáng)大的特征提取器,后續(xù)的GPT、BERT等語言模型突飛猛進(jìn),不僅質(zhì)量高、效率高,還能以大數(shù)據(jù)預(yù)訓(xùn)練+小數(shù)據(jù)微調(diào)的方式,擺脫了對大量人工調(diào)參的依賴,在手寫、語音和圖像識(shí)別、語言理解方面的表現(xiàn)大幅突破,所生成的內(nèi)容也越來越準(zhǔn)確和自然。 但大模型意味著極高的研究和使用門檻,例如GPT-3有1750 億參數(shù)量,既需要大算力集群也不向一般用戶開放。2022年,部署在Discord論壇上、以聊天機(jī)器人形式提供的midjourney成為了第一個(gè)用戶友好型AIGC應(yīng)用,帶來AI繪畫熱潮,一位設(shè)計(jì)師用其生成的圖片甚至在線下比賽中獲獎(jiǎng)。 使用簡單文字即可交流的低門檻,類似搜索引擎的使用方式,一下子點(diǎn)燃了普通用戶對AI使用的熱情。緊接著,基于擴(kuò)散模型(Diffusion Models)的一系列文本生成圖片(Text-to-Image)產(chǎn)品,如Stable Diffusion等,把AI繪畫從設(shè)計(jì)圈帶向大眾。開源的Stable Diffusion僅需一臺(tái)電腦就能運(yùn)行,截至2022年10月已有超過20萬開發(fā)者下載,累計(jì)日活用戶超過1000萬;而面向消費(fèi)者的DreamStudio則已獲得了超過150萬用戶,生成超過1.7億圖片。其驚艷的藝術(shù)風(fēng)格、以及圖像涉及的版權(quán)、法律等問題也引發(fā)了諸多爭議。 Diffusion的震撼感還沒消散,ChatGPT橫空出世,真正做到和人類“對答如流”,能理解各式各樣的需求,寫出回答、短文和詩歌創(chuàng)作、代碼寫作、數(shù)學(xué)和邏輯計(jì)算等。不僅如此,人類反饋強(qiáng)化學(xué)習(xí)(RLHF)技術(shù)讓ChatGPT能持續(xù)學(xué)習(xí)人類對回答的建議和評(píng)價(jià),朝更加正確的方向前進(jìn),因此以不到GPT3的1%的參數(shù)實(shí)現(xiàn)了極佳的效果。盡管ChatGPT仍存在一些缺陷,例如引用不存在的論文和書籍、對缺乏數(shù)據(jù)的問題回答質(zhì)量不佳等,但它仍然是人工智能史上的里程碑,并上線兩個(gè)月后用戶數(shù)突破1億,成為史上用戶數(shù)增長最快的消費(fèi)者應(yīng)用。 下一挑戰(zhàn):向“在場”的3D互聯(lián)網(wǎng)進(jìn)發(fā)在文、圖、視頻后,數(shù)字技術(shù)演進(jìn)的重要方向是從“在線”走向“在場”,AIGC將成為打造3D互聯(lián)網(wǎng)的基石。人們將在在虛擬空間構(gòu)建仿真世界,在現(xiàn)實(shí)世界“疊加“虛擬增強(qiáng),實(shí)現(xiàn)真正的臨場感。隨著XR、游戲引擎、云游戲等等各種交互、仿真、傳輸技術(shù)的突破,信息傳輸越來越接近無損,數(shù)字仿真能力真假難辨,人類的交互和體驗(yàn)將到達(dá)新階段。 目前AIGC在3D模型領(lǐng)域還處于探索階段,一條路徑是以擴(kuò)散模型為基礎(chǔ)分兩步走:先由文字生成圖片,再生成包含深度的三維數(shù)據(jù)。谷歌和英偉達(dá)在這一領(lǐng)域較為領(lǐng)先,先后發(fā)布了自己的文字生成3D的AI模型。但從生成效果看,距離現(xiàn)在人工制作的3D內(nèi)容的平均質(zhì)量還有距離;生成速度也未能盡如人意。 2022年10月,谷歌率先發(fā)布了DreamFusion,但其缺點(diǎn)也很顯著,首先擴(kuò)散模型僅對64x64的圖像生效,導(dǎo)致生成3D的質(zhì)量不高;其次場景渲染模型不僅需要海量樣本,也在計(jì)算上費(fèi)時(shí)費(fèi)力,導(dǎo)致生成速度較慢。隨后,英偉達(dá)發(fā)布了Magic3D,面對提示語“一只坐在睡蓮上的藍(lán)色毒鏢蛙”,用大約40分鐘生成了一個(gè)帶有紋理的3D模型。相比谷歌,Magic3D生成速度更快、效果更好,還能在連續(xù)生成過程中保留相同的主題,或者將風(fēng)格遷移到3D模型中。 Magic3D(第1、3列)與DreamFusion(第2、4列)對比 第二條路徑是借助AI來“合成”不同視角下同一物品的照片,從而直接生成3D。英偉達(dá)在2022年12月的NeurIPS 上展示了 生成式 AI 模型——GET3D(Generate Explicit Textured 3D 的縮寫),可根據(jù)其所訓(xùn)練的建筑物、汽車、動(dòng)物等 2D 圖像類別,即時(shí)合成 3D 模型。和上文中的輸出物相比,模型和紋理更精細(xì),更采取了一般3D工具的通用格式,能直接用到構(gòu)建游戲、機(jī)器人、建筑、社交媒體等行業(yè)設(shè)計(jì)的數(shù)字空間,比如建筑物、戶外空間或整座城市的 3D 表達(dá)。GET3D在 英偉達(dá)A100 GPU 上訓(xùn)練而成,使用了不同角度拍攝的約 100 萬張照片,每秒可生成約 20 個(gè)物體。結(jié)合團(tuán)隊(duì)的另一項(xiàng)技術(shù),AI生成的模型能夠區(qū)分出物體的幾何形狀、光照信息和材質(zhì)信息,使可編輯性大幅加強(qiáng)。 NVIDIA GET3D基于AI生成的模型示例 可行路徑:與游戲中的程序化生成技術(shù)相結(jié)合盡管如此,AIGC在3D側(cè)的能力,距離打造3D互聯(lián)網(wǎng)仍有不小的距離。而游戲中較為成熟的程序化內(nèi)容生成(PCG,Procedural Content Generation)技術(shù),可能是AIGC邁過深水區(qū)的一大助力。 從技術(shù)路徑上,AI生成3D難以沿用“大力出奇跡”的老辦法,即單靠喂給AI海量的輸入來提升效果。首先,信息量不同,一張圖片和一個(gè)3D模型相比相差一個(gè)維度,體現(xiàn)在存儲(chǔ)上就是數(shù)據(jù)量級(jí)不同;其次,圖片和3D的存儲(chǔ)及顯示原理不同,如果說2D是像素點(diǎn)陣在顯示器的客觀陳列,3D則是實(shí)時(shí)、快速、海量的矩陣運(yùn)算,就像對著模型在1秒內(nèi)進(jìn)行幾十次“拍照”。為了準(zhǔn)確計(jì)算得到每個(gè)像素點(diǎn),“渲染”在顯示器上,需要考慮的因素至少有(1)模型幾何特征,通常用幾千上萬個(gè)三角面來表示(2)材質(zhì)特征,模型本身的顏色,是強(qiáng)反射的金屬,還是漫反射的布料(3)光線,光源是點(diǎn)狀的嗎,顏色和強(qiáng)度如何。最后,原生3D模型的數(shù)據(jù)相對較少,僅游戲、影視、數(shù)字孿生等領(lǐng)域有少量積累,遠(yuǎn)不如已存在了數(shù)千年、可以以非數(shù)字化形態(tài)存在的圖像那么多,例如ImageNet中就包含了超過1400萬張圖片。 用計(jì)算機(jī)幫助創(chuàng)作者這件事,游戲界已經(jīng)探索了四十多年。用算法生成的游戲內(nèi)容首次出現(xiàn)在1981年的游戲Rogue(Toy and Wichman)中,地圖隨機(jī),每局不同。3D時(shí)代,程序化生成技術(shù)大量應(yīng)用于美術(shù)制作,因?yàn)槠湫枰揞~時(shí)間和人力成本,以2018年發(fā)售的游戲《荒野大鏢客2》為例,先后有六百余名美術(shù)參與,歷經(jīng)8年才完成約60平方公里的虛擬場景。 程序化生成在效能和可控度上介于純手工和AIGC之間。例如2016年發(fā)布、主打宇宙探險(xiǎn)的獨(dú)立游戲《無人深空》(No Man's Sky),用PCG構(gòu)造了一系列生成規(guī)則和參數(shù),聲稱能創(chuàng)造出1840億億顆不同的星球,每個(gè)星球都有形態(tài)各異的環(huán)境和生物。 2022年的Epic打造的交互內(nèi)容《黑客帝國:覺醒》在最新虛幻引擎和程序化生成加持下,打造出栩栩如生、高度復(fù)雜的未來城市,共包括700萬個(gè)美術(shù)資產(chǎn),包括7000棟建筑、38000輛可駕駛的車和超過260公里的道路,其中每個(gè)資產(chǎn)由數(shù)百萬個(gè)多邊形組成。 Epic使用虛幻5引擎和程序化生成技術(shù)高效制作《黑客帝國:覺醒》中的龐大城市 創(chuàng)作到底是什么? |
|