驅(qū)動(dòng)虛擬人的核心能力是什么? 在很多人的眼中,是A soul背后的中之人,那是動(dòng)捕技術(shù)的集大成者,只需要通過(guò)穿戴設(shè)備、攝像頭,人類便能操縱虛擬人模型自由活動(dòng)起來(lái);另一種方式則要復(fù)雜得多,即類似做3D動(dòng)畫(huà)的手段,用豐富的動(dòng)作表情庫(kù)加持虛擬人的驅(qū)動(dòng),事實(shí)上是一種“剪輯”行為。 盡管目前兩種驅(qū)動(dòng)技術(shù)已經(jīng)廣泛運(yùn)用于虛擬人領(lǐng)域中,但在中科深智創(chuàng)始人兼CEO成維忠的眼里,它們并不是虛擬人領(lǐng)域的原生技術(shù),“這兩種技術(shù)只是階段性的產(chǎn)物,是萬(wàn)不得已才會(huì)用的。” 換句話說(shuō),從更深層次的角度出發(fā),這兩種技術(shù)并不能賦予虛擬人“靈魂”,既達(dá)不到高效的驅(qū)動(dòng),高昂的成本也會(huì)讓虛擬人的應(yīng)用場(chǎng)景更加受限。在成維忠和中科深智看來(lái),真正能賦予虛擬人“靈魂”的,正是目前火熱的生成式AI技術(shù)。 中科深智創(chuàng)始人兼CEO成維忠這并不是對(duì)當(dāng)下潮流的一次跟風(fēng)。中科深智成立于2016年4月,彼時(shí)XR概念興起,對(duì)于下一代互聯(lián)網(wǎng)的構(gòu)想也在業(yè)內(nèi)迎來(lái)討論,盡管還沒(méi)有元宇宙等概念,但3D的、沉浸式的網(wǎng)絡(luò)體驗(yàn)開(kāi)始被廣泛提及,VR等設(shè)備的出現(xiàn)及爆火就是最好的例證。也正是從那時(shí)開(kāi)始,初音未來(lái)、洛天依等虛擬偶像開(kāi)始進(jìn)入公眾視野,“虛擬人”行業(yè)初現(xiàn)萌芽。 在經(jīng)歷過(guò)移動(dòng)電商、數(shù)字營(yíng)銷等新行業(yè)的連續(xù)創(chuàng)業(yè)之后,成維忠將目光瞄準(zhǔn)了這一領(lǐng)域,參與進(jìn)未來(lái)網(wǎng)絡(luò)世界的構(gòu)建令人興奮,此前在游戲行業(yè)的經(jīng)歷也為他提供了經(jīng)驗(yàn),于是,中科深智誕生了。在早期構(gòu)想里,成維忠和團(tuán)隊(duì)希望,借助軟件和算法,助力3D內(nèi)容的生產(chǎn)與創(chuàng)作,而虛擬人的動(dòng)作表情驅(qū)動(dòng)則是其中的重點(diǎn),并逐漸成為了中科深智最核心的技術(shù)點(diǎn)。 時(shí)隔七年,中科深智已經(jīng)成長(zhǎng)為國(guó)內(nèi)頭部的虛擬人公司,在虛擬人驅(qū)動(dòng)領(lǐng)域擁有著相對(duì)成熟的技術(shù),并且在B端的商業(yè)化也取得了不錯(cuò)的進(jìn)展,也是資本市場(chǎng)最為關(guān)注的虛擬人公司之一。而真正引起刺猬公社注意的是,中科深智早從創(chuàng)業(yè)之初開(kāi)始就將AI技術(shù)作為虛擬人驅(qū)動(dòng)的最佳解決方案,正如前文提到的,成維忠認(rèn)為,AI才是驅(qū)動(dòng)虛擬人的原生技術(shù)。 在大語(yǔ)言模型與AIGC創(chuàng)業(yè)成為熱潮的今天,中科深智已經(jīng)做了好幾年的“AIGC”。從某種角度來(lái)講,這其實(shí)是一家AI領(lǐng)域的創(chuàng)業(yè)公司,并且已經(jīng)在技術(shù)和商業(yè)上卓有成效。 一個(gè)初春午后,刺猬公社(ID:ciweigongshe)來(lái)到了豐臺(tái)科技園總部基地,不同于互聯(lián)網(wǎng)公司產(chǎn)業(yè)園的摩登氣息,這里更加靜謐嚴(yán)肅,園區(qū)內(nèi)的大多數(shù)公司也都是技術(shù)公司,通信、建筑、電子,硬核氣息撲面而來(lái),中科深智的總部就設(shè)置在這里。 最近,成維忠在社交媒體上很活躍,同時(shí)頻繁地出現(xiàn)在國(guó)內(nèi)各大AI相關(guān)的論壇中,對(duì)于ChatGPT及大語(yǔ)言模型等話題,他有著許多新穎的觀點(diǎn),這一次的拜訪,也是希望能跟他聊一聊虛擬人領(lǐng)域的AIGC發(fā)展。 “從本質(zhì)上來(lái)講,我們是做生成式AI的?!?/span>成維忠介紹,正如ChatGPT等產(chǎn)品背后的大語(yǔ)言模型一樣,中科深智的核心技術(shù)同樣是以大模型為基底的,但不同的是,他們依賴的是多模態(tài)大模型,即自然語(yǔ)言、3D動(dòng)作表情等多個(gè)模塊組成的大模型產(chǎn)物。 “我們自研發(fā)了CLAP模型,也是一個(gè)預(yù)訓(xùn)練模型?!比绻f(shuō)風(fēng)靡全球的clip模型解決的是從語(yǔ)言到圖像的問(wèn)題,那么中科深智的CLAP大模型則是在3D動(dòng)作上進(jìn)發(fā),簡(jiǎn)單來(lái)講,用自然語(yǔ)言輸入指令,虛擬人就能在多模態(tài)大模型的作用下生成連貫的動(dòng)作與表情,這看似是一種AI生成動(dòng)畫(huà)的方式,但底層邏輯和技術(shù)難度要更復(fù)雜。 據(jù)成維忠介紹,在目前許多AI生成動(dòng)畫(huà)的產(chǎn)品研發(fā)上,其實(shí)是“幀視頻”或者“幀動(dòng)畫(huà)”,即用大模型生成不同的視覺(jué)圖像或者內(nèi)容,再通過(guò)AI技術(shù)進(jìn)行組合,“本質(zhì)上是個(gè)2D技術(shù)”。這與虛擬人驅(qū)動(dòng)中的動(dòng)作表情庫(kù)路徑大致類似,即對(duì)已有的動(dòng)作表情數(shù)據(jù)進(jìn)行剪輯組合,并非真正依靠語(yǔ)言、文本輸入,只不過(guò)“剪輯師”和“原畫(huà)師”變成了AI。 中科深智想要走的,是3D路徑,即依靠自然語(yǔ)言輸入實(shí)時(shí)生成動(dòng)作表情,再依靠渲染引擎實(shí)現(xiàn)精美的視覺(jué)表現(xiàn)。簡(jiǎn)單來(lái)講,在clap模型的驅(qū)動(dòng)下,一個(gè)虛擬人形象是真正擁有“骨骼”和“面部神經(jīng)”的,并且它們是真正能動(dòng)起來(lái)的,這依賴于大量的數(shù)據(jù)學(xué)習(xí),身體關(guān)節(jié)、運(yùn)動(dòng)軌跡、面部表情,甚至眼神,都是大模型需要去學(xué)習(xí)的數(shù)據(jù)。 通過(guò)模型,AI教會(huì)虛擬人如何“動(dòng)作”,再通過(guò)自然語(yǔ)言輸入指令,實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng),再通過(guò)3D渲染引擎,進(jìn)行圖像輸出,這就是中科深智做虛擬人的核心邏輯。 “就像文本和圖像生成一樣,我們的內(nèi)容輸出同樣學(xué)習(xí)大量的子集數(shù)據(jù),并且通過(guò)合理的順序進(jìn)行生產(chǎn),但不同的是,我們還需要一個(gè)時(shí)間軸,在3D虛擬人動(dòng)作生成上,時(shí)間必須要卡的精準(zhǔn),不能出現(xiàn)錯(cuò)誤?!边@也是技術(shù)難點(diǎn)之一,圍繞這些問(wèn)題,中科深智進(jìn)行了大量的技術(shù)研究,最終研發(fā)出了自己的多模態(tài)虛擬人驅(qū)動(dòng)業(yè)務(wù)中臺(tái)Motionverse。 “我們的參數(shù)量是10個(gè)億左右?!背删S忠告訴刺猬公社,盡管跟GPT系列的大語(yǔ)言模型還差很多個(gè)數(shù)量級(jí),但在虛擬人驅(qū)動(dòng)以及3D內(nèi)容生成領(lǐng)域,中科深智已經(jīng)是相對(duì)領(lǐng)先,但數(shù)據(jù)的需求量還在不斷增加,數(shù)據(jù)量、算力資源始終是目前AIGC公司最需要的,伴隨參數(shù)量、數(shù)據(jù)量的擴(kuò)大,也能生成更優(yōu)質(zhì)的動(dòng)作表情。 “現(xiàn)如今我們已經(jīng)能實(shí)現(xiàn)不錯(cuò)的單人交互了,效果已經(jīng)很好了。雙人交互今年年底也會(huì)有突破,但仍需要時(shí)間。”在成維忠看來(lái),伴隨ChatGPT等大語(yǔ)言模型的成熟,虛擬人驅(qū)動(dòng)技術(shù)也將迎來(lái)更快的發(fā)展。 從市場(chǎng)端來(lái)看,這種變化已經(jīng)在實(shí)時(shí)發(fā)生,相比往年的高昂價(jià)格,在AI技術(shù)、視覺(jué)技術(shù)的加持下,虛擬人的成本已經(jīng)大大降低,“今年,單個(gè)虛擬人制作的市場(chǎng)價(jià)格應(yīng)該是在5萬(wàn),不會(huì)超過(guò)5萬(wàn),到今年明年也許是1萬(wàn),也許會(huì)更便宜?!?/span> 伴隨成本的下降,越來(lái)越多的公司開(kāi)始使用虛擬人,在技術(shù)的加持下,虛擬主播、虛擬客服越發(fā)常見(jiàn),中科深智也連續(xù)幾年實(shí)現(xiàn)千萬(wàn)量級(jí)的營(yíng)收。 但這一過(guò)程是艱難且漫長(zhǎng)的,2016年早早入局,但中科深智一直專注在底層技術(shù)研發(fā),沒(méi)有做太多商業(yè)化嘗試,早期研發(fā)費(fèi)用一直是自掏腰包。直到2019年,第一款成熟的虛擬人驅(qū)動(dòng)產(chǎn)品問(wèn)世,中科深智的商業(yè)化進(jìn)程開(kāi)始,在虛擬直播、電商領(lǐng)域的B端攻城略地,2020年,公司也迎來(lái)了第一筆融資。 現(xiàn)如今在電商虛擬直播領(lǐng)域,中科深智已經(jīng)達(dá)到了70%的市場(chǎng)份額,并于近期升級(jí)了虛擬人直播工具百寶箱“自動(dòng)播”,將為電商平臺(tái)提供虛擬人主播、虛擬人客服、虛擬直播間等技術(shù)支持。這也與成維忠的下一個(gè)構(gòu)想息息相關(guān),他認(rèn)為,虛擬人不僅僅只是數(shù)字產(chǎn)品,更代表著下一代人機(jī)交互的新模式。 “我們最近在研究一個(gè)領(lǐng)域,即NUI,自然用戶界面,我認(rèn)為未來(lái)的使用場(chǎng)景也非常大。”伴隨大語(yǔ)言模型及跨模態(tài)大模型等AI技術(shù)的成熟,與AI的多輪對(duì)話和實(shí)時(shí)交互不再是幻想,ChatGPT等產(chǎn)品展現(xiàn)出的強(qiáng)大理解能力與思維能力更讓AI擁有了與人類平等交流的機(jī)會(huì)。 那么在語(yǔ)言模型與3D視覺(jué)技術(shù)成熟的今天,我們能否讓AI以虛擬人的形象與我們展開(kāi)對(duì)話,甚至服務(wù)呢? 成維忠的答案是可以。 NUI即是人機(jī)交互的新表現(xiàn)形式,設(shè)想一下,在以后的線上體驗(yàn)中,虛擬人代替功能菜單,你只需要一句指令就能調(diào)動(dòng)相對(duì)應(yīng)的功能,如同《鋼鐵俠》中的賈維斯一樣,人機(jī)交互的效率、體驗(yàn)都將大大提升。中科深智目前在做的就是類似的事情,無(wú)論是電商領(lǐng)域的虛擬直播間還是虛擬人主播、客服,都是在進(jìn)行NUI的初步嘗試,讓虛擬人取代傳統(tǒng)的GUI(圖像用戶界面),或許只是時(shí)間問(wèn)題。 中科深智的虛擬人展廳成維忠告訴我們,大模型的變革或許代表著新時(shí)代操作系統(tǒng)的出現(xiàn),“操作系統(tǒng)里面最核心的是兩點(diǎn),一點(diǎn)它有一個(gè)人機(jī)交互界面,另外一點(diǎn)有一個(gè)資源和應(yīng)用的管理系統(tǒng)?!贝笳Z(yǔ)言模型就是在人機(jī)交互及數(shù)據(jù)資源調(diào)配上的一次重大進(jìn)步,在微軟、谷歌、OpenAI等巨頭的努力之下,操作系統(tǒng)正在構(gòu)建,而中科深智或許能夠憑借自己的多模態(tài)驅(qū)動(dòng)技術(shù)讓NUI成為現(xiàn)實(shí)。 不過(guò)這都是后話了。對(duì)于中科深智來(lái)說(shuō),更吸引他們的是NUI未來(lái)的商業(yè)化場(chǎng)景,現(xiàn)如今虛擬人能夠應(yīng)用于娛樂(lè)、帶貨等場(chǎng)景,在未來(lái)NUI成熟的情況下,服務(wù)類的場(chǎng)景或許都能迎來(lái)虛擬人的進(jìn)入,而在游戲、教育等領(lǐng)域,虛擬人或許也會(huì)實(shí)現(xiàn)突破。 但制約著這些設(shè)想的仍舊是技術(shù)。“目前的痛點(diǎn)仍舊是技術(shù),很多東西還沒(méi)法做到,但一旦實(shí)現(xiàn)突破,產(chǎn)業(yè)或許將迎來(lái)大爆發(fā)?!?/span>市場(chǎng)需求與技術(shù)之間是相輔相成的,需求或許已經(jīng)存在了,仍需要不斷地研發(fā)去填補(bǔ)供給端的不足。 在對(duì)談的最后,我們來(lái)到了中科深智的演示大廳,這里位于地下一層,空間里放置著幾塊大屏幕,屏幕中是幾個(gè)虛擬人,現(xiàn)實(shí)與虛擬一線之隔。我們跟一個(gè)虛擬人展開(kāi)對(duì)話,在語(yǔ)言指令下,她能夠?qū)崟r(shí)跟你對(duì)談、聊天,為你跳舞、講笑話,盡管動(dòng)作目前還無(wú)法和真人一樣,但“人工智能”的樣子已深入人心。未來(lái),作為下一代互聯(lián)網(wǎng)的NUI,或許將無(wú)處不在。 (本文頭圖由計(jì)算美學(xué)產(chǎn)品“畫(huà)宇宙”AI生成)
|