【原】中科深智：虛擬人，下一代操作系統(tǒng)的入口？

刺猬公社 2023-04-14 發(fā)布于北京

展開(kāi)全文

賦予虛擬人靈魂的，會(huì)是AI嗎？

文｜世昕

編｜石燦

驅(qū)動(dòng)虛擬人的核心能力是什么？

在很多人的眼中，是A soul背后的中之人，那是動(dòng)捕技術(shù)的集大成者，只需要通過(guò)穿戴設(shè)備、攝像頭，人類便能操縱虛擬人模型自由活動(dòng)起來(lái)；另一種方式則要復(fù)雜得多，即類似做3D動(dòng)畫(huà)的手段，用豐富的動(dòng)作表情庫(kù)加持虛擬人的驅(qū)動(dòng)，事實(shí)上是一種“剪輯”行為。

盡管目前兩種驅(qū)動(dòng)技術(shù)已經(jīng)廣泛運(yùn)用于虛擬人領(lǐng)域中，但在中科深智創(chuàng)始人兼CEO成維忠的眼里，它們并不是虛擬人領(lǐng)域的原生技術(shù)，“這兩種技術(shù)只是階段性的產(chǎn)物，是萬(wàn)不得已才會(huì)用的。”

換句話說(shuō)，從更深層次的角度出發(fā)，這兩種技術(shù)并不能賦予虛擬人“靈魂”，既達(dá)不到高效的驅(qū)動(dòng)，高昂的成本也會(huì)讓虛擬人的應(yīng)用場(chǎng)景更加受限。在成維忠和中科深智看來(lái)，真正能賦予虛擬人“靈魂”的，正是目前火熱的生成式AI技術(shù)。

中科深智創(chuàng)始人兼CEO成維忠

這并不是對(duì)當(dāng)下潮流的一次跟風(fēng)。中科深智成立于2016年4月，彼時(shí)XR概念興起，對(duì)于下一代互聯(lián)網(wǎng)的構(gòu)想也在業(yè)內(nèi)迎來(lái)討論，盡管還沒(méi)有元宇宙等概念，但3D的、沉浸式的網(wǎng)絡(luò)體驗(yàn)開(kāi)始被廣泛提及，VR等設(shè)備的出現(xiàn)及爆火就是最好的例證。也正是從那時(shí)開(kāi)始，初音未來(lái)、洛天依等虛擬偶像開(kāi)始進(jìn)入公眾視野，“虛擬人”行業(yè)初現(xiàn)萌芽。

在經(jīng)歷過(guò)移動(dòng)電商、數(shù)字營(yíng)銷等新行業(yè)的連續(xù)創(chuàng)業(yè)之后，成維忠將目光瞄準(zhǔn)了這一領(lǐng)域，參與進(jìn)未來(lái)網(wǎng)絡(luò)世界的構(gòu)建令人興奮，此前在游戲行業(yè)的經(jīng)歷也為他提供了經(jīng)驗(yàn)，于是，中科深智誕生了。在早期構(gòu)想里，成維忠和團(tuán)隊(duì)希望，借助軟件和算法，助力3D內(nèi)容的生產(chǎn)與創(chuàng)作，而虛擬人的動(dòng)作表情驅(qū)動(dòng)則是其中的重點(diǎn)，并逐漸成為了中科深智最核心的技術(shù)點(diǎn)。

時(shí)隔七年，中科深智已經(jīng)成長(zhǎng)為國(guó)內(nèi)頭部的虛擬人公司，在虛擬人驅(qū)動(dòng)領(lǐng)域擁有著相對(duì)成熟的技術(shù)，并且在B端的商業(yè)化也取得了不錯(cuò)的進(jìn)展，也是資本市場(chǎng)最為關(guān)注的虛擬人公司之一。而真正引起刺猬公社注意的是，中科深智早從創(chuàng)業(yè)之初開(kāi)始就將AI技術(shù)作為虛擬人驅(qū)動(dòng)的最佳解決方案，正如前文提到的，成維忠認(rèn)為，AI才是驅(qū)動(dòng)虛擬人的原生技術(shù)。

在大語(yǔ)言模型與AIGC創(chuàng)業(yè)成為熱潮的今天，中科深智已經(jīng)做了好幾年的“AIGC”。從某種角度來(lái)講，這其實(shí)是一家AI領(lǐng)域的創(chuàng)業(yè)公司，并且已經(jīng)在技術(shù)和商業(yè)上卓有成效。

一個(gè)初春午后，刺猬公社（ID：ciweigongshe）來(lái)到了豐臺(tái)科技園總部基地，不同于互聯(lián)網(wǎng)公司產(chǎn)業(yè)園的摩登氣息，這里更加靜謐嚴(yán)肅，園區(qū)內(nèi)的大多數(shù)公司也都是技術(shù)公司，通信、建筑、電子，硬核氣息撲面而來(lái)，中科深智的總部就設(shè)置在這里。

最近，成維忠在社交媒體上很活躍，同時(shí)頻繁地出現(xiàn)在國(guó)內(nèi)各大AI相關(guān)的論壇中，對(duì)于ChatGPT及大語(yǔ)言模型等話題，他有著許多新穎的觀點(diǎn)，這一次的拜訪，也是希望能跟他聊一聊虛擬人領(lǐng)域的AIGC發(fā)展。

“從本質(zhì)上來(lái)講，我們是做生成式AI的?！?/span>成維忠介紹，正如ChatGPT等產(chǎn)品背后的大語(yǔ)言模型一樣，中科深智的核心技術(shù)同樣是以大模型為基底的，但不同的是，他們依賴的是多模態(tài)大模型，即自然語(yǔ)言、3D動(dòng)作表情等多個(gè)模塊組成的大模型產(chǎn)物。

“我們自研發(fā)了CLAP模型，也是一個(gè)預(yù)訓(xùn)練模型?！比绻f(shuō)風(fēng)靡全球的clip模型解決的是從語(yǔ)言到圖像的問(wèn)題，那么中科深智的CLAP大模型則是在3D動(dòng)作上進(jìn)發(fā)，簡(jiǎn)單來(lái)講，用自然語(yǔ)言輸入指令，虛擬人就能在多模態(tài)大模型的作用下生成連貫的動(dòng)作與表情，這看似是一種AI生成動(dòng)畫(huà)的方式，但底層邏輯和技術(shù)難度要更復(fù)雜。

據(jù)成維忠介紹，在目前許多AI生成動(dòng)畫(huà)的產(chǎn)品研發(fā)上，其實(shí)是“幀視頻”或者“幀動(dòng)畫(huà)”，即用大模型生成不同的視覺(jué)圖像或者內(nèi)容，再通過(guò)AI技術(shù)進(jìn)行組合，“本質(zhì)上是個(gè)2D技術(shù)”。這與虛擬人驅(qū)動(dòng)中的動(dòng)作表情庫(kù)路徑大致類似，即對(duì)已有的動(dòng)作表情數(shù)據(jù)進(jìn)行剪輯組合，并非真正依靠語(yǔ)言、文本輸入，只不過(guò)“剪輯師”和“原畫(huà)師”變成了AI。

中科深智想要走的，是3D路徑，即依靠自然語(yǔ)言輸入實(shí)時(shí)生成動(dòng)作表情，再依靠渲染引擎實(shí)現(xiàn)精美的視覺(jué)表現(xiàn)。簡(jiǎn)單來(lái)講，在clap模型的驅(qū)動(dòng)下，一個(gè)虛擬人形象是真正擁有“骨骼”和“面部神經(jīng)”的，并且它們是真正能動(dòng)起來(lái)的，這依賴于大量的數(shù)據(jù)學(xué)習(xí)，身體關(guān)節(jié)、運(yùn)動(dòng)軌跡、面部表情，甚至眼神，都是大模型需要去學(xué)習(xí)的數(shù)據(jù)。

通過(guò)模型，AI教會(huì)虛擬人如何“動(dòng)作”，再通過(guò)自然語(yǔ)言輸入指令，實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng)，再通過(guò)3D渲染引擎，進(jìn)行圖像輸出，這就是中科深智做虛擬人的核心邏輯。

“就像文本和圖像生成一樣，我們的內(nèi)容輸出同樣學(xué)習(xí)大量的子集數(shù)據(jù)，并且通過(guò)合理的順序進(jìn)行生產(chǎn)，但不同的是，我們還需要一個(gè)時(shí)間軸，在3D虛擬人動(dòng)作生成上，時(shí)間必須要卡的精準(zhǔn)，不能出現(xiàn)錯(cuò)誤?！边@也是技術(shù)難點(diǎn)之一，圍繞這些問(wèn)題，中科深智進(jìn)行了大量的技術(shù)研究，最終研發(fā)出了自己的多模態(tài)虛擬人驅(qū)動(dòng)業(yè)務(wù)中臺(tái)Motionverse。

“我們的參數(shù)量是10個(gè)億左右?！背删S忠告訴刺猬公社，盡管跟GPT系列的大語(yǔ)言模型還差很多個(gè)數(shù)量級(jí)，但在虛擬人驅(qū)動(dòng)以及3D內(nèi)容生成領(lǐng)域，中科深智已經(jīng)是相對(duì)領(lǐng)先，但數(shù)據(jù)的需求量還在不斷增加，數(shù)據(jù)量、算力資源始終是目前AIGC公司最需要的，伴隨參數(shù)量、數(shù)據(jù)量的擴(kuò)大，也能生成更優(yōu)質(zhì)的動(dòng)作表情。

“現(xiàn)如今我們已經(jīng)能實(shí)現(xiàn)不錯(cuò)的單人交互了，效果已經(jīng)很好了。雙人交互今年年底也會(huì)有突破，但仍需要時(shí)間。”在成維忠看來(lái)，伴隨ChatGPT等大語(yǔ)言模型的成熟，虛擬人驅(qū)動(dòng)技術(shù)也將迎來(lái)更快的發(fā)展。

從市場(chǎng)端來(lái)看，這種變化已經(jīng)在實(shí)時(shí)發(fā)生，相比往年的高昂價(jià)格，在AI技術(shù)、視覺(jué)技術(shù)的加持下，虛擬人的成本已經(jīng)大大降低，“今年，單個(gè)虛擬人制作的市場(chǎng)價(jià)格應(yīng)該是在5萬(wàn)，不會(huì)超過(guò)5萬(wàn)，到今年明年也許是1萬(wàn)，也許會(huì)更便宜?！?/span>

伴隨成本的下降，越來(lái)越多的公司開(kāi)始使用虛擬人，在技術(shù)的加持下，虛擬主播、虛擬客服越發(fā)常見(jiàn)，中科深智也連續(xù)幾年實(shí)現(xiàn)千萬(wàn)量級(jí)的營(yíng)收。

但這一過(guò)程是艱難且漫長(zhǎng)的，2016年早早入局，但中科深智一直專注在底層技術(shù)研發(fā)，沒(méi)有做太多商業(yè)化嘗試，早期研發(fā)費(fèi)用一直是自掏腰包。直到2019年，第一款成熟的虛擬人驅(qū)動(dòng)產(chǎn)品問(wèn)世，中科深智的商業(yè)化進(jìn)程開(kāi)始，在虛擬直播、電商領(lǐng)域的B端攻城略地，2020年，公司也迎來(lái)了第一筆融資。

現(xiàn)如今在電商虛擬直播領(lǐng)域，中科深智已經(jīng)達(dá)到了70%的市場(chǎng)份額，并于近期升級(jí)了虛擬人直播工具百寶箱“自動(dòng)播”，將為電商平臺(tái)提供虛擬人主播、虛擬人客服、虛擬直播間等技術(shù)支持。這也與成維忠的下一個(gè)構(gòu)想息息相關(guān)，他認(rèn)為，虛擬人不僅僅只是數(shù)字產(chǎn)品，更代表著下一代人機(jī)交互的新模式。

“我們最近在研究一個(gè)領(lǐng)域，即NUI，自然用戶界面，我認(rèn)為未來(lái)的使用場(chǎng)景也非常大。”伴隨大語(yǔ)言模型及跨模態(tài)大模型等AI技術(shù)的成熟，與AI的多輪對(duì)話和實(shí)時(shí)交互不再是幻想，ChatGPT等產(chǎn)品展現(xiàn)出的強(qiáng)大理解能力與思維能力更讓AI擁有了與人類平等交流的機(jī)會(huì)。

那么在語(yǔ)言模型與3D視覺(jué)技術(shù)成熟的今天，我們能否讓AI以虛擬人的形象與我們展開(kāi)對(duì)話，甚至服務(wù)呢？

成維忠的答案是可以。

NUI即是人機(jī)交互的新表現(xiàn)形式，設(shè)想一下，在以后的線上體驗(yàn)中，虛擬人代替功能菜單，你只需要一句指令就能調(diào)動(dòng)相對(duì)應(yīng)的功能，如同《鋼鐵俠》中的賈維斯一樣，人機(jī)交互的效率、體驗(yàn)都將大大提升。中科深智目前在做的就是類似的事情，無(wú)論是電商領(lǐng)域的虛擬直播間還是虛擬人主播、客服，都是在進(jìn)行NUI的初步嘗試，讓虛擬人取代傳統(tǒng)的GUI（圖像用戶界面），或許只是時(shí)間問(wèn)題。

中科深智的虛擬人展廳

成維忠告訴我們，大模型的變革或許代表著新時(shí)代操作系統(tǒng)的出現(xiàn)，“操作系統(tǒng)里面最核心的是兩點(diǎn)，一點(diǎn)它有一個(gè)人機(jī)交互界面，另外一點(diǎn)有一個(gè)資源和應(yīng)用的管理系統(tǒng)?！贝笳Z(yǔ)言模型就是在人機(jī)交互及數(shù)據(jù)資源調(diào)配上的一次重大進(jìn)步，在微軟、谷歌、OpenAI等巨頭的努力之下，操作系統(tǒng)正在構(gòu)建，而中科深智或許能夠憑借自己的多模態(tài)驅(qū)動(dòng)技術(shù)讓NUI成為現(xiàn)實(shí)。

不過(guò)這都是后話了。對(duì)于中科深智來(lái)說(shuō)，更吸引他們的是NUI未來(lái)的商業(yè)化場(chǎng)景，現(xiàn)如今虛擬人能夠應(yīng)用于娛樂(lè)、帶貨等場(chǎng)景，在未來(lái)NUI成熟的情況下，服務(wù)類的場(chǎng)景或許都能迎來(lái)虛擬人的進(jìn)入，而在游戲、教育等領(lǐng)域，虛擬人或許也會(huì)實(shí)現(xiàn)突破。

但制約著這些設(shè)想的仍舊是技術(shù)。“目前的痛點(diǎn)仍舊是技術(shù)，很多東西還沒(méi)法做到，但一旦實(shí)現(xiàn)突破，產(chǎn)業(yè)或許將迎來(lái)大爆發(fā)?！?/span>市場(chǎng)需求與技術(shù)之間是相輔相成的，需求或許已經(jīng)存在了，仍需要不斷地研發(fā)去填補(bǔ)供給端的不足。

在對(duì)談的最后，我們來(lái)到了中科深智的演示大廳，這里位于地下一層，空間里放置著幾塊大屏幕，屏幕中是幾個(gè)虛擬人，現(xiàn)實(shí)與虛擬一線之隔。我們跟一個(gè)虛擬人展開(kāi)對(duì)話，在語(yǔ)言指令下，她能夠?qū)崟r(shí)跟你對(duì)談、聊天，為你跳舞、講笑話，盡管動(dòng)作目前還無(wú)法和真人一樣，但“人工智能”的樣子已深入人心。未來(lái)，作為下一代互聯(lián)網(wǎng)的NUI，或許將無(wú)處不在。

（本文頭圖由計(jì)算美學(xué)產(chǎn)品“畫(huà)宇宙”AI生成）