2021年的某一天,在亞馬遜科技組織的一個(gè)創(chuàng)業(yè)者圓桌論壇上,趙彬第一次遇到黃碩。黃碩曾是螞蟻金服人工智能部高級(jí)總監(jiān),在人工智能,尤其是計(jì)算機(jī)視覺算法領(lǐng)域有著多年的開發(fā)經(jīng)驗(yàn)和項(xiàng)目管理經(jīng)驗(yàn),彼時(shí),已經(jīng)創(chuàng)業(yè)多年的黃碩,是以一家與亞馬遜科技有著深度合作的人工智能公司創(chuàng)始人的身份受邀參加活動(dòng)。黃碩當(dāng)時(shí)創(chuàng)立的公司叫大觥科技,這一年,大觥科技剛好處于一個(gè)特殊時(shí)期——前兩年保持高速增長的圖像修復(fù)與增強(qiáng)業(yè)務(wù)已經(jīng)相當(dāng)成熟,黃碩開始尋找符合公司未來發(fā)展方向的新項(xiàng)目。 同樣作為人工智能、計(jì)算機(jī)視覺領(lǐng)域的技術(shù)專家,趙彬當(dāng)時(shí)在另一家人工智能明星創(chuàng)業(yè)企業(yè)中負(fù)責(zé)著數(shù)字人項(xiàng)目的研發(fā)與業(yè)務(wù)搭建工作。對(duì)技術(shù)有著自己的執(zhí)念的趙彬,彼時(shí)也在尋找一個(gè)有足夠彈藥和機(jī)會(huì),尋找一個(gè)踏踏實(shí)實(shí)做事兒的公司,繼續(xù)將自己對(duì)數(shù)字人的執(zhí)念進(jìn)行下去。 數(shù)字人,剛好也在大觥科技的射程之內(nèi),于是,兩人就這樣你來我往地攀談起來。 同為科班出身,又有著相似的技術(shù)理念,再加上當(dāng)時(shí)數(shù)字人的未知和潛力本就是一個(gè)足以令技術(shù)從業(yè)者興奮的話題,兩人相談甚歡之余,黃碩向趙彬拋出了橄欖枝: 2022年4月1日,張國榮逝世19周年,這一天,張國榮2000年《熱·情》演唱會(huì)在網(wǎng)上瘋狂轉(zhuǎn)發(fā),整個(gè)朋友圈都在懷念張國榮,懷念那個(gè)被風(fēng)吹過的夏天。
這次復(fù)刻版線上演唱會(huì)除了讓人們?cè)俅螒涯钇鹨淮枭駨垏鴺s,也讓騰訊和它的多媒體視頻修復(fù)技術(shù)浮出水面,據(jù)當(dāng)時(shí)媒體報(bào)道,騰訊云的相關(guān)團(tuán)隊(duì)花了21天,將這場20年前的演唱會(huì)視頻分辨率提升了6倍,從480P提升到了將近4K畫質(zhì)。成立于2018年的大觥科技,同樣是以影像修復(fù)算法起家,只不過,他們最初更多是為商業(yè)客戶提供專業(yè)影視級(jí)的視頻修復(fù)解決方案,例如為新華社、中影基地、CCTV提供影像修復(fù)解決方案,并應(yīng)用到國家級(jí)影像修復(fù)項(xiàng)目中。 實(shí)際上,大觥科技當(dāng)時(shí)不只服務(wù)于中國的影視機(jī)構(gòu),也在為國際知名機(jī)構(gòu)提供影像修復(fù)解決方案,一次,黃碩出差美國在為好萊塢某個(gè)項(xiàng)目奔忙時(shí),一位好萊塢專業(yè)電影制片人向黃碩提了一個(gè)問題: 你們有這么棒的技術(shù),為什么不把它用在街頭,讓大家都用起來呢?于是,大觥科技開始嘗試將專業(yè)影像處理技術(shù)應(yīng)用到消費(fèi)端,準(zhǔn)確地來說,他們將這些“高階”算法封裝到了一款手機(jī)APP中。 2019年,大觥科技制作的這款圖像增強(qiáng)APP在海外上線,當(dāng)時(shí)他們只是抱著試一試的心態(tài),沒有想到的是,這款產(chǎn)品市場反響出奇地好,上線不到一年時(shí)間里,用戶注冊(cè)數(shù)就從0增長到了1.2億。 后來大觥科技內(nèi)部復(fù)盤這次產(chǎn)品成功的關(guān)鍵時(shí),總結(jié)了以下三點(diǎn):算法獨(dú)一無二、效果直觀明顯、成本足夠便宜。 說是三點(diǎn),其實(shí)也可以歸結(jié)為一點(diǎn),也就是出色的AI算法研發(fā)與工程化能力。 2019年,語音識(shí)別、計(jì)算機(jī)視覺在商用領(lǐng)域已經(jīng)有所突破,智能音箱出現(xiàn)在普通人的家庭,安防攝像頭甚至在張學(xué)友的演唱會(huì)上還幫助警察抓到了逃犯,但這還遠(yuǎn)談不上什么智能。據(jù)趙彬回憶,“當(dāng)年的深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)算法還沒有那么先進(jìn),開箱即用的AI算法依然稀缺,算力成本也比較高,不像現(xiàn)在,有很多成熟好用的算法可以直接調(diào)用。” 趙彬認(rèn)為,AI算法大爆發(fā),實(shí)際上是在2022年。 也是在這一年,大觥科技的老舊照片修復(fù)業(yè)務(wù)日漸成熟,他們也開始尋找新的業(yè)務(wù)方向。 用一個(gè)時(shí)髦的說法是,那時(shí)的他們需要尋找自己的“第二增長曲線”。2020年,抗疫成了全球主色調(diào),潛藏在疫情之下的,還有全球經(jīng)濟(jì)衰退,尤其是伴隨著互聯(lián)網(wǎng)流量增速放緩、廣告營收下降,互聯(lián)網(wǎng)經(jīng)濟(jì)也再次進(jìn)入萎靡期。
面對(duì)這樣的大環(huán)境,以及企業(yè)自身的增長壓力,全球互聯(lián)網(wǎng)企業(yè)都開始尋找新的“增長曲線”,在這個(gè)過程中,兩大新興產(chǎn)業(yè)開始甚囂塵上,一個(gè)是元宇宙,另一個(gè)則是Web3。 元宇宙在隨著全球互聯(lián)網(wǎng)巨頭Facebook更名為Meta進(jìn)入白熱化狀態(tài)后,2021年也被稱為元宇宙元年,這時(shí),隨著一同跨入“元年”的,其實(shí)還有功能同樣炫酷但更容易落地的數(shù)字人。 2021年6月,騰訊虛擬數(shù)字人星瞳開始嘗試在B站直播;2021年9月,華為首個(gè)虛擬數(shù)字人“云笙”上線并入職華為云;2021年9月,阿里官宣超寫實(shí)數(shù)字人AYAYI入職阿里,成為天貓超級(jí)品牌日數(shù)字主理人;2021年11月,百度超寫實(shí)數(shù)字人龔俊在百度APP上線……,數(shù)字人這一年紛紛在互聯(lián)網(wǎng)大廠入職上崗。在互聯(lián)網(wǎng)巨頭集中發(fā)力下,在各地政策、扶持基金的共同推動(dòng)下,數(shù)字人迅速井噴。當(dāng)年虛擬數(shù)字人被熱捧到一個(gè)怎樣的夸張程度?據(jù)中國電子學(xué)會(huì)統(tǒng)計(jì)數(shù)據(jù)顯示,2021年國內(nèi)數(shù)字人相關(guān)企業(yè)融資共有2843起,融資金額達(dá)2540億元。另有數(shù)據(jù)顯示,2021年我國僅僅是新增虛擬數(shù)字人企業(yè)就超過了6萬家。 在數(shù)字人井噴式增長的同時(shí),這一年,數(shù)字人也在經(jīng)歷著需求不明和全民吐槽。 花上百萬元做出一個(gè)數(shù)字人后,不知道如何用數(shù)字人開展業(yè)務(wù)的企業(yè)在這一年比比皆是,而拋開各種穿模、肢體僵硬、頻頻卡死數(shù)字人不談,這一年在網(wǎng)絡(luò)上紅極一時(shí)的數(shù)字人博主柳夜熙,僅僅制作費(fèi)就已經(jīng)是百萬元級(jí),就連第一條短視頻成本也要幾十萬元。這樣的數(shù)字人,顯然無法做到“人均一個(gè)數(shù)字人”。 在數(shù)字人席卷中國的這一年里,趙彬正在一家人工智能明星創(chuàng)業(yè)企業(yè)里帶隊(duì)研發(fā)虛擬數(shù)字人,推動(dòng)數(shù)字人在實(shí)際場景中應(yīng)用落地。 趙彬告訴科技行者,“當(dāng)年的數(shù)字人分為2D數(shù)字人和3D數(shù)字人,2D數(shù)字人圈內(nèi)也叫紙片人,當(dāng)時(shí)大家看了這類數(shù)字人除了做虛擬迎賓、虛擬主播,也干不了別的事兒?!?/span> “直到星瞳、AYAYI這類3D超寫實(shí)數(shù)字人出現(xiàn)后,我們發(fā)現(xiàn),它的表現(xiàn)力很強(qiáng),既可以自由地在3D空間中移動(dòng),也可以做出非常流暢的動(dòng)作,還可以與其他數(shù)字人、場景及商品進(jìn)行互動(dòng),超寫實(shí)的數(shù)字人無論是在美感上,還是質(zhì)感上,都已經(jīng)能夠打造成獨(dú)立的 IP 形象應(yīng)用于文化傳播、直播帶貨、虛擬社交等。”3D數(shù)字人的出現(xiàn),讓像趙彬這樣的技術(shù)從業(yè)者興奮起來,也讓他們更確定了數(shù)字人的價(jià)值和意義。 不過,趙彬真正著手研發(fā)3D數(shù)字人,還要再晚一年。2022年,趙彬接受了黃碩的邀請(qǐng),加入大觥科技,并于這年3月在大觥科技正式啟動(dòng)了3D數(shù)字人項(xiàng)目。3D世界的“學(xué)費(fèi)”與“路費(fèi)”
2022年,當(dāng)大觥科技正式啟動(dòng)數(shù)字人項(xiàng)目時(shí),最初選擇的是一條最為艱辛的路。
通過Maya或3DMax根據(jù)手繪圖、立繪圖、三視圖進(jìn)行建模,是動(dòng)畫、影視行業(yè)最常用的一種建模方式,也是最成熟的一種建模方式,這一方式,同樣延續(xù)到了后來3D數(shù)字人的建模中。作為行業(yè)中的“新人”, 大觥科技需要親歷整個(gè)過程,才能了解數(shù)字人制作各個(gè)環(huán)節(jié)中涉及到的技術(shù)和知識(shí),也只有掌握了這些基礎(chǔ)知識(shí),才能更精準(zhǔn)地進(jìn)行技術(shù)選型與開發(fā)迭代。 然而,讓趙彬沒有想到的是,以此方法,僅僅研發(fā)第一個(gè)數(shù)字人,大觥科技花了整整三個(gè)月。 談到這個(gè)數(shù)字人,趙彬用了一個(gè)很形象的詞——“雕”來形容開發(fā)過程。“我們首先需要雕出一個(gè)數(shù)字人,之后還需要為她雕衣服、雕頭發(fā)、做綁定,中間涉及到大量的修改、優(yōu)化與重做,一個(gè)細(xì)節(jié)修改通常要花幾天到幾周的時(shí)間,整個(gè)過程往往需要花費(fèi)2-3個(gè)月的時(shí)間,成本則是在幾十萬到上百萬不等。”當(dāng)時(shí)大觥科技用3D建模方式做出的數(shù)字人效果已經(jīng)很不錯(cuò),也有一些B端用戶提出了這樣的需求,但在評(píng)估了盈利模式后,他們最終還是放棄了這條技術(shù)線。 “一個(gè)數(shù)字人做3個(gè)月,我們自己的團(tuán)隊(duì)一年也就只能做出4-6個(gè)數(shù)字人,無論是從投入成本還是研發(fā)周期來看,我們都無法接受。”趙彬如是說。不過,這次的研發(fā)經(jīng)歷讓趙彬和他的團(tuán)隊(duì)親身實(shí)踐并學(xué)到了很多基礎(chǔ)知識(shí)和技術(shù)能力,用趙彬的話說就是“弄明白了3D世界是怎么玩的”。 除去3D建模方式,業(yè)界還有三種主流數(shù)字人構(gòu)建方式:相機(jī)陣列、掃描和手機(jī)自拍。相機(jī)陣列多用于游戲制作場景,具體是在一個(gè)房間中,通過在房間各個(gè)方位布設(shè)的專業(yè)相機(jī),對(duì)進(jìn)入房間的人進(jìn)行環(huán)拍,并基于此建模,制作數(shù)字人。這一模式存在兩個(gè)問題,首先是拍攝完生成的數(shù)據(jù)需要進(jìn)行二次處理,建模時(shí)間依然需要很久,最重要的是,其中使用的專業(yè)相機(jī)動(dòng)輒幾萬、十幾萬。據(jù)悉,騰訊游戲團(tuán)隊(duì)購置的空間掃描的整套設(shè)備一套就要2000多萬。因而,要想造出大家都能用得起的3D數(shù)字人,通過「手機(jī)自拍」就成了最適合的模式。 在選定使用「手機(jī)自拍」這一模式后,大觥科技逐漸摸索出一條屬于自己的技術(shù)路線,據(jù)趙彬介紹,大觥科技現(xiàn)在通過3-4秒的自拍視頻或者幾張不同角度的照片,就可以在幾分鐘內(nèi)快速生成一個(gè)人3D數(shù)字人形象。與此同時(shí),在前期調(diào)研中,趙彬還發(fā)現(xiàn),當(dāng)時(shí)市面上很多開源解決方案并沒有解決語音與數(shù)字人模型匹配的問題。 “一是中文口型不夠自然,二是面部表情不夠豐富,只有嘴動(dòng)、面部沒有動(dòng)。” 趙彬認(rèn)為,這些都將會(huì)成為大觥科技數(shù)字人后續(xù)商業(yè)化道路上的障礙。于是,在研發(fā)數(shù)字人的過程中,趙彬和他的團(tuán)隊(duì)基于主流的蘋果ARKit blendshape 52同步研發(fā)了一套語音與數(shù)字人進(jìn)行模型匹配的算法。由于這是大觥科技基于行業(yè)標(biāo)準(zhǔn)做的一套標(biāo)準(zhǔn)算法,而且當(dāng)時(shí)在行業(yè)中也有稀缺性,這套算法后來也被一些做短視頻內(nèi)容生成的企業(yè)采購用于解決他們3D數(shù)字人的口型驅(qū)動(dòng)問題。 至于數(shù)字人的商業(yè)應(yīng)用場景,大觥科技最先找到的是電商直播。大觥科技第一代3D數(shù)字人在2023年2月正式落地到一家跨境電商的直播場景中,通過引入大觥科技的3D數(shù)字人,這家跨境電商的營收增加了數(shù)十萬美金。 也是在這次合作中,趙彬意識(shí)到,他們的數(shù)字人,需要繼續(xù)加速迭代。2023年,ChatGPT的出現(xiàn)震驚了全世界,ChatGPT背后的AGI(通用人工智能)也開始在各行業(yè)中形成蝴蝶效應(yīng)。
這時(shí),數(shù)字人這個(gè)本就歸屬于人工智能產(chǎn)業(yè)中的一個(gè)細(xì)分領(lǐng)域,也難免會(huì)受到“波及”,更準(zhǔn)確地來說,應(yīng)該是加速了數(shù)字人產(chǎn)業(yè)的進(jìn)程。 據(jù)趙彬觀察,今年數(shù)字人產(chǎn)業(yè)會(huì)發(fā)生兩個(gè)大的變化: 一個(gè)是 stable diffusion+ControlNet+Mov2Mov,再加上一些新的類D-ID人工智能技術(shù),將會(huì)引發(fā)新一輪2D數(shù)字人產(chǎn)業(yè)變革; 另一個(gè)是數(shù)字人與GPT結(jié)合已成必然趨勢。 趙彬說,他現(xiàn)在已經(jīng)在用ChatGPT寫代碼了。 “之前把一個(gè)復(fù)雜的C#代碼轉(zhuǎn)成C++是一件費(fèi)時(shí)費(fèi)力的事兒,轉(zhuǎn)成C++還需要查語法,重新寫代碼、調(diào)BUG,現(xiàn)在我只需要把C#代碼扔給ChatGPT,它就可以幫我把代碼翻譯成C++版本,之后再稍微花些時(shí)間進(jìn)行調(diào)試就好了,比傳統(tǒng)方法省時(shí)省力很多。” 更重要的是,趙彬和他的團(tuán)隊(duì)已經(jīng)在針對(duì)數(shù)字人與GPT的結(jié)合進(jìn)行著緊鑼密鼓的技術(shù)研發(fā)。 趙彬說,對(duì)于用戶而言,數(shù)字人的使用實(shí)際上是通過一套SaaS軟件來實(shí)現(xiàn)的——用戶通過將商品信息錄入數(shù)據(jù)庫,數(shù)字人就可以按照商品排列順序,進(jìn)行24小時(shí)直播。 在大觥科技第一代數(shù)字人中,用戶還需要將商品信息以文字形式錄入數(shù)據(jù)庫,趙彬和他的團(tuán)隊(duì)現(xiàn)在正在做的是通過引入ChatGPT,直接由ChatGPT生成商品介紹,此外,GPT 還可以提供內(nèi)容的改寫、翻譯、縮擴(kuò)容等功能,可以根據(jù)不同的使用場景調(diào)整語言語義表達(dá),數(shù)字人直播過程中的背景圖,也可以直接由AIGC生成并接入到直播視頻中。 針對(duì)數(shù)字人電商直播場景,趙彬和他的團(tuán)隊(duì)也在思考如何補(bǔ)齊數(shù)字人在交互能力上的短板。 趙彬告訴科技行者,大觥科技正在為第二代數(shù)字人加入問題回復(fù)能力。具體而言,通過后臺(tái)服務(wù)監(jiān)聽直播間的彈幕信息,針對(duì)諸如發(fā)貨、物流、倉儲(chǔ)周期等同類問題進(jìn)行智能匯總,并通過ChatGPT的PDF檢索能力及私有化知識(shí)庫訓(xùn)練,數(shù)字人就可以從大觥科技為商家構(gòu)建的本地知識(shí)庫中提取出相應(yīng)內(nèi)容,在介紹下一個(gè)商品前做統(tǒng)一回復(fù)。 2023年,隨著ChatGPT爆火,AGI成了科技巨頭的新寵,作為舊寵的數(shù)字人開始趨于理性,大家更多開始思考數(shù)字人能為業(yè)務(wù)帶來怎樣的提升,也對(duì)數(shù)字人提出了更接地氣的需求。趙彬經(jīng)歷了數(shù)字人最狂熱的年代,也參與了大觥科技數(shù)字人從0到1的構(gòu)建,他判斷,2023年會(huì)是3D數(shù)字人的元年,數(shù)字人在這一年將真正跨越2D時(shí)代。 而這一年數(shù)字人產(chǎn)業(yè)的巨變、3D數(shù)字人的“量產(chǎn)”,也將讓我們離“人均一個(gè)數(shù)字人”的時(shí)代更近一步。趙彬 大觥科技技術(shù)VP兼數(shù)字人業(yè)務(wù)負(fù)責(zé)人
趙彬,大觥科技技術(shù)VP兼數(shù)字人業(yè)務(wù)負(fù)責(zé)人,多年技術(shù)架構(gòu)、數(shù)字人、APP 出海及商業(yè)化經(jīng)歷。曾任業(yè)內(nèi)某知名出海公司廣告變現(xiàn)平臺(tái)負(fù)責(zé)人,擁有豐富的海外廣告商業(yè)化經(jīng)驗(yàn)及億級(jí) QPS 后臺(tái)架構(gòu)實(shí)施經(jīng)驗(yàn);曾任明星創(chuàng)業(yè)公司深尚科技 CEO 助理&技術(shù)負(fù)責(zé)人,負(fù)責(zé)數(shù)字人業(yè)務(wù)搭建與對(duì)應(yīng)研發(fā)推進(jìn)、提供解決方案落地與生態(tài)合作實(shí)施;現(xiàn)任大觥科技技術(shù) VP,數(shù)字人業(yè)務(wù)負(fù)責(zé)人,負(fù)責(zé)超寫實(shí)數(shù)字人快速生成相關(guān)技術(shù)開發(fā)與商業(yè)化。