酷玩實(shí)驗(yàn)室作品 最近,用AI“復(fù)活”逝者這件事,著實(shí)是火出了圈,從包小柏用AI復(fù)活自己女兒,到各種用AI復(fù)活明星的視頻,我們發(fā)現(xiàn),通過AI技術(shù),讓死者“重回人間”似乎成了一件輕而易舉的事。 這樣的情節(jié),不禁讓我想起了《流浪地球 2》中,科學(xué)家圖恒宇利用量子計(jì)算機(jī),“復(fù)活”了因車禍去世的女兒丫丫,賜予她數(shù)字生命的情節(jié)。但其實(shí),現(xiàn)實(shí)中的這些AI“復(fù)活”,要遠(yuǎn)比科幻片中來得廉價(jià)、簡易,有些甚至已經(jīng)發(fā)展成了一套產(chǎn)業(yè)鏈。在淘寶上你只需要花10元,就可以重新看到死去親友的音容笑貌。不過,這樣的技術(shù),最多只能做到“讓照片動(dòng)起來”、“照片開口說話”,而且動(dòng)作的幅度一般都很小,讓人有種“一眼假”、“一眼AI”的感覺。而稍微高級一點(diǎn),表現(xiàn)得更加栩栩如生的,用的大都是現(xiàn)在的AI數(shù)字人技術(shù),也就是通過收集大量的死者生前的信息,例如照片、視頻、文本等,對其聲音、形象和語言風(fēng)格進(jìn)行建模,來讓死者“活過來”。例如,前段時(shí)間,在商湯科技的年會上,人們就用數(shù)字人技術(shù),“復(fù)活”了已經(jīng)去世的湯曉鷗教授。不過,這樣的“復(fù)活”效果,其實(shí)還是基于真人的一個(gè)非常淺層的、表象的數(shù)字映像,跟真實(shí)社會當(dāng)中的人所擁有的智慧差了老遠(yuǎn)。比如像湯曉鷗這段視頻,它里面的臺詞其實(shí)是工作人員提前編排好的,既不是來自湯教授本人,也不是來自一個(gè)能代表湯教授的AI智能體,只能說是一個(gè)樣子貨。不過話雖這么說,這AI大模型可是眼看著越來越強(qiáng)大了,憑借大模型技術(shù),是否真的有可能把人腦里的意識和記憶全掃描下來,然后上傳到電腦里,從而實(shí)現(xiàn)“數(shù)字永生”呢?就目前來說,讓人們實(shí)現(xiàn)“數(shù)字永生”的方式,主要有兩種:一種是物理掃描,也就是將人類大腦構(gòu)造的全部物理組成掃描下來,再上傳到終端;二是通過文本信息建模,搜集逝者生前所留下的短信、社交賬號的留言,或是其他人對他的印象等等,通過這些信息建立一個(gè)大致的思維模型。就第一種情況而言,雖然目前也有一些小規(guī)模的初步嘗試和模擬實(shí)驗(yàn),但其進(jìn)展都十分有限。例如,2018年,英國科學(xué)家宣稱利用電子顯微鏡技術(shù)對小鼠的小腦進(jìn)行了亞分子級別的三維掃描,并在藍(lán)光超算中進(jìn)行了有限的工作模擬。而在2021年,耶魯大學(xué)、普林斯頓大學(xué)和芝加哥大學(xué)的科學(xué)家們,成功地繪制了包含約130,000個(gè)神經(jīng)元和5300萬個(gè)突觸的成年果蠅大腦連接組。發(fā)現(xiàn)了嗎?這些被掃描的對象,不是老鼠就是蟲子,都是腦子很小的物種。除了掃描的規(guī)模小,這些實(shí)驗(yàn)對神經(jīng)回路的模擬能力也非常初級,往往只能提供靜態(tài)的快照,無法捕捉到大腦的動(dòng)態(tài)變化,而且哪個(gè)結(jié)構(gòu)對應(yīng)哪種功能,也是一頭霧水。而僅有的一些對人腦的掃描項(xiàng)目,例如德國海涅大學(xué)在2013年進(jìn)行的實(shí)驗(yàn),也僅僅只能對20微米見方的死者腦組織進(jìn)行掃描。而從物理層面掃描人腦,之所以如此困難,簡單來說,主要就三點(diǎn)原因:首先,人腦那玩意兒實(shí)在太復(fù)雜細(xì)膩了,里頭有860億個(gè)神經(jīng)元,要想完完整整把這么多玩意兒的精確到分子級別的結(jié)構(gòu)都掃描出來,可不是件容易的事兒。就拿現(xiàn)有最先進(jìn)的透射電子顯微鏡(TEM)來說,它最高分辨率可以做到0.05納米,聽起來已經(jīng)很牛逼了。但問題是,為了通過TEM觀察,樣本需要切得非常薄,通常在幾納米厚度以內(nèi),人腦組織是極其復(fù)雜的,要將其制備成適合觀察的樣本,既需要保留細(xì)胞間的精細(xì)結(jié)構(gòu),又要防止在切割過程中造成損傷,這是一個(gè)極大的挑戰(zhàn)。并且,TEM啥的,是用高能的電子流來掃描樣品的。所以拍出來的圖像分辨率特別高。但這玩意兒就有個(gè)大問題,它那電子流只能聚焦在樣品的一小塊區(qū)域,在任何給定時(shí)間,都只能照亮并拍下樣品的一小部分。所以想用它把整個(gè)大腦都掃描個(gè)遍,那可費(fèi)了老勁了,就跟用放大鏡想給整個(gè)北京拍全景照一樣難。就算真的解決上述難題了,但你再想想把一個(gè)人腦挨個(gè)掃描下來得產(chǎn)生多少數(shù)據(jù)?860億個(gè)神經(jīng)元,就算只掃描神經(jīng)元的大概形狀和連接方式,也至少得拍上萬億張3D圖像。每張圖像數(shù)據(jù)量雖然能壓縮到幾十MB,但加起來總量也是幾十艾字節(jié)級別的。這里稍微解釋下,艾字節(jié)(exabytes),是計(jì)算機(jī)存儲容量單位。也常用EB來表示,1EB約等于一百萬TB,也就是2的60次方字節(jié)。現(xiàn)在最高端的數(shù)據(jù)中心級每塊硬盤也就20TB的容量。你要存幾十艾字節(jié)?那得幾萬億幾十萬億塊硬盤啊,占地面積比整個(gè)中國都大!再者,就算把這些數(shù)據(jù)存下來了,你還得有一個(gè)無與倫比的超級計(jì)算機(jī)系統(tǒng),才能基于這些數(shù)據(jù)精確復(fù)制出人腦所有神經(jīng)元的動(dòng)態(tài)反應(yīng)和交互。每個(gè)神經(jīng)元細(xì)胞內(nèi)部,都有數(shù)以萬計(jì)的各種離子通道、蛋白質(zhì)分子,而它們的狀態(tài)都在不斷運(yùn)動(dòng)和變化。如果要模擬全部860億個(gè)神經(jīng)元,那就等于是在同時(shí)解無數(shù)個(gè)巨大方程組,每個(gè)方程組都有上萬個(gè)未知數(shù)和變量。由于這些算力、硬件層面的種種限制,從物理層面完整復(fù)制人腦的設(shè)想,雖然理論上是可行的,但在沒有找個(gè)更高效的方法之前,現(xiàn)階段暫時(shí)實(shí)現(xiàn)不了。那如果退而求其次,采用第二種方式,用文本信息建模,來模擬一個(gè)人的思維結(jié)構(gòu)和特征呢?與全物理層面的模擬相比,文本建模似乎是一個(gè)更實(shí)際可行的替代方案,但是在還原度方面,相較前者而言,實(shí)在是有些拉胯……首先,并不是每個(gè)人生前都能留下足夠數(shù)量、質(zhì)量的文本信息,如果沒有足夠的文本信息可供學(xué)習(xí),訓(xùn)練出模型的發(fā)言就會比較“大路貨”,即便從感官上也無法給我們“這就是那個(gè)人”的感覺。另外,要還原出這個(gè)人在各種特定場景下的行為反應(yīng)、決策判斷等高級認(rèn)知功能,光用通用的語義關(guān)聯(lián)可就難辦了,你得針對具體場景做大量訓(xùn)練,緩解模型偏差。更關(guān)鍵的是,你怎么保證經(jīng)過AI建模后的這個(gè)系統(tǒng),真的還能完整繼承逝者的“自我意識”,而不只是個(gè)簡單的模仿機(jī)器?要完整繼承一個(gè)人的'自我意識',可不止是學(xué)習(xí)表面的語言和行為那么簡單。因?yàn)樽晕乙庾R是一種內(nèi)在的、高級的心智狀態(tài),包括自我認(rèn)知、情緒體驗(yàn)等等,這些隱藏在內(nèi)心深處的東西,單純從文字記錄是很難捕捉到的。比如同樣是說一個(gè)“哦”,有時(shí)候是表達(dá)同意,有時(shí)候是漠不關(guān)心,甚至有時(shí)候是在生氣。說白了,意識活動(dòng)太過復(fù)雜抽象,不是簡單的語言數(shù)據(jù)就能還原的。這是僅有表象的“數(shù)字皮囊”和真正的“數(shù)字生命”之間的關(guān)鍵區(qū)別。就目前來看,在打造數(shù)字生命這件事上,物理建模還原度高,但可行性低,文本建模可行性挺高,但還原度又拉胯。最近還真出現(xiàn)了個(gè)類似的技術(shù),名叫DeWave模型。這個(gè)模型的特點(diǎn),用一句話來說,就是通過大模型讀取你的想法,并直接轉(zhuǎn)化成文本。今年一月,悉尼科技大學(xué)的科研人員,通過大語言模型、EEG(大腦活動(dòng)檢測工具)、腦機(jī)接口等技術(shù),開發(fā)了一個(gè)可自動(dòng)讀取人類想法,并轉(zhuǎn)化成文本的AI大模型——DeWave。這相當(dāng)于是AI版的“讀心術(shù)”了。DeWave的核心是利用EEG(腦電圖)等設(shè)備,直接捕捉大腦的神經(jīng)活動(dòng)信號,作為物理層面的輸入數(shù)據(jù)源。然后DeWave會把這些特征向量再次轉(zhuǎn)化,變成一串串的離散編碼,這相當(dāng)于把你的大腦活動(dòng)給轉(zhuǎn)換成了機(jī)器能讀懂的一堆特殊密碼。接下來就簡單了,DeWave直接把這些'大腦密碼'丟進(jìn)一個(gè)訓(xùn)練好的大模型里,經(jīng)過模型的“翻譯”,最終就能將你大腦里的想法,化作人話給生成出來了!與單純依賴文本不同,DeWave直接從人腦獲取物理信號,所以在還原度上更有優(yōu)勢。就目前來說,DeWave在ZuCo數(shù)據(jù)集上的表現(xiàn),用眼動(dòng)標(biāo)記的EEG信號,拿到了41.35的BLEU分?jǐn)?shù)和33.71的ROUGE分?jǐn)?shù)。這個(gè)測試就是為了檢驗(yàn)DeWave這種直接讀腦的翻譯模型的精確度有多高,看它能不能真正做到'讀心術(shù)'把人腦子里的想法解碼出來。其中BLEU是評估機(jī)器翻譯整體準(zhǔn)確性的指標(biāo),分?jǐn)?shù)越高說明還原性越好。而ROUGE分?jǐn)?shù)則更關(guān)注重點(diǎn)和關(guān)鍵信息,要是重點(diǎn)漏了太多,分?jǐn)?shù)就高不了了。之前類似的技術(shù),例如Wave2Vec,這玩意兒本來是用來識別語音的,后來有人把它改了改,用來識別大腦信號。但是,它在同樣的數(shù)據(jù)集上,BLEU分?jǐn)?shù)只有18.15,ROUGE分?jǐn)?shù)是23.86。這么一比,DeWave的表現(xiàn)就是甩了前者好幾條街。想象一下,倘若在未來,DeWave這類技術(shù)更上了一層樓,任何人要想對自己的思維建模,只需要戴上EEG設(shè)備一段時(shí)間,記錄下自己在各種情況下的思維、想法,之后將其解讀和翻譯,導(dǎo)入大模型,并進(jìn)行思維建模,一個(gè)完整的“人格拷貝”就誕生了!而這樣的“人格拷貝”,這著實(shí)和《賽博朋克2077》中,荒坂公司研究的所謂“靈魂殺手”芯片有些相似,后者就是用來獲取和備份人類意識的一種黑科技裝置。不過,這樣建模出來的數(shù)字生命,也存在著一個(gè)問題,就是它是靜態(tài)的,它只能代表你帶上EEG設(shè)備的那段時(shí)間的水平,而真人是會學(xué)習(xí)和成長的。如果想讓這個(gè)思維模型像真人一樣,在經(jīng)歷各種人和事之后,思想和心理也跟著變化成長,那人們就必須讓其具備“記憶”和“反思”的能力,讓其能夠通過一次次“前車之鑒”完善自己。而要做到這點(diǎn),就要提到另一個(gè)關(guān)鍵的技術(shù)——SocioMind(數(shù)字大腦)。“人是所有社會關(guān)系的總和。”近期,新加坡南洋理工,商湯科技,上海 AI 實(shí)驗(yàn)室共同推出的一個(gè)項(xiàng)目「Digital Life Project」(簡稱DLP),可以說忠實(shí)地踐行了這一思想。SocioMind:這是一個(gè)數(shù)字化的“大腦”,用來模擬角色的個(gè)性和社交行為。MoMat-MoGen:這是一個(gè)讓角色的數(shù)字化身體動(dòng)起來的方法。其中的SocioMind就是剛才提到的讓思維模型學(xué)會“前車之鑒”的關(guān)鍵。簡單來說,SocioMind就是一個(gè)智能社交系統(tǒng),能讓虛擬角色(數(shù)字生命)根據(jù)過去的經(jīng)歷和對話,模擬出具有人類特征的社交反應(yīng)和情感變化。就像我們在現(xiàn)實(shí)中,與各色人等打交道多了,就逐漸學(xué)會了為人處事之道,知道如何應(yīng)對不同的社交場景,SocioMind也在幫助虛擬角色“學(xué)習(xí)”如何在虛擬世界里,怎么通過一次次的交流,變得更像個(gè)真實(shí)的人。具體地說,SocioMind大致是通過如下步驟,讓數(shù)字生命學(xué)會“記憶”和“反思”的。首先,SocioMind會根據(jù)角色的“背景故事”來塑造其個(gè)性。相當(dāng)于是各類RPG游戲里的“創(chuàng)建角色”的環(huán)節(jié),這一步?jīng)Q定了“數(shù)字人格”各方面的基礎(chǔ)值,例如一個(gè)樂觀的角色可能會積極的態(tài)度,一個(gè)內(nèi)向的角色可能會更加謹(jǐn)慎。之后,SocioMind為每個(gè)虛擬角色構(gòu)建了一個(gè)記憶系統(tǒng),記錄角色在互動(dòng)中的經(jīng)歷,以及基于這些經(jīng)歷產(chǎn)生的想法,相當(dāng)于是讓角色有了個(gè)“聊天記錄”。雖然嘛,聊天記錄這東西很多系統(tǒng)都有,但SocioMind關(guān)鍵的地方,就在于它不僅會保存這些記錄,還能進(jìn)行深度理解與上下文關(guān)聯(lián)。通過深度學(xué)習(xí)和自然語言處理技術(shù)(NLP),角色能理解各種信息的含義和背后的情感。最后,更關(guān)鍵的是,基于這樣的深度理解,角色還能通過一系列復(fù)雜的算法,衍生出動(dòng)態(tài)的適應(yīng)和學(xué)習(xí)機(jī)制,而非公式化的機(jī)械反應(yīng)。舉例來說,如果角色A和B吵了架,按照某種公式化的反應(yīng),下次A再見到B,一定會對B很反感。但現(xiàn)實(shí)中的人性是多維和復(fù)雜的,假設(shè)A是一個(gè)寬容的角色,她可能剛開始會反感,但隨著時(shí)間推移,反感就沒那么強(qiáng)烈了。如果A在爭論后得到了朋友的安慰,或者A自己反思后,認(rèn)為爭論是不必要的,那么她對B的態(tài)度可能會有所緩和。而SocioMind正是通過創(chuàng)建了一個(gè)情緒和社交模型,模擬了這種復(fù)雜性、動(dòng)態(tài)性。這個(gè)模型,就像一個(gè)不斷生長,不斷分叉的樹枝,這棵樹的每個(gè)分支代表了角色在社交互動(dòng)中的一個(gè)可能的路徑或結(jié)果。而角色每經(jīng)歷一件事,或是做出一個(gè)不同的選擇,就會導(dǎo)致新的分支生長出來。隨著時(shí)間的推移,角色的個(gè)性和情感狀態(tài)就像這棵樹的枝葉一樣越來越豐富,形成了一個(gè)復(fù)雜的結(jié)構(gòu)。與完全模擬人腦神經(jīng)元交互的方式相比,這種基因社交理論的技術(shù)路徑,成本要低太多,可行性也要高太多了。加上前面提到的DeWave技術(shù),人們幾乎就有了一套將思想翻譯、導(dǎo)入、建模并且讓其“活過來”的完整技術(shù)路徑。不過,話說回來,比怎么實(shí)現(xiàn)“數(shù)字生命”更重要的,是實(shí)現(xiàn)了數(shù)字生命以后,它對人類究竟有什么意義?這個(gè)問題,就目前來說,至少有兩個(gè)答案。其一,從淺層的意義來看,這種真正有靈魂,有思想的數(shù)字生命,對娛樂業(yè)的推動(dòng)可是大大的。在電影、游戲、小說等領(lǐng)域,這些沒有肉身,不會疲勞的數(shù)字生命,可以作為互動(dòng)角色參與創(chuàng)作,提供更加個(gè)性化和另類的體驗(yàn)。其二,從更深、更遠(yuǎn)的層次來看,這樣的“數(shù)字備份”,實(shí)際上可以當(dāng)成人類的“集體智慧庫”的組成部分。中國有句古話:“吾生也有涯,而知也無涯 。以有涯隨無涯,殆已!”一個(gè)人的生命,總是有限的,而在這有限的生命里,每個(gè)人所能承載和反芻出來知識,也是有限的。但倘若將來數(shù)字生命成真了,在無限壽命的情況下,一個(gè)人究竟能學(xué)多少知識,又能凝結(jié)出多少智慧?更不用說,在擺脫了生物大腦的限制后,這些數(shù)字生命的學(xué)習(xí)效率有多快。倘若千萬個(gè)這樣的數(shù)字生命匯集到一起,人類是否就能涌現(xiàn)出一種更高級,更強(qiáng)大的智慧了?Emmm……對于這個(gè)問題,只能說,有時(shí)候比科技更先撞到南墻的,是人類的想象力。畢竟,即使數(shù)字生命前景再光明,目前人們最先想到的,還是用它搞“復(fù)活”業(yè)務(wù),從死者身上賺錢。
|