1 在多智能體中通向“智能”
來源:AI科技評(píng)論 作者:黃楠 過去短短不到一年里,ChatGPT、GPT-4 的相繼面世,不斷刷新人們對(duì) AI 的認(rèn)知。 新技術(shù)帶來變革,也引發(fā)了外界對(duì) AI 是否會(huì)取代人的討論,OpenAI 首席執(zhí)行官 Sam Altman 也公開表示,對(duì)人工智能技術(shù)的強(qiáng)大能力有些擔(dān)憂。 近日,倫敦大學(xué)學(xué)院(UCL)計(jì)算機(jī)系教授汪軍在接受 AI 科技評(píng)論采訪時(shí)坦言,雖然 ChatGPT 的語言能力、對(duì)話能力很強(qiáng),但其并無法進(jìn)行系統(tǒng)性決策,例如機(jī)器控制、群體協(xié)作、動(dòng)態(tài)調(diào)度等,而這些是 AI 技術(shù)浪潮中更具革命性的部分。 汪軍,倫敦大學(xué)學(xué)院(UCL)計(jì)算機(jī)系教授,阿蘭·圖靈研究所 Turing Fellow。其主要研究智能信息系統(tǒng),包括機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、多智能體,數(shù)據(jù)挖掘、計(jì)算廣告學(xué)、推薦系統(tǒng)等;谷歌學(xué)術(shù)被引用量超過1.6萬次,已發(fā)表學(xué)術(shù)論文120多篇,曾多次獲得最佳論文獎(jiǎng)。 2022年4月,上海數(shù)字大腦研究院正式創(chuàng)立,內(nèi)部孵化并成立了 Enigma Tech(中文名“謎題科技”),汪軍擔(dān)任上海數(shù)字大腦研究院聯(lián)合創(chuàng)始人、院長(zhǎng),并出任謎題科技首席科學(xué)家;下半年,數(shù)研院研發(fā)出全球第一個(gè)多智能體決策大模型,該大模型集合 CV、NLP、強(qiáng)化學(xué)習(xí)和多智能體,致力于幫助企業(yè)解決多場(chǎng)景決策問題。 汪軍認(rèn)為,ChatGPT 的出現(xiàn),解決了以往大模型訓(xùn)練中如何降低門檻的難題,通過將自然語言處理與決策大模型的結(jié)合,ChatGPT 帶來的不能只是聊天,而是在 AIGC(AI Generated Content,內(nèi)容生產(chǎn)) 的基礎(chǔ)上更進(jìn)一步探索 AIGA(AI Generated Actions,決策生成),讓模型的思考能力和決策能力應(yīng)用到具體場(chǎng)景中,真正實(shí)現(xiàn)幫助企業(yè)和人們解決決策問題,將人類釋放到更具創(chuàng)造性的活動(dòng)中。 1 在多智能體中通向“智能”
AI 智能探索的進(jìn)程中,脫離不開對(duì)定義問題的終極追求。 汪軍將通往智能的路徑分為兩步。第一步,需要先明確生物系統(tǒng)(Living System,人歸屬于生物系統(tǒng))和非生物系統(tǒng)的差別。 2013年,生物物理學(xué)家 Jeremy England 提出一個(gè)開創(chuàng)性“耗散適應(yīng)”理論(dissipation-driven adaptation),將生命起源歸結(jié)于熱力學(xué)的必然結(jié)果,無分子系統(tǒng)在一定條件下通過化學(xué)反應(yīng)代謝消耗能量,以促進(jìn)能量持續(xù)消耗及“熵”的增加。 在熵增熵減理論中,生命體從無序變成有序的過程持續(xù)吸收能量不斷熵減,汪軍認(rèn)為,AI 從人產(chǎn)生,因此也是吸收能量幫助人完成熵減的使命,解決基礎(chǔ)問題的關(guān)鍵點(diǎn)在于如何定義智能,明確 AI 需要吸收多少能量才能達(dá)到一定的智能。 使用 AI 做圖像分類識(shí)別時(shí),分類算法其準(zhǔn)確率可達(dá)到98%。通過分類,AI幫助我們可以將處于無序狀態(tài)的圖像內(nèi)容組織轉(zhuǎn)變?yōu)橛行颉⒂幸?guī)律可循的圖像,系統(tǒng)中不確定性減小,產(chǎn)生熵減。熵減也需要計(jì)算,形成算法的算力多少,算力即是消耗能量的一種體現(xiàn)。 通往智能的第二步,汪軍認(rèn)為,是分辨生物系統(tǒng)、所謂的 AI 系統(tǒng)的意識(shí)問題。當(dāng)前,人工智能作為工具存在,算法只能判別 AI 工作的優(yōu)良程度,機(jī)器本身并不存在思考,如何使機(jī)器最終達(dá)到與人相等的思考能力,需要先理解人類大腦的各種現(xiàn)象,并增加對(duì) AI 意識(shí)的關(guān)注。 在汪軍看來,意識(shí)是智能的一個(gè)重要表現(xiàn),哺乳動(dòng)物可以察覺意識(shí)、感知意識(shí)并形成主觀感受;同時(shí),當(dāng)多個(gè)個(gè)體與環(huán)境交互時(shí),必須存在除單個(gè)個(gè)體外、另一有意識(shí)個(gè)體與環(huán)境發(fā)生影響、產(chǎn)生共鳴,從而使主觀感受得以表達(dá)。 對(duì)此,汪軍和團(tuán)隊(duì)提出,在 AI 研究中,必須有多智能體(Multi-Agent)的相互作用來引發(fā)意識(shí)。 以大模型為例,跨任務(wù)是人為定義的,只局限在給定一個(gè)特定任務(wù),把算法設(shè)計(jì)好讓機(jī)器去跑,難以產(chǎn)生更大智能的 AI,模型的思考能力和決策能力也無法得到提升。 汪軍告訴 AI 科技評(píng)論,“在同時(shí)推進(jìn)多個(gè)事情時(shí),需要大的思想來指導(dǎo)。如果沒有,顯然還缺乏一個(gè)內(nèi)在的規(guī)律?!边@個(gè)規(guī)律,正是機(jī)器模型通往更大“智能”的關(guān)鍵路徑。 2022年5月,DeepMind 發(fā)布集合 CV 和 NLP 的通用智能體“GATO”,它可以玩雅達(dá)利游戲、輸出圖片字幕、用機(jī)械臂堆疊積木、跟人聊天等等,還能根據(jù)上下文決定是否輸出文本、關(guān)節(jié)力矩、按鈕按壓或其他 token(逐詞),這項(xiàng)工作在當(dāng)時(shí)引起了不小的討論。汪軍也是關(guān)注者之一。 事實(shí)上,從2021年開始,汪軍和團(tuán)隊(duì)就開始思考創(chuàng)建一個(gè)可實(shí)現(xiàn)跨任務(wù),將 CV、NLP、強(qiáng)化學(xué)習(xí)和多智能體四者嵌套為一個(gè)統(tǒng)一體決策模型的可能性。“GATO”的出現(xiàn)讓汪軍看到大模型廣闊的可探索空間,“這足以證明,一個(gè)模型解決多個(gè)領(lǐng)域任務(wù)是大勢(shì)所趨?!?/p> 決策大模型并不能單純從模型大小意義出發(fā),究其本質(zhì),是在數(shù)據(jù)集中通過強(qiáng)化學(xué)習(xí)與環(huán)境不斷交互所達(dá)到的一定的認(rèn)知水平,如何攻破這個(gè)問題?當(dāng)中最大的技術(shù)點(diǎn)就在于,降低強(qiáng)化學(xué)習(xí)和環(huán)境交互的復(fù)雜度。 原有數(shù)據(jù)在這一環(huán)節(jié)中起到關(guān)鍵性作用。 通過對(duì)其他任務(wù)或算法同環(huán)境交互產(chǎn)生的原有數(shù)據(jù)訓(xùn)練,搭建一個(gè)預(yù)訓(xùn)練模型,這一模型在面對(duì)新任務(wù)時(shí)即可迅速在進(jìn)行應(yīng)用,從而實(shí)現(xiàn)規(guī)律、關(guān)系和數(shù)據(jù)的價(jià)值最大化。而伴隨預(yù)訓(xùn)練數(shù)據(jù)集的不斷擴(kuò)大,模型也隨之變大,直至它可覆蓋的所有任務(wù)。 最終結(jié)果是,解決問題的方法聚攏,多個(gè)方向匯聚、統(tǒng)一為一個(gè)可預(yù)約、可跨任務(wù)泛化的多智能體。多智能體往往需要考慮平衡關(guān)系,即在達(dá)到自我目標(biāo)的同時(shí),使對(duì)方也能達(dá)到它的目標(biāo),互相牽制從而保持一個(gè)穩(wěn)定的平衡。 進(jìn)入實(shí)際應(yīng)用場(chǎng)景中,多智能體也可以幫人們解決很多實(shí)際問題,例如搜索、推薦,甚至互聯(lián)網(wǎng)廣告,其本質(zhì)上是一個(gè)決策的過程,幫助用戶找到需要的內(nèi)容,而且這個(gè)內(nèi)容是符合用戶喜好的,“推薦給你看,其實(shí)就是個(gè)決策?!?。 多智能體的優(yōu)勢(shì)在于,可以很好地發(fā)揮其跨任務(wù)的能力。 事實(shí)上,早在2017年開始,汪軍和其學(xué)生張偉楠(上海交通大學(xué)教授)就開始了跨任務(wù)嘗試,在自然語言處理(NLP)中加入強(qiáng)化學(xué)習(xí)。 以往的自然語言處理使用 GAN 生成文字時(shí),由于詞索引與詞向量在轉(zhuǎn)換過程中的數(shù)據(jù)不連續(xù),經(jīng)常會(huì)導(dǎo)致微調(diào)參數(shù)不起作用;不僅如此,由于 GAN 的判別模型只對(duì)生成數(shù)據(jù)整體打分,但文字一般均為逐詞生成,難以控制細(xì)節(jié)。 為此,他們提出 SeqGAN 模型,通過在借鑒強(qiáng)化學(xué)習(xí)策略,解決了 GAN 應(yīng)用于離散數(shù)據(jù)的問題,這也是最早利用強(qiáng)化學(xué)習(xí)訓(xùn)練生成性語言模型的論文之一,實(shí)現(xiàn)了文本生成,在自然語言處理和信息檢索等不同領(lǐng)域具有廣泛的應(yīng)用。 論文地址:https:///pdf/1609.05473.pdf “強(qiáng)化學(xué)習(xí)和決策本質(zhì)上是相通的,通過強(qiáng)化學(xué)習(xí),可以解決一些決策問題?!痹谕糗娍磥?,決策是一個(gè)長(zhǎng)期研究的問題,多智能體決策大模型的提出,經(jīng)泛化后可在某些特定領(lǐng)域形成特有優(yōu)勢(shì),AI 中大部分問題均可借助決策大模型來解決。 2 AIGA 比 AIGC 更進(jìn)一步
ChatGPT 掀起的熱度還未過,3月15日,多模態(tài)預(yù)訓(xùn)練大模型 GPT-4 發(fā)布后,又一場(chǎng)顛覆性的變革呼嘯而至。 在這場(chǎng)關(guān)于通用人工智能的角逐中,ChatGPT、GPT-4 不是終點(diǎn),競(jìng)賽的關(guān)鍵聚焦在浪潮下更具價(jià)值的產(chǎn)業(yè)革命和創(chuàng)新中。 期間,汪軍也與關(guān)注市場(chǎng)資本的朋友保持密切溝通。 在汪軍看來,學(xué)術(shù)圈里面的問題有些不夠大膽、受資源約束,思考問題會(huì)受到一定因素的約束。而在工業(yè)界,決策大模型可以擁有更豐富的應(yīng)用場(chǎng)景,無論是在傳統(tǒng)產(chǎn)業(yè),互聯(lián)網(wǎng)搜索推薦,到工業(yè)互聯(lián)網(wǎng)等等,都需要各種各樣的決策。 帶著這樣的想法,汪軍開始考慮將決策大模型在產(chǎn)學(xué)研三棲結(jié)合的可能性。 經(jīng)過一年的籌備期,2022年4月上海數(shù)字大腦研究院正式創(chuàng)立,內(nèi)部孵化并成立 Enigma Tech(“謎題科技”),主要負(fù)責(zé)將數(shù)研院的科研成果面向產(chǎn)業(yè)落地,為數(shù)研院提供現(xiàn)實(shí)場(chǎng)景及真實(shí)業(yè)務(wù)數(shù)據(jù)。汪軍擔(dān)任數(shù)研院聯(lián)合創(chuàng)始人、院長(zhǎng),并出任謎題科技首席科學(xué)家。 當(dāng)大模型邁進(jìn)實(shí)際的應(yīng)用場(chǎng)景里,企業(yè)往往面臨著模型廣譜性不強(qiáng)、入局門檻高的兩大痛點(diǎn)。 經(jīng)典的機(jī)器學(xué)習(xí)方法采用的是定制化模式,企業(yè)下發(fā)任務(wù)后,先定義問題、收集數(shù)據(jù)訓(xùn)練、模型測(cè)試,二次任務(wù)下發(fā)后,模型需要再次收集定義問題、收集數(shù)據(jù)訓(xùn)練、模型測(cè)試,往往會(huì)導(dǎo)致企業(yè)在部署上就已經(jīng)損耗了極大的財(cái)力、人力資源,廣譜性不強(qiáng)。同時(shí),使用大模型對(duì)工程師的技術(shù)能力要求極高,需要具備一定的優(yōu)化經(jīng)驗(yàn),企業(yè)參與門檻高。 汪軍認(rèn)為,ChatGPT 結(jié)合決策大模型,可以有效解決低門檻、廣譜性的問題。 在這樣的思考下,汪軍領(lǐng)導(dǎo)謎題科技團(tuán)隊(duì)提出 DB 大模型(AIGA 方向大模型,AIGA:AI Generated Actions,決策生成),其首發(fā)的 DB1 為全球首個(gè)多模態(tài)決策大模型,對(duì)標(biāo) DeepMind 推出的 GATO,可全面支撐多智能體,能夠并發(fā)處理千個(gè)以上決策任務(wù)。 通過將 ChatGPT 與決策大模型的結(jié)合,ChatGPT 帶來的不能只是聊天,而是在 AIGC 的基礎(chǔ)上更進(jìn)一步探索 AIGA,讓模型的思考能力和決策能力應(yīng)用到具體場(chǎng)景中,所產(chǎn)生的交互通過跟具體場(chǎng)景的環(huán)境交互,小數(shù)據(jù)完成大任務(wù),可直接面向產(chǎn)業(yè)真實(shí)場(chǎng)景,借助大模型實(shí)現(xiàn)任務(wù)閉環(huán),實(shí)現(xiàn)機(jī)器人協(xié)作、設(shè)備動(dòng)態(tài)、企業(yè)自主化調(diào)度、軟件開發(fā)等更廣泛應(yīng)用。 進(jìn)而真正幫助企業(yè)和人們解決決策問題,將人類釋放到更具創(chuàng)造性的活動(dòng)中?!白罱K為整個(gè)人類的進(jìn)步帶來很大的促進(jìn)作用。在這個(gè)情況下,我們才能孕育出真正的 AGI(通用人工智能)?!?/p> 目前,數(shù)字大腦研究院的基本架構(gòu)已搭建完成,業(yè)務(wù)內(nèi)容從算法、系統(tǒng)到具體工程項(xiàng)目均有覆蓋,可應(yīng)用于推薦系統(tǒng)、故障預(yù)測(cè)、自動(dòng)駕駛、市場(chǎng)設(shè)計(jì)、游戲場(chǎng)景、EDA 優(yōu)化等多個(gè)場(chǎng)景,解決企業(yè)運(yùn)作過程中的實(shí)際問題。 走出實(shí)驗(yàn)室、成立數(shù)字大腦研究院,對(duì)汪軍而言,感受和狀態(tài)是截然不同的:研究不可能將所有因素放在一起考慮,要解決這個(gè)問題,首先其他東西得簡(jiǎn)化,把真正問題解決了再轉(zhuǎn)向下一個(gè);而一項(xiàng)研究的落地則更可能是多個(gè)問題的集合體,需要各個(gè)問題都一一擊破,并把解決問題的方法統(tǒng)一去應(yīng)用。 去年7月份,AI 科技評(píng)論曾有幸與汪軍院長(zhǎng)進(jìn)行了一場(chǎng)深入討論,彼時(shí)他對(duì)數(shù)研院的目標(biāo)是,推動(dòng)決策智能研究和 AI 研究,在中國(guó)做最好的、最基礎(chǔ)的研究。 而過去短短一年,Stable Diffusion、ChatGPT 和 GPT-4 等模型的出現(xiàn),讓汪軍驚喜地認(rèn)識(shí)到 AI 技術(shù)的革命性進(jìn)步,也令他對(duì)數(shù)研院有了更具象化的目標(biāo),將決策大模型應(yīng)用到具體場(chǎng)景中解決實(shí)際意義問題。 從學(xué)術(shù)界到工業(yè)界,數(shù)字大腦研究院的發(fā)展時(shí)間還不長(zhǎng),其雛形也映射出汪軍在人工智能路上探知求索的方向?!拔覀兙褪且咦约旱囊粭l路,怎么樣把產(chǎn)學(xué)研結(jié)合一起闖出條新路,問一些以前沒有問過的問題。” 3 對(duì)話汪軍
AI 科技評(píng)論:介紹一下數(shù)研院過去一年在多智能體決策大模型方面所做的工作和進(jìn)展。 汪軍:去年夏天我開始計(jì)劃一個(gè)新的課題,我們覺得大模型不只是在NLP、CV 里,它在決策中也有很大的作用,當(dāng)時(shí) DeepMind “GATO”的工作嘗試將各種各樣的任務(wù)放在一個(gè)大模型里面、Transform里面去進(jìn)行學(xué)習(xí),給到了我們啟發(fā),所以當(dāng)時(shí)就決定在它的基礎(chǔ)上往前探索,做了一個(gè)決策大模型,包括視頻、圖像的數(shù)據(jù),自然語言的數(shù)據(jù),機(jī)器人的數(shù)據(jù),甚至還加入求解器的數(shù)據(jù),例如怎樣做優(yōu)化任務(wù)、布置生產(chǎn)排期、對(duì)車輛進(jìn)行優(yōu)化等。我們做了一個(gè)10、15億左右參數(shù)的大模型,雖然是一個(gè)早期的探索,但也證明了在大模型里面不光只是自然語言處理,還能在決策起到明顯作用。 前段時(shí)間我們?cè)谧鲎闱蛴螒?,發(fā)現(xiàn)有個(gè)沒有攻克的問題:現(xiàn)在強(qiáng)化學(xué)習(xí)所存在的研究邏輯,AlphaGo、星際爭(zhēng)霸、Dota 等帶有游戲系統(tǒng)中,人越多,其決策空間也會(huì)更加復(fù)雜。 對(duì)此,我們以游戲場(chǎng)景的足球作為問題研究點(diǎn),在多智能體決策大模型中進(jìn)行了多次嘗試,從簡(jiǎn)單的2人足球,到5人、到11人。這個(gè)是比較大的、對(duì)強(qiáng)化學(xué)習(xí)有挑戰(zhàn)性的場(chǎng)景,目前問題本質(zhì)還沒有完全解決,或者說解決得很好,因此我們也花了很多時(shí)間在做這件事情,希望能做出一點(diǎn)成績(jī)。 AI 科技評(píng)論:ChatGPT 發(fā)布后,對(duì)數(shù)研院的研究帶來什么影響? 汪軍:我們一直重心在是決策上,現(xiàn)在也一直是。但 ChatGPT 出來后,我們對(duì)它的語言能力感覺到非常驚艷,完全超過我們的預(yù)期,對(duì)決策任務(wù)也起了一定的促進(jìn)作用。 在做決策優(yōu)化的過程中,需要解決兩大痛點(diǎn):廣譜性和低門檻。 決策大模型在一定程度上解決了模型的廣譜性問題,將新任務(wù)放置大模型內(nèi)進(jìn)行迭代、微調(diào),一個(gè)大模型可以應(yīng)對(duì)各種各樣的決策問題。 低門檻問題在做 AI 公司中普遍存在,在此之前,使用大模型對(duì)工程師的能力要求非常高,往往需要有優(yōu)化經(jīng)驗(yàn)的人參與到問題決策過程中,個(gè)人和企業(yè)參與的門檻非常高,也增加了 AI 的使用成本。 為了解決使用的低門檻問題,我們之前預(yù)想發(fā)明一個(gè)比較簡(jiǎn)單的語言,可以比自然語言要更復(fù)雜、嚴(yán)謹(jǐn)一點(diǎn),但比真正的編程簡(jiǎn)單些,任何人都可以使用,ChatGPT 的出現(xiàn),突然讓我們意識(shí)到,機(jī)器的自然語言可以達(dá)到一個(gè)正常跟人交流的水平,一下子就把低門檻的痛點(diǎn)解決了。對(duì)我們來說,這個(gè)改變帶來的觸動(dòng)是比較大的。 更有意思的是,ChatGPT 里具有一定的邏輯推理能力,可以幫助我們將一個(gè)復(fù)雜的問題分解為幾個(gè)子問題,這個(gè)子問題部分原本需要專業(yè)人士進(jìn)行人為分解,但通過 ChatGPT 對(duì)語義的理解,在得到范例的情況下可對(duì)問題分解成基礎(chǔ)的問題,再經(jīng)由決策大模型對(duì)基礎(chǔ)問題已有的決策能力,實(shí)現(xiàn)直接調(diào)用。 AI 科技評(píng)論:多智能體決策大模型涵蓋的領(lǐng)域很多,在數(shù)據(jù)這塊會(huì)有什么要求?把它跟 ChatGPT 進(jìn)行結(jié)合后,對(duì)某一領(lǐng)域的數(shù)據(jù)是否有特別的需求? 汪軍:它會(huì)有一些特定的要求。 自然語言的數(shù)據(jù)是離線的,屬于方法論上的學(xué)習(xí);而決策中需要很多產(chǎn)生數(shù)據(jù)的能力,需要一個(gè)仿真器。舉個(gè)例子,當(dāng)我們訓(xùn)練機(jī)械狗走路時(shí),我們不會(huì)讓它到雨天里或其他環(huán)境走一圈將數(shù)據(jù)采集回來,往往是先建一個(gè)跟外界非常像的仿真器,通過仿真器來產(chǎn)生數(shù)據(jù),模型學(xué)習(xí)完后再放到真實(shí)場(chǎng)景給予反饋,回來再進(jìn)行學(xué)習(xí),從而使得它可以很快將決策能力遷移到現(xiàn)實(shí)中應(yīng)用。大模型技術(shù)囊括各種各樣的場(chǎng)景,無論是下雨天、走臺(tái)階、走沙土都沒有任何問題。 第二個(gè)難點(diǎn)是,決策數(shù)據(jù)訓(xùn)練的難度比自然語言處理的難度要大,這個(gè)過程中在不斷產(chǎn)生數(shù)據(jù),數(shù)據(jù)產(chǎn)生的效率、產(chǎn)生在什么地方,如何分配到各個(gè)學(xué)習(xí)模塊里面進(jìn)行學(xué)習(xí),需要統(tǒng)一的系統(tǒng)層面解決方案,此前我們專門做了一套大規(guī)模的學(xué)習(xí)方法,主要應(yīng)用在這種強(qiáng)化學(xué)習(xí)訓(xùn)練的方法。但 ChatGPT 出來后,基于大預(yù)言模型的訓(xùn)練方法不太適用。 AI 科技評(píng)論:具體場(chǎng)景中,如何用 ChatGPT 跟決策大模型進(jìn)行結(jié)合? 汪軍:舉一個(gè)機(jī)械狗的案例:最早我們訓(xùn)練機(jī)械狗使用的是歸控的經(jīng)典方法,它的問題是在單一環(huán)境路況上走沒有問題,但遇到雨天、雪天就走不了,但當(dāng)我們加入了大模型方案后,機(jī)械狗開始具備基礎(chǔ)的交互能力,可以進(jìn)行推理。向機(jī)械狗下發(fā)一個(gè)送信的指令,模型會(huì)將任務(wù)自動(dòng)分解為1至5個(gè)基礎(chǔ)步驟,每個(gè)模塊在傳送中有對(duì)應(yīng)邏輯,例如從A點(diǎn)行至B點(diǎn)的路徑規(guī)劃。 由于機(jī)械狗自身并不具備往東走、往西走的概念,只有坐標(biāo),因此需要將交互指令與具體的語義結(jié)合、對(duì)應(yīng)起來,通過 ChatGPT 的方式,我們無需將指令轉(zhuǎn)化為編程語言,可直接進(jìn)行交互,機(jī)械狗在接收到問題后,會(huì)講指令分解成幾個(gè)不同的問題,先優(yōu)化一部分的 Chat,將動(dòng)作、決策和語義同 ChatGPT 產(chǎn)生自然語言對(duì)應(yīng)起來。 這樣成為了我們接下來研究的主要方向,我們將其稱為 AIGA(AI generate actions),前期 ChatGPT 帶來的是 AIGC,再結(jié)合決策大模型,從 generate content 更進(jìn)一步、變?yōu)?generate actions,生成決策。 數(shù)研院的長(zhǎng)處是在決策大模型,因此我們堅(jiān)持決策大模型的方向是不變的,要讓 AI 不只是交流,更重要的它是幫助你去優(yōu)化,幫助你去做決策,我們覺得它的價(jià)值非常大。ChatGPT 結(jié)合決策大模型后,所產(chǎn)生的交互不再僅限于它能回答問題,更在于它是否能理解復(fù)雜、構(gòu)建復(fù)雜,通過跟具體場(chǎng)景的環(huán)境交互,ChatGPT 跟決策大模型進(jìn)行結(jié)合,可實(shí)現(xiàn)機(jī)器人協(xié)作、設(shè)備動(dòng)態(tài)、企業(yè)自主化調(diào)度、軟件開發(fā)等更廣泛應(yīng)用。 AI 科技評(píng)論:在訓(xùn)練多模態(tài)數(shù)據(jù)之后,參數(shù)量到達(dá)多少會(huì)涌現(xiàn)更多的能力?文字,圖像,語音,視頻……哪一個(gè)模態(tài)對(duì)多模態(tài)模型的影響會(huì)更大? 汪軍:在數(shù)據(jù)方面,“大力出奇跡”這個(gè)事情有一定的極限,雖然目前這個(gè)極限我們還沒有完全看到,但是我覺得,我們不是只著眼于僅學(xué)習(xí) ChatGPT 的訓(xùn)練方式。 ChatGPT 的語言能力很強(qiáng)、對(duì)話能力很強(qiáng),但 ChatGPT 是否真正理解了它吸收的內(nèi)容?我認(rèn)為它是沒有理解的。讓它玩猜數(shù)字游戲,表面上它可以玩,但其實(shí)它是不知道、沒法猜到你心里的數(shù)字。ChatGPT 更多是在原有訓(xùn)練數(shù)據(jù)中對(duì)邏輯內(nèi)容的記憶,它的搭料能力很強(qiáng),但是它真正理解的能力很弱。 如何打破它的局限性?我認(rèn)為,我們需要在訓(xùn)練里加上模型對(duì)整個(gè)世界的理解,如果它本身不去建一個(gè)描述世界的數(shù)學(xué)模型,把它的理解放到世界模型中,它不會(huì)對(duì)周圍世界有更深層次的理解的。舉個(gè)簡(jiǎn)單的例子,我們給 ChatGPT 2000分以下的所有人類下棋能力的數(shù)據(jù),如果模型只模仿人,那么它無法模仿出比2000分更高的智能。 數(shù)據(jù)很重要,但與此同時(shí),模型的大小也很重要,要有不同的訓(xùn)練方法來提高它。 而在多模態(tài)中,自然語言是基礎(chǔ),人在思考時(shí),語言是我們的思維的載體,它構(gòu)架了一個(gè)相對(duì)清晰的邏輯描述,這個(gè)邏輯描述可能并不是百分百嚴(yán)謹(jǐn),存在不清晰、模糊的地方,但是它足夠讓我們?nèi)ケ磉_(dá)一些非常復(fù)雜的邏輯關(guān)系。 但與此同時(shí),我們也要清晰地認(rèn)識(shí)到,自然語言中隱含的語義信息和表達(dá)是非常重要的,也就是說,它可以能把這個(gè)問題表述得很清晰、但這是表象,最主要的是對(duì)話里面含載的語義關(guān)系,當(dāng)其他多模態(tài)來了之后,匹配上相應(yīng)的語義表達(dá),就可以遷移到其他的模態(tài)當(dāng)中。 在自然語言的基礎(chǔ)上,我們可以加入其他更多模態(tài)參與到模型當(dāng)中。 AI 科技評(píng)論:您如何看待“人類反饋”數(shù)據(jù)對(duì)多模態(tài)大模型或決策大模型的影響? 汪軍:需要一些人類反饋數(shù)據(jù),但它的量不像以前的監(jiān)督式學(xué)習(xí)需求量那么大,一個(gè)基礎(chǔ)模型只需要給它幾個(gè)示范,目的是導(dǎo)引基礎(chǔ)模型適應(yīng)新的任務(wù)場(chǎng)景,令基礎(chǔ)模型把原來的能力顯露出來。這是對(duì)經(jīng)典機(jī)器學(xué)習(xí)訓(xùn)練模式的革新。 以前的機(jī)器學(xué)習(xí),大部分 AI 企業(yè)采用的是定制化模式,任務(wù)來了先定義問題、收集數(shù)據(jù)訓(xùn)練、模型測(cè)試,第二個(gè)任務(wù)下發(fā)后、又再次收集定義問題、收集數(shù)據(jù)訓(xùn)練、模型測(cè)試,不僅難以復(fù)制,部署也會(huì)損耗極大的財(cái)力、人力資源。 ChatGPT 后的機(jī)器學(xué)習(xí)是大模型先行,我不需要知道具體的問題是什么,就可以先搭建模型,再分發(fā)至客戶或廠家,將模仿放置到某一個(gè)不具有訓(xùn)練大模型能力的公司,由公司去部署,再進(jìn)行定義,整體流程反過來了,其本質(zhì)是激活大模型應(yīng)用至特定任務(wù)中,再定義任務(wù)、輸出結(jié)果,極大地降低了“人類反饋”數(shù)據(jù)對(duì)模型的影響,真正實(shí)現(xiàn)廣譜性、低門檻的 AI。 AI 科技評(píng)論:有看法認(rèn)為,在 ChatGPT 這輪競(jìng)賽中,算力和模型不再如前兩個(gè)時(shí)期那么重要,而場(chǎng)景和數(shù)據(jù)將成為這一輪關(guān)鍵,您是怎么看的? 汪軍:模型很重要。當(dāng)前一些大模型語言能力的提升,會(huì)令人產(chǎn)生模型也具備理解人的能力,但這只是表象。僅靠幾個(gè)字來預(yù)測(cè)下一個(gè)單詞的基礎(chǔ)模型訓(xùn)練方法、難以產(chǎn)生更大智能的 AI,模型的思考能力和決策能力無法得到提升,而這兩者是作為人工智能體最基礎(chǔ)的能力,它需要知道怎樣去跟環(huán)境交互。 從這個(gè)模型角度來講,模型仍需要進(jìn)行革新,Transform 這個(gè)架構(gòu)很好,但并不代表就可以止步不前,我們?nèi)匀恍枰镄碌摹⒂袆?chuàng)造力的、能產(chǎn)生思考的神經(jīng)網(wǎng)絡(luò)模型出現(xiàn)。 算力、模型、數(shù)據(jù)、場(chǎng)景四者都很重要,當(dāng)數(shù)據(jù)和算力達(dá)到一定高度后、需要一個(gè)新的創(chuàng)新出現(xiàn),創(chuàng)新后再進(jìn)行數(shù)據(jù)和算力的變量累積,再達(dá)到一定的高度和進(jìn)行創(chuàng)新,這是一個(gè)螺旋上升的過程。 場(chǎng)景是目的,最終我們需要在場(chǎng)景中定義問題、解決問題,而不僅僅讓研究停留在學(xué)術(shù)層面。場(chǎng)景驅(qū)動(dòng)之后,再使用一個(gè)新的模型或方法,用數(shù)據(jù)和算力使它達(dá)到又一個(gè)極致。 ChatGPT 的廣譜性很強(qiáng),但并不代表它能夠解決所有的 AI 問題,我們應(yīng)該思考下一個(gè)場(chǎng)景的東西什么、能夠解決什么問題?問題的核心是,讓模型的思考能力和決策能力,真正能夠應(yīng)用到具體場(chǎng)景中,同時(shí)它要跟環(huán)境進(jìn)行交互,跟人、跟各種各樣的場(chǎng)景進(jìn)行交互,最終實(shí)現(xiàn)對(duì)整個(gè)能源產(chǎn)業(yè),整個(gè)人類的進(jìn)步帶來很大的促進(jìn)作用。 在這個(gè)情況下,我們才能孕育出真正的 AGI。這也是數(shù)研院的目標(biāo)。 |
|