小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

搜索

QQ空間 QQ好友新浪微博微信

ChatGPT 加持，決策大模型距離 AGI 更進(jìn)一步

小飛俠cawdbof0 2023-05-22 發(fā)布于北京

展開全文

來源：AI科技評(píng)論

作者：黃楠

過去短短不到一年里，ChatGPT、GPT-4 的相繼面世，不斷刷新人們對(duì) AI 的認(rèn)知。

新技術(shù)帶來變革，也引發(fā)了外界對(duì) AI 是否會(huì)取代人的討論，OpenAI 首席執(zhí)行官 Sam Altman 也公開表示，對(duì)人工智能技術(shù)的強(qiáng)大能力有些擔(dān)憂。

近日，倫敦大學(xué)學(xué)院（UCL）計(jì)算機(jī)系教授汪軍在接受 AI 科技評(píng)論采訪時(shí)坦言，雖然 ChatGPT 的語言能力、對(duì)話能力很強(qiáng)，但其并無法進(jìn)行系統(tǒng)性決策，例如機(jī)器控制、群體協(xié)作、動(dòng)態(tài)調(diào)度等，而這些是 AI 技術(shù)浪潮中更具革命性的部分。

汪軍，倫敦大學(xué)學(xué)院（UCL）計(jì)算機(jī)系教授，阿蘭·圖靈研究所 Turing Fellow。其主要研究智能信息系統(tǒng)，包括機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、多智能體，數(shù)據(jù)挖掘、計(jì)算廣告學(xué)、推薦系統(tǒng)等；谷歌學(xué)術(shù)被引用量超過1.6萬次，已發(fā)表學(xué)術(shù)論文120多篇，曾多次獲得最佳論文獎(jiǎng)。

汪軍

2022年4月，上海數(shù)字大腦研究院正式創(chuàng)立，內(nèi)部孵化并成立了 Enigma Tech（中文名“謎題科技”）,汪軍擔(dān)任上海數(shù)字大腦研究院聯(lián)合創(chuàng)始人、院長(zhǎng)，并出任謎題科技首席科學(xué)家；下半年，數(shù)研院研發(fā)出全球第一個(gè)多智能體決策大模型，該大模型集合 CV、NLP、強(qiáng)化學(xué)習(xí)和多智能體，致力于幫助企業(yè)解決多場(chǎng)景決策問題。

汪軍認(rèn)為，ChatGPT 的出現(xiàn)，解決了以往大模型訓(xùn)練中如何降低門檻的難題，通過將自然語言處理與決策大模型的結(jié)合，ChatGPT 帶來的不能只是聊天，而是在 AIGC（AI Generated Content，內(nèi)容生產(chǎn)）的基礎(chǔ)上更進(jìn)一步探索 AIGA（AI Generated Actions，決策生成），讓模型的思考能力和決策能力應(yīng)用到具體場(chǎng)景中，真正實(shí)現(xiàn)幫助企業(yè)和人們解決決策問題，將人類釋放到更具創(chuàng)造性的活動(dòng)中。

1 在多智能體中通向“智能”

AI 智能探索的進(jìn)程中，脫離不開對(duì)定義問題的終極追求。

汪軍將通往智能的路徑分為兩步。第一步，需要先明確生物系統(tǒng)（Living System，人歸屬于生物系統(tǒng)）和非生物系統(tǒng)的差別。

2013年，生物物理學(xué)家 Jeremy England 提出一個(gè)開創(chuàng)性“耗散適應(yīng)”理論（dissipation-driven adaptation），將生命起源歸結(jié)于熱力學(xué)的必然結(jié)果，無分子系統(tǒng)在一定條件下通過化學(xué)反應(yīng)代謝消耗能量，以促進(jìn)能量持續(xù)消耗及“熵”的增加。

在熵增熵減理論中，生命體從無序變成有序的過程持續(xù)吸收能量不斷熵減，汪軍認(rèn)為，AI 從人產(chǎn)生，因此也是吸收能量幫助人完成熵減的使命，解決基礎(chǔ)問題的關(guān)鍵點(diǎn)在于如何定義智能，明確 AI 需要吸收多少能量才能達(dá)到一定的智能。

使用 AI 做圖像分類識(shí)別時(shí)，分類算法其準(zhǔn)確率可達(dá)到98%。通過分類，AI幫助我們可以將處于無序狀態(tài)的圖像內(nèi)容組織轉(zhuǎn)變?yōu)橛行颉⒂幸?guī)律可循的圖像，系統(tǒng)中不確定性減小，產(chǎn)生熵減。熵減也需要計(jì)算，形成算法的算力多少，算力即是消耗能量的一種體現(xiàn)。

通往智能的第二步，汪軍認(rèn)為，是分辨生物系統(tǒng)、所謂的 AI 系統(tǒng)的意識(shí)問題。當(dāng)前，人工智能作為工具存在，算法只能判別 AI 工作的優(yōu)良程度，機(jī)器本身并不存在思考，如何使機(jī)器最終達(dá)到與人相等的思考能力，需要先理解人類大腦的各種現(xiàn)象，并增加對(duì) AI 意識(shí)的關(guān)注。

在汪軍看來，意識(shí)是智能的一個(gè)重要表現(xiàn)，哺乳動(dòng)物可以察覺意識(shí)、感知意識(shí)并形成主觀感受；同時(shí)，當(dāng)多個(gè)個(gè)體與環(huán)境交互時(shí)，必須存在除單個(gè)個(gè)體外、另一有意識(shí)個(gè)體與環(huán)境發(fā)生影響、產(chǎn)生共鳴，從而使主觀感受得以表達(dá)。

對(duì)此，汪軍和團(tuán)隊(duì)提出，在 AI 研究中，必須有多智能體（Multi-Agent）的相互作用來引發(fā)意識(shí)。

以大模型為例，跨任務(wù)是人為定義的，只局限在給定一個(gè)特定任務(wù)，把算法設(shè)計(jì)好讓機(jī)器去跑，難以產(chǎn)生更大智能的 AI，模型的思考能力和決策能力也無法得到提升。

汪軍告訴 AI 科技評(píng)論，“在同時(shí)推進(jìn)多個(gè)事情時(shí)，需要大的思想來指導(dǎo)。如果沒有，顯然還缺乏一個(gè)內(nèi)在的規(guī)律?！边@個(gè)規(guī)律，正是機(jī)器模型通往更大“智能”的關(guān)鍵路徑。

2022年5月，DeepMind 發(fā)布集合 CV 和 NLP 的通用智能體“GATO”，它可以玩雅達(dá)利游戲、輸出圖片字幕、用機(jī)械臂堆疊積木、跟人聊天等等，還能根據(jù)上下文決定是否輸出文本、關(guān)節(jié)力矩、按鈕按壓或其他 token（逐詞），這項(xiàng)工作在當(dāng)時(shí)引起了不小的討論。汪軍也是關(guān)注者之一。

事實(shí)上，從2021年開始，汪軍和團(tuán)隊(duì)就開始思考創(chuàng)建一個(gè)可實(shí)現(xiàn)跨任務(wù)，將 CV、NLP、強(qiáng)化學(xué)習(xí)和多智能體四者嵌套為一個(gè)統(tǒng)一體決策模型的可能性。“GATO”的出現(xiàn)讓汪軍看到大模型廣闊的可探索空間，“這足以證明，一個(gè)模型解決多個(gè)領(lǐng)域任務(wù)是大勢(shì)所趨?！?/p>

決策大模型并不能單純從模型大小意義出發(fā)，究其本質(zhì)，是在數(shù)據(jù)集中通過強(qiáng)化學(xué)習(xí)與環(huán)境不斷交互所達(dá)到的一定的認(rèn)知水平，如何攻破這個(gè)問題？當(dāng)中最大的技術(shù)點(diǎn)就在于，降低強(qiáng)化學(xué)習(xí)和環(huán)境交互的復(fù)雜度。

原有數(shù)據(jù)在這一環(huán)節(jié)中起到關(guān)鍵性作用。

通過對(duì)其他任務(wù)或算法同環(huán)境交互產(chǎn)生的原有數(shù)據(jù)訓(xùn)練，搭建一個(gè)預(yù)訓(xùn)練模型，這一模型在面對(duì)新任務(wù)時(shí)即可迅速在進(jìn)行應(yīng)用，從而實(shí)現(xiàn)規(guī)律、關(guān)系和數(shù)據(jù)的價(jià)值最大化。而伴隨預(yù)訓(xùn)練數(shù)據(jù)集的不斷擴(kuò)大，模型也隨之變大，直至它可覆蓋的所有任務(wù)。

最終結(jié)果是，解決問題的方法聚攏，多個(gè)方向匯聚、統(tǒng)一為一個(gè)可預(yù)約、可跨任務(wù)泛化的多智能體。多智能體往往需要考慮平衡關(guān)系，即在達(dá)到自我目標(biāo)的同時(shí)，使對(duì)方也能達(dá)到它的目標(biāo)，互相牽制從而保持一個(gè)穩(wěn)定的平衡。

進(jìn)入實(shí)際應(yīng)用場(chǎng)景中，多智能體也可以幫人們解決很多實(shí)際問題，例如搜索、推薦，甚至互聯(lián)網(wǎng)廣告，其本質(zhì)上是一個(gè)決策的過程，幫助用戶找到需要的內(nèi)容，而且這個(gè)內(nèi)容是符合用戶喜好的，“推薦給你看，其實(shí)就是個(gè)決策?！?。

多智能體的優(yōu)勢(shì)在于，可以很好地發(fā)揮其跨任務(wù)的能力。

事實(shí)上，早在2017年開始，汪軍和其學(xué)生張偉楠（上海交通大學(xué)教授）就開始了跨任務(wù)嘗試，在自然語言處理（NLP）中加入強(qiáng)化學(xué)習(xí)。

以往的自然語言處理使用 GAN 生成文字時(shí)，由于詞索引與詞向量在轉(zhuǎn)換過程中的數(shù)據(jù)不連續(xù)，經(jīng)常會(huì)導(dǎo)致微調(diào)參數(shù)不起作用；不僅如此，由于 GAN 的判別模型只對(duì)生成數(shù)據(jù)整體打分，但文字一般均為逐詞生成，難以控制細(xì)節(jié)。

為此，他們提出 SeqGAN 模型，通過在借鑒強(qiáng)化學(xué)習(xí)策略，解決了 GAN 應(yīng)用于離散數(shù)據(jù)的問題，這也是最早利用強(qiáng)化學(xué)習(xí)訓(xùn)練生成性語言模型的論文之一，實(shí)現(xiàn)了文本生成，在自然語言處理和信息檢索等不同領(lǐng)域具有廣泛的應(yīng)用。

論文地址：https:///pdf/1609.05473.pdf

“強(qiáng)化學(xué)習(xí)和決策本質(zhì)上是相通的，通過強(qiáng)化學(xué)習(xí)，可以解決一些決策問題?！痹谕糗娍磥?，決策是一個(gè)長(zhǎng)期研究的問題，多智能體決策大模型的提出，經(jīng)泛化后可在某些特定領(lǐng)域形成特有優(yōu)勢(shì)，AI 中大部分問題均可借助決策大模型來解決。

2 AIGA 比 AIGC 更進(jìn)一步

ChatGPT 掀起的熱度還未過，3月15日，多模態(tài)預(yù)訓(xùn)練大模型 GPT-4 發(fā)布后，又一場(chǎng)顛覆性的變革呼嘯而至。

在這場(chǎng)關(guān)于通用人工智能的角逐中，ChatGPT、GPT-4 不是終點(diǎn)，競(jìng)賽的關(guān)鍵聚焦在浪潮下更具價(jià)值的產(chǎn)業(yè)革命和創(chuàng)新中。

期間，汪軍也與關(guān)注市場(chǎng)資本的朋友保持密切溝通。

在汪軍看來，學(xué)術(shù)圈里面的問題有些不夠大膽、受資源約束，思考問題會(huì)受到一定因素的約束。而在工業(yè)界，決策大模型可以擁有更豐富的應(yīng)用場(chǎng)景，無論是在傳統(tǒng)產(chǎn)業(yè)，互聯(lián)網(wǎng)搜索推薦，到工業(yè)互聯(lián)網(wǎng)等等，都需要各種各樣的決策。

帶著這樣的想法，汪軍開始考慮將決策大模型在產(chǎn)學(xué)研三棲結(jié)合的可能性。

經(jīng)過一年的籌備期，2022年4月上海數(shù)字大腦研究院正式創(chuàng)立，內(nèi)部孵化并成立 Enigma Tech（“謎題科技”），主要負(fù)責(zé)將數(shù)研院的科研成果面向產(chǎn)業(yè)落地，為數(shù)研院提供現(xiàn)實(shí)場(chǎng)景及真實(shí)業(yè)務(wù)數(shù)據(jù)。汪軍擔(dān)任數(shù)研院聯(lián)合創(chuàng)始人、院長(zhǎng)，并出任謎題科技首席科學(xué)家。

當(dāng)大模型邁進(jìn)實(shí)際的應(yīng)用場(chǎng)景里，企業(yè)往往面臨著模型廣譜性不強(qiáng)、入局門檻高的兩大痛點(diǎn)。

經(jīng)典的機(jī)器學(xué)習(xí)方法采用的是定制化模式，企業(yè)下發(fā)任務(wù)后，先定義問題、收集數(shù)據(jù)訓(xùn)練、模型測(cè)試，二次任務(wù)下發(fā)后，模型需要再次收集定義問題、收集數(shù)據(jù)訓(xùn)練、模型測(cè)試，往往會(huì)導(dǎo)致企業(yè)在部署上就已經(jīng)損耗了極大的財(cái)力、人力資源，廣譜性不強(qiáng)。同時(shí)，使用大模型對(duì)工程師的技術(shù)能力要求極高，需要具備一定的優(yōu)化經(jīng)驗(yàn)，企業(yè)參與門檻高。

汪軍認(rèn)為，ChatGPT 結(jié)合決策大模型，可以有效解決低門檻、廣譜性的問題。

在這樣的思考下，汪軍領(lǐng)導(dǎo)謎題科技團(tuán)隊(duì)提出 DB 大模型（AIGA 方向大模型，AIGA：AI Generated Actions，決策生成），其首發(fā)的 DB1 為全球首個(gè)多模態(tài)決策大模型，對(duì)標(biāo) DeepMind 推出的 GATO，可全面支撐多智能體，能夠并發(fā)處理千個(gè)以上決策任務(wù)。

DB1 在車輛協(xié)同任務(wù)中的表現(xiàn)

通過將 ChatGPT 與決策大模型的結(jié)合，ChatGPT 帶來的不能只是聊天，而是在 AIGC 的基礎(chǔ)上更進(jìn)一步探索 AIGA，讓模型的思考能力和決策能力應(yīng)用到具體場(chǎng)景中，所產(chǎn)生的交互通過跟具體場(chǎng)景的環(huán)境交互，小數(shù)據(jù)完成大任務(wù)，可直接面向產(chǎn)業(yè)真實(shí)場(chǎng)景，借助大模型實(shí)現(xiàn)任務(wù)閉環(huán)，實(shí)現(xiàn)機(jī)器人協(xié)作、設(shè)備動(dòng)態(tài)、企業(yè)自主化調(diào)度、軟件開發(fā)等更廣泛應(yīng)用。

進(jìn)而真正幫助企業(yè)和人們解決決策問題，將人類釋放到更具創(chuàng)造性的活動(dòng)中?！白罱K為整個(gè)人類的進(jìn)步帶來很大的促進(jìn)作用。在這個(gè)情況下，我們才能孕育出真正的 AGI（通用人工智能）?！?/p>

目前，數(shù)字大腦研究院的基本架構(gòu)已搭建完成，業(yè)務(wù)內(nèi)容從算法、系統(tǒng)到具體工程項(xiàng)目均有覆蓋，可應(yīng)用于推薦系統(tǒng)、故障預(yù)測(cè)、自動(dòng)駕駛、市場(chǎng)設(shè)計(jì)、游戲場(chǎng)景、EDA 優(yōu)化等多個(gè)場(chǎng)景，解決企業(yè)運(yùn)作過程中的實(shí)際問題。

走出實(shí)驗(yàn)室、成立數(shù)字大腦研究院，對(duì)汪軍而言，感受和狀態(tài)是截然不同的：研究不可能將所有因素放在一起考慮，要解決這個(gè)問題，首先其他東西得簡(jiǎn)化，把真正問題解決了再轉(zhuǎn)向下一個(gè)；而一項(xiàng)研究的落地則更可能是多個(gè)問題的集合體，需要各個(gè)問題都一一擊破，并把解決問題的方法統(tǒng)一去應(yīng)用。

去年7月份，AI 科技評(píng)論曾有幸與汪軍院長(zhǎng)進(jìn)行了一場(chǎng)深入討論，彼時(shí)他對(duì)數(shù)研院的目標(biāo)是，推動(dòng)決策智能研究和 AI 研究，在中國(guó)做最好的、最基礎(chǔ)的研究。

而過去短短一年，Stable Diffusion、ChatGPT 和 GPT-4 等模型的出現(xiàn)，讓汪軍驚喜地認(rèn)識(shí)到 AI 技術(shù)的革命性進(jìn)步，也令他對(duì)數(shù)研院有了更具象化的目標(biāo)，將決策大模型應(yīng)用到具體場(chǎng)景中解決實(shí)際意義問題。

從學(xué)術(shù)界到工業(yè)界，數(shù)字大腦研究院的發(fā)展時(shí)間還不長(zhǎng)，其雛形也映射出汪軍在人工智能路上探知求索的方向?！拔覀兙褪且咦约旱囊粭l路，怎么樣把產(chǎn)學(xué)研結(jié)合一起闖出條新路，問一些以前沒有問過的問題。”

3 對(duì)話汪軍

數(shù)研院落地決策大模型

AI 科技評(píng)論：介紹一下數(shù)研院過去一年在多智能體決策大模型方面所做的工作和進(jìn)展。

汪軍：去年夏天我開始計(jì)劃一個(gè)新的課題，我們覺得大模型不只是在NLP、CV 里，它在決策中也有很大的作用，當(dāng)時(shí) DeepMind “GATO”的工作嘗試將各種各樣的任務(wù)放在一個(gè)大模型里面、Transform里面去進(jìn)行學(xué)習(xí)，給到了我們啟發(fā)，所以當(dāng)時(shí)就決定在它的基礎(chǔ)上往前探索，做了一個(gè)決策大模型，包括視頻、圖像的數(shù)據(jù)，自然語言的數(shù)據(jù)，機(jī)器人的數(shù)據(jù)，甚至還加入求解器的數(shù)據(jù)，例如怎樣做優(yōu)化任務(wù)、布置生產(chǎn)排期、對(duì)車輛進(jìn)行優(yōu)化等。我們做了一個(gè)10、15億左右參數(shù)的大模型，雖然是一個(gè)早期的探索，但也證明了在大模型里面不光只是自然語言處理，還能在決策起到明顯作用。

前段時(shí)間我們?cè)谧鲎闱蛴螒?，發(fā)現(xiàn)有個(gè)沒有攻克的問題：現(xiàn)在強(qiáng)化學(xué)習(xí)所存在的研究邏輯，AlphaGo、星際爭(zhēng)霸、Dota 等帶有游戲系統(tǒng)中，人越多，其決策空間也會(huì)更加復(fù)雜。

對(duì)此，我們以游戲場(chǎng)景的足球作為問題研究點(diǎn)，在多智能體決策大模型中進(jìn)行了多次嘗試，從簡(jiǎn)單的2人足球，到5人、到11人。這個(gè)是比較大的、對(duì)強(qiáng)化學(xué)習(xí)有挑戰(zhàn)性的場(chǎng)景，目前問題本質(zhì)還沒有完全解決，或者說解決得很好，因此我們也花了很多時(shí)間在做這件事情，希望能做出一點(diǎn)成績(jī)。

AI 科技評(píng)論：ChatGPT 發(fā)布后，對(duì)數(shù)研院的研究帶來什么影響？

汪軍：我們一直重心在是決策上，現(xiàn)在也一直是。但 ChatGPT 出來后，我們對(duì)它的語言能力感覺到非常驚艷，完全超過我們的預(yù)期，對(duì)決策任務(wù)也起了一定的促進(jìn)作用。

在做決策優(yōu)化的過程中，需要解決兩大痛點(diǎn)：廣譜性和低門檻。

決策大模型在一定程度上解決了模型的廣譜性問題，將新任務(wù)放置大模型內(nèi)進(jìn)行迭代、微調(diào)，一個(gè)大模型可以應(yīng)對(duì)各種各樣的決策問題。

低門檻問題在做 AI 公司中普遍存在，在此之前，使用大模型對(duì)工程師的能力要求非常高，往往需要有優(yōu)化經(jīng)驗(yàn)的人參與到問題決策過程中，個(gè)人和企業(yè)參與的門檻非常高，也增加了 AI 的使用成本。

為了解決使用的低門檻問題，我們之前預(yù)想發(fā)明一個(gè)比較簡(jiǎn)單的語言，可以比自然語言要更復(fù)雜、嚴(yán)謹(jǐn)一點(diǎn)，但比真正的編程簡(jiǎn)單些，任何人都可以使用，ChatGPT 的出現(xiàn)，突然讓我們意識(shí)到，機(jī)器的自然語言可以達(dá)到一個(gè)正常跟人交流的水平，一下子就把低門檻的痛點(diǎn)解決了。對(duì)我們來說，這個(gè)改變帶來的觸動(dòng)是比較大的。

更有意思的是，ChatGPT 里具有一定的邏輯推理能力，可以幫助我們將一個(gè)復(fù)雜的問題分解為幾個(gè)子問題，這個(gè)子問題部分原本需要專業(yè)人士進(jìn)行人為分解，但通過 ChatGPT 對(duì)語義的理解，在得到范例的情況下可對(duì)問題分解成基礎(chǔ)的問題，再經(jīng)由決策大模型對(duì)基礎(chǔ)問題已有的決策能力，實(shí)現(xiàn)直接調(diào)用。

ChatGPT 降低決策門檻

AI 科技評(píng)論：多智能體決策大模型涵蓋的領(lǐng)域很多，在數(shù)據(jù)這塊會(huì)有什么要求？把它跟 ChatGPT 進(jìn)行結(jié)合后，對(duì)某一領(lǐng)域的數(shù)據(jù)是否有特別的需求？

汪軍：它會(huì)有一些特定的要求。

自然語言的數(shù)據(jù)是離線的，屬于方法論上的學(xué)習(xí)；而決策中需要很多產(chǎn)生數(shù)據(jù)的能力，需要一個(gè)仿真器。舉個(gè)例子，當(dāng)我們訓(xùn)練機(jī)械狗走路時(shí)，我們不會(huì)讓它到雨天里或其他環(huán)境走一圈將數(shù)據(jù)采集回來，往往是先建一個(gè)跟外界非常像的仿真器，通過仿真器來產(chǎn)生數(shù)據(jù)，模型學(xué)習(xí)完后再放到真實(shí)場(chǎng)景給予反饋，回來再進(jìn)行學(xué)習(xí)，從而使得它可以很快將決策能力遷移到現(xiàn)實(shí)中應(yīng)用。大模型技術(shù)囊括各種各樣的場(chǎng)景，無論是下雨天、走臺(tái)階、走沙土都沒有任何問題。

機(jī)械狗在不同環(huán)境中行走

第二個(gè)難點(diǎn)是，決策數(shù)據(jù)訓(xùn)練的難度比自然語言處理的難度要大，這個(gè)過程中在不斷產(chǎn)生數(shù)據(jù)，數(shù)據(jù)產(chǎn)生的效率、產(chǎn)生在什么地方，如何分配到各個(gè)學(xué)習(xí)模塊里面進(jìn)行學(xué)習(xí)，需要統(tǒng)一的系統(tǒng)層面解決方案，此前我們專門做了一套大規(guī)模的學(xué)習(xí)方法，主要應(yīng)用在這種強(qiáng)化學(xué)習(xí)訓(xùn)練的方法。但 ChatGPT 出來后，基于大預(yù)言模型的訓(xùn)練方法不太適用。

AI 科技評(píng)論：具體場(chǎng)景中，如何用 ChatGPT 跟決策大模型進(jìn)行結(jié)合？

汪軍：舉一個(gè)機(jī)械狗的案例：最早我們訓(xùn)練機(jī)械狗使用的是歸控的經(jīng)典方法，它的問題是在單一環(huán)境路況上走沒有問題，但遇到雨天、雪天就走不了，但當(dāng)我們加入了大模型方案后，機(jī)械狗開始具備基礎(chǔ)的交互能力，可以進(jìn)行推理。向機(jī)械狗下發(fā)一個(gè)送信的指令，模型會(huì)將任務(wù)自動(dòng)分解為1至5個(gè)基礎(chǔ)步驟，每個(gè)模塊在傳送中有對(duì)應(yīng)邏輯，例如從A點(diǎn)行至B點(diǎn)的路徑規(guī)劃。

由于機(jī)械狗自身并不具備往東走、往西走的概念，只有坐標(biāo)，因此需要將交互指令與具體的語義結(jié)合、對(duì)應(yīng)起來，通過 ChatGPT 的方式，我們無需將指令轉(zhuǎn)化為編程語言，可直接進(jìn)行交互，機(jī)械狗在接收到問題后，會(huì)講指令分解成幾個(gè)不同的問題，先優(yōu)化一部分的 Chat，將動(dòng)作、決策和語義同 ChatGPT 產(chǎn)生自然語言對(duì)應(yīng)起來。

這樣成為了我們接下來研究的主要方向，我們將其稱為 AIGA（AI generate actions），前期 ChatGPT 帶來的是 AIGC，再結(jié)合決策大模型，從 generate content 更進(jìn)一步、變?yōu)?generate actions，生成決策。

數(shù)研院的長(zhǎng)處是在決策大模型，因此我們堅(jiān)持決策大模型的方向是不變的，要讓 AI 不只是交流，更重要的它是幫助你去優(yōu)化，幫助你去做決策，我們覺得它的價(jià)值非常大。ChatGPT 結(jié)合決策大模型后，所產(chǎn)生的交互不再僅限于它能回答問題，更在于它是否能理解復(fù)雜、構(gòu)建復(fù)雜，通過跟具體場(chǎng)景的環(huán)境交互，ChatGPT 跟決策大模型進(jìn)行結(jié)合，可實(shí)現(xiàn)機(jī)器人協(xié)作、設(shè)備動(dòng)態(tài)、企業(yè)自主化調(diào)度、軟件開發(fā)等更廣泛應(yīng)用。

自然語言是基礎(chǔ)

AI 科技評(píng)論：在訓(xùn)練多模態(tài)數(shù)據(jù)之后，參數(shù)量到達(dá)多少會(huì)涌現(xiàn)更多的能力?文字，圖像，語音，視頻……哪一個(gè)模態(tài)對(duì)多模態(tài)模型的影響會(huì)更大？

汪軍：在數(shù)據(jù)方面，“大力出奇跡”這個(gè)事情有一定的極限，雖然目前這個(gè)極限我們還沒有完全看到，但是我覺得，我們不是只著眼于僅學(xué)習(xí) ChatGPT 的訓(xùn)練方式。

ChatGPT 的語言能力很強(qiáng)、對(duì)話能力很強(qiáng)，但 ChatGPT 是否真正理解了它吸收的內(nèi)容？我認(rèn)為它是沒有理解的。讓它玩猜數(shù)字游戲，表面上它可以玩，但其實(shí)它是不知道、沒法猜到你心里的數(shù)字。ChatGPT 更多是在原有訓(xùn)練數(shù)據(jù)中對(duì)邏輯內(nèi)容的記憶，它的搭料能力很強(qiáng)，但是它真正理解的能力很弱。

如何打破它的局限性？我認(rèn)為，我們需要在訓(xùn)練里加上模型對(duì)整個(gè)世界的理解，如果它本身不去建一個(gè)描述世界的數(shù)學(xué)模型，把它的理解放到世界模型中，它不會(huì)對(duì)周圍世界有更深層次的理解的。舉個(gè)簡(jiǎn)單的例子，我們給 ChatGPT 2000分以下的所有人類下棋能力的數(shù)據(jù)，如果模型只模仿人，那么它無法模仿出比2000分更高的智能。

汪軍團(tuán)隊(duì)此前所做的 AI 創(chuàng)作助手

數(shù)據(jù)很重要，但與此同時(shí)，模型的大小也很重要，要有不同的訓(xùn)練方法來提高它。

而在多模態(tài)中，自然語言是基礎(chǔ)，人在思考時(shí)，語言是我們的思維的載體，它構(gòu)架了一個(gè)相對(duì)清晰的邏輯描述，這個(gè)邏輯描述可能并不是百分百嚴(yán)謹(jǐn)，存在不清晰、模糊的地方，但是它足夠讓我們?nèi)ケ磉_(dá)一些非常復(fù)雜的邏輯關(guān)系。

但與此同時(shí)，我們也要清晰地認(rèn)識(shí)到，自然語言中隱含的語義信息和表達(dá)是非常重要的，也就是說，它可以能把這個(gè)問題表述得很清晰、但這是表象，最主要的是對(duì)話里面含載的語義關(guān)系，當(dāng)其他多模態(tài)來了之后，匹配上相應(yīng)的語義表達(dá)，就可以遷移到其他的模態(tài)當(dāng)中。

在自然語言的基礎(chǔ)上，我們可以加入其他更多模態(tài)參與到模型當(dāng)中。

AI 科技評(píng)論：您如何看待“人類反饋”數(shù)據(jù)對(duì)多模態(tài)大模型或決策大模型的影響？

汪軍：需要一些人類反饋數(shù)據(jù)，但它的量不像以前的監(jiān)督式學(xué)習(xí)需求量那么大，一個(gè)基礎(chǔ)模型只需要給它幾個(gè)示范，目的是導(dǎo)引基礎(chǔ)模型適應(yīng)新的任務(wù)場(chǎng)景，令基礎(chǔ)模型把原來的能力顯露出來。這是對(duì)經(jīng)典機(jī)器學(xué)習(xí)訓(xùn)練模式的革新。

以前的機(jī)器學(xué)習(xí)，大部分 AI 企業(yè)采用的是定制化模式，任務(wù)來了先定義問題、收集數(shù)據(jù)訓(xùn)練、模型測(cè)試，第二個(gè)任務(wù)下發(fā)后、又再次收集定義問題、收集數(shù)據(jù)訓(xùn)練、模型測(cè)試，不僅難以復(fù)制，部署也會(huì)損耗極大的財(cái)力、人力資源。

ChatGPT 后的機(jī)器學(xué)習(xí)是大模型先行，我不需要知道具體的問題是什么，就可以先搭建模型，再分發(fā)至客戶或廠家，將模仿放置到某一個(gè)不具有訓(xùn)練大模型能力的公司，由公司去部署，再進(jìn)行定義，整體流程反過來了，其本質(zhì)是激活大模型應(yīng)用至特定任務(wù)中，再定義任務(wù)、輸出結(jié)果，極大地降低了“人類反饋”數(shù)據(jù)對(duì)模型的影響，真正實(shí)現(xiàn)廣譜性、低門檻的 AI。

AI 科技評(píng)論：有看法認(rèn)為，在 ChatGPT 這輪競(jìng)賽中，算力和模型不再如前兩個(gè)時(shí)期那么重要，而場(chǎng)景和數(shù)據(jù)將成為這一輪關(guān)鍵，您是怎么看的？

汪軍：模型很重要。當(dāng)前一些大模型語言能力的提升，會(huì)令人產(chǎn)生模型也具備理解人的能力，但這只是表象。僅靠幾個(gè)字來預(yù)測(cè)下一個(gè)單詞的基礎(chǔ)模型訓(xùn)練方法、難以產(chǎn)生更大智能的 AI，模型的思考能力和決策能力無法得到提升，而這兩者是作為人工智能體最基礎(chǔ)的能力，它需要知道怎樣去跟環(huán)境交互。

從這個(gè)模型角度來講，模型仍需要進(jìn)行革新，Transform 這個(gè)架構(gòu)很好，但并不代表就可以止步不前，我們?nèi)匀恍枰镄碌摹⒂袆?chuàng)造力的、能產(chǎn)生思考的神經(jīng)網(wǎng)絡(luò)模型出現(xiàn)。

算力、模型、數(shù)據(jù)、場(chǎng)景四者都很重要，當(dāng)數(shù)據(jù)和算力達(dá)到一定高度后、需要一個(gè)新的創(chuàng)新出現(xiàn)，創(chuàng)新后再進(jìn)行數(shù)據(jù)和算力的變量累積，再達(dá)到一定的高度和進(jìn)行創(chuàng)新，這是一個(gè)螺旋上升的過程。

場(chǎng)景是目的，最終我們需要在場(chǎng)景中定義問題、解決問題，而不僅僅讓研究停留在學(xué)術(shù)層面。場(chǎng)景驅(qū)動(dòng)之后，再使用一個(gè)新的模型或方法，用數(shù)據(jù)和算力使它達(dá)到又一個(gè)極致。

ChatGPT 的廣譜性很強(qiáng)，但并不代表它能夠解決所有的 AI 問題，我們應(yīng)該思考下一個(gè)場(chǎng)景的東西什么、能夠解決什么問題？問題的核心是，讓模型的思考能力和決策能力，真正能夠應(yīng)用到具體場(chǎng)景中，同時(shí)它要跟環(huán)境進(jìn)行交互，跟人、跟各種各樣的場(chǎng)景進(jìn)行交互，最終實(shí)現(xiàn)對(duì)整個(gè)能源產(chǎn)業(yè)，整個(gè)人類的進(jìn)步帶來很大的促進(jìn)作用。

在這個(gè)情況下，我們才能孕育出真正的 AGI。這也是數(shù)研院的目標(biāo)。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：小飛俠cawdbof0 > 《智能》

舉報(bào)/認(rèn)領(lǐng)