小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

一文讀懂未來(lái)趨勢(shì)AI Agent:人工智能代理

 卡布卡讓 2024-03-13 發(fā)布于廣東

2024年以來(lái),AI Agent多次被提起。

近日,OpenAI 的聯(lián)合創(chuàng)始人、特斯拉自動(dòng)駕駛 AI 部門(mén)的前負(fù)責(zé)人安德烈·卡爾帕西(Andrej Karpathy)分享了他對(duì) AI Agent 的潛力和未來(lái)挑戰(zhàn)的見(jiàn)解。在他看來(lái),AI Agent 的吸引力在于 OpenAI 和 DeFi 等機(jī)構(gòu)尚未處在技術(shù)的前沿,市場(chǎng)里的其他玩家有著趕超的機(jī)會(huì)。雖然 OpenAI 在大模型上比別人快一步,但在 AI Agent 領(lǐng)域,當(dāng)下研究都處在同一條起跑線(xiàn)上。

01 什么是 AI Agent?

概括來(lái)說(shuō),AI Agent(人工智能代理)是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動(dòng)作的智能實(shí)體。

不同于傳統(tǒng)的人工智能,AI Agent 具備通過(guò)獨(dú)立思考、調(diào)用工具去逐步完成給定目標(biāo)的能力。比如,告訴 AI Agent 幫忙下單一份外賣(mài),它就可以直接調(diào)用 APP 選擇外賣(mài),再調(diào)用支付程序下單支付,無(wú)需人類(lèi)去指定每一步的操作。

Agent 的概念由 Minsky 在其 1986 年出版的《思維的社會(huì)》一書(shū)中提出,Minsky 認(rèn)為社會(huì)中的某些個(gè)體經(jīng)過(guò)協(xié)商之后可求得問(wèn)題的解,這些個(gè)體就是 Agent。他還認(rèn)為Agent應(yīng)具有社會(huì)交互性和智能性。Agent的概念由此被引入人工智能和計(jì)算機(jī)領(lǐng)域,并迅速成為研究熱點(diǎn)。但苦于數(shù)據(jù)和算力限制,想要實(shí)現(xiàn)真正智能的 AI Agents 缺乏必要的現(xiàn)實(shí)條件。

浙江大學(xué)一篇探討人工智能體的論文中將 AI Agent 定義為:一個(gè)運(yùn)行于動(dòng)態(tài)環(huán)境中的、具有較高自治能力的實(shí)體(即自治體,可以是系統(tǒng)、機(jī)器,也可以是一個(gè)計(jì)算機(jī)軟件程序等等)。其根本目標(biāo)是接受另一個(gè)實(shí)體(即主體,可以是用戶(hù)、計(jì)算機(jī)程序、系統(tǒng)或機(jī)器等)的委托并為之提供幫助或服務(wù),能夠在目標(biāo)任務(wù)的驅(qū)動(dòng)下主動(dòng)采取包括學(xué)習(xí)、通訊、社交等各種手段感知、適應(yīng)其外在環(huán)境的動(dòng)態(tài)變化,并作出適當(dāng)?shù)姆磻?yīng)。

簡(jiǎn)單來(lái)說(shuō),AI Agent 以大模型為核心驅(qū)動(dòng)力,在此基礎(chǔ)上增加了規(guī)劃(Planning)、記憶(Memory)和工具使用(Tool Use)三個(gè)關(guān)鍵組件,以提高大模型在面對(duì)復(fù)雜任務(wù)時(shí)的處理能力。

人工智能領(lǐng)域,這一術(shù)語(yǔ)被賦予了一層新的含義:具有自主性、反應(yīng)性、積極性和社交能力特征的智能實(shí)體。

AI Agent,它被設(shè)計(jì)為具有獨(dú)立思考和行動(dòng)能力的AI程序。你只需要提供一個(gè)目標(biāo),比如寫(xiě)一個(gè)游戲、開(kāi)發(fā)一個(gè)網(wǎng)頁(yè),他就會(huì)根據(jù)環(huán)境的反應(yīng)和獨(dú)白的形式生成一個(gè)任務(wù)序列開(kāi)始工作。就好像是人工智能可以自我提示反饋,不斷發(fā)展和適應(yīng),以盡可能最好的方式來(lái)實(shí)現(xiàn)你給出的目標(biāo)。

02 AI Agent 拆解:大模型、規(guī)劃、記憶與工具

一個(gè)基于大模型的 AI Agent 系統(tǒng)可以拆分為大模型、規(guī)劃、記憶與工具使用四個(gè)組件部分。6 月,OpenAI 的應(yīng)用研究主管 Lilian Weng 撰寫(xiě)了一篇博客,認(rèn)為 AI Agent 可能會(huì)成為新時(shí)代的開(kāi)端。她提出了 Agent = LLM 規(guī)劃技能 記憶 工具使用的基礎(chǔ)架構(gòu),其中 LLM 扮演了 Agent 的“大腦”,在這個(gè)系統(tǒng)中提供推理、規(guī)劃等能力。

圖片

2.1 大模型 規(guī)劃:Agent 的“大腦”,通過(guò)思維鏈能力實(shí)現(xiàn)任務(wù)分解

LLM 具備邏輯推理能力,Agent 可以將 LLM 的邏輯推理能力激發(fā)出來(lái)。當(dāng)模型規(guī)模足夠大的時(shí)候,LLM 本身是具備推理能力的。在簡(jiǎn)單推理問(wèn)題上,LLM 已經(jīng)達(dá)到了很好的能力;但在復(fù)雜推理問(wèn)題上,LLM 有時(shí)還是會(huì)出現(xiàn)錯(cuò)誤。事實(shí)上,很多時(shí)候用戶(hù)無(wú)法通過(guò) LLM 獲得理想的回答,原因在于 prompt 不夠合適,無(wú)法激發(fā) LLM 本身的推理能力,通過(guò)追加輔助推理的 prompt,可以大幅提升 LLM 的推理效果。在《Large language models are zero-shot reasoners》這篇論文的測(cè)試中,在向 LLM 提問(wèn)的時(shí)候追加“Let’s think step by step”后,在數(shù)學(xué)推理測(cè)試集 GSM8K 上的推理準(zhǔn)確率從 10.4%提升到了 40.7%。而 Agent 作為智能體代理,能夠根據(jù)給定的目標(biāo)自己創(chuàng)建合適的 prompt,可以更好地激發(fā)大模型的推理能力。

圖片

對(duì)于需要更多步驟的復(fù)雜任務(wù),Agent 能夠調(diào)用 LLM 通過(guò)思維鏈能力實(shí)現(xiàn)任務(wù)分解與規(guī)劃。在AI Agent 的架構(gòu)中,任務(wù)分解規(guī)劃的過(guò)程是基于大模型的能力來(lái)實(shí)現(xiàn)的。大模型具備思維鏈(Chain of Thoughts, CoT)能力,通過(guò)提示模型“逐步思考”,利用更多的計(jì)算時(shí)間來(lái)將困難任務(wù)分解為更小,更簡(jiǎn)單的步驟,降低每個(gè)子任務(wù)的規(guī)模。

圖片

通過(guò)反思與自省框架,Agents 可以不斷提升任務(wù)規(guī)劃能力。AI Agent 可以對(duì)過(guò)去的行為進(jìn)行自我批評(píng)和反思,從錯(cuò)誤中學(xué)習(xí),并為未來(lái)的步驟進(jìn)行完善,從而提高最終結(jié)果的質(zhì)量。自省框架使 Agents 能夠修正以往的決策、糾正之前的失誤,從而不斷優(yōu)化其性能。在實(shí)際任務(wù)執(zhí)行中,嘗試和錯(cuò)誤是常態(tài),反思和自省兩個(gè)框架在這個(gè)過(guò)程中起到了核心作用。

2.2 記憶:用有限的上下文長(zhǎng)度實(shí)現(xiàn)更多的記憶

對(duì) AI 智能體系統(tǒng)的輸入會(huì)成為系統(tǒng)的記憶,與人類(lèi)的記憶模式可實(shí)現(xiàn)一一映射。記憶可以定義為用于獲取、存儲(chǔ)、保留以及隨后檢索信息的過(guò)程。人腦中有多種記憶類(lèi)型,如感覺(jué)記憶、短期記憶和長(zhǎng)期記憶。而對(duì)于 AI Agent 系統(tǒng)而言,用戶(hù)在與其交互過(guò)程中產(chǎn)生的內(nèi)容都可以認(rèn)為是Agent 的記憶,和人類(lèi)記憶的模式能夠產(chǎn)生對(duì)應(yīng)關(guān)系。

感覺(jué)記憶就是作為學(xué)習(xí)嵌入表示的原始輸入,包括文本、圖像或其他模態(tài);短期記憶就是上下文,受到有限的上下文窗口長(zhǎng)度的限制;長(zhǎng)期記憶則可以認(rèn)為是 Agent 在工作時(shí)需要查詢(xún)的外部向量數(shù)據(jù)庫(kù),可通過(guò)快速檢索進(jìn)行訪(fǎng)問(wèn)。

目前 Agent 主要是利用外部的長(zhǎng)期記憶,來(lái)完成很多的復(fù)雜任務(wù),比如閱讀 PDF、聯(lián)網(wǎng)搜索實(shí)時(shí)新聞等。任務(wù)與結(jié)果會(huì)儲(chǔ)存在記憶模塊中,當(dāng)信息被調(diào)用時(shí),儲(chǔ)存在記憶中的信息會(huì)回到與用戶(hù)的對(duì)話(huà)中,由此創(chuàng)造出更加緊密的上下文環(huán)境。

圖片

向量數(shù)據(jù)庫(kù)通過(guò)將數(shù)據(jù)轉(zhuǎn)化為向量存儲(chǔ),解決大模型海量知識(shí)的存儲(chǔ)、檢索、匹配問(wèn)題。向量是AI 理解世界的通用數(shù)據(jù)形式,大模型需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,以獲取豐富的語(yǔ)義和上下文信息,導(dǎo)致了數(shù)據(jù)量的指數(shù)級(jí)增長(zhǎng)。

向量數(shù)據(jù)庫(kù)利用人工智能中的 Embedding 方法,將圖像、音視頻等非結(jié)構(gòu)化數(shù)據(jù)抽象、轉(zhuǎn)換為多維向量,由此可以結(jié)構(gòu)化地在向量數(shù)據(jù)庫(kù)中進(jìn)行管理,從而實(shí)現(xiàn)快速、高效的數(shù)據(jù)存儲(chǔ)和檢索過(guò)程,賦予了 Agent“長(zhǎng)期記憶”。同時(shí),將高維空間中的多模態(tài)數(shù)據(jù)映射到低維空間的向量,也能大幅降低存儲(chǔ)和計(jì)算的成本,向量數(shù)據(jù)庫(kù)的存儲(chǔ)成本比存到神經(jīng)網(wǎng)絡(luò)的成本要低 2 到 4 個(gè)數(shù)量級(jí)。

Embedding 技術(shù)和向量相似度計(jì)算是向量數(shù)據(jù)庫(kù)的核心。Embedding 技術(shù)是一種將圖像、音視頻等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的語(yǔ)言的方法,例如常見(jiàn)的地圖就是對(duì)于現(xiàn)實(shí)地理的Embedding,現(xiàn)實(shí)的地理地形的信息其實(shí)遠(yuǎn)遠(yuǎn)超過(guò)三維,但是地圖通過(guò)顏色和等高線(xiàn)等來(lái)最大化表現(xiàn)現(xiàn)實(shí)的地理信息。

在通過(guò) Embedding 技術(shù)將非結(jié)構(gòu)化數(shù)據(jù)例如文本數(shù)據(jù)轉(zhuǎn)化為向量后,就可以通過(guò)數(shù)學(xué)方法來(lái)計(jì)算兩個(gè)向量之間的相似度,即可實(shí)現(xiàn)對(duì)文本的比較。向量數(shù)據(jù)庫(kù)強(qiáng)大的檢索功能就是基于向量相似度計(jì)算而達(dá)成的,通過(guò)相似性檢索特性,針對(duì)相似的問(wèn)題找出近似匹配的結(jié)果,是一種模糊匹配的檢索,沒(méi)有標(biāo)準(zhǔn)的準(zhǔn)確答案,進(jìn)而更高效地支撐更廣泛的應(yīng)用場(chǎng)景。

2.3 工具:懂得使用工具才會(huì)更像人類(lèi)

AI Agent 與大模型的一大區(qū)別在于能夠使用外部工具拓展模型能力。懂得使用工具是人類(lèi)最顯著和最獨(dú)特的地方,同樣地,我們也可以為大模型配備外部工具來(lái)讓模型完成原本無(wú)法完成的工作。

ChatGPT 的一大缺點(diǎn)在于,其訓(xùn)練數(shù)據(jù)只截止到了 2021 年底,對(duì)于更新一些的知識(shí)內(nèi)容它無(wú)法直接做出回答。雖然后續(xù) OpenAI 為 ChatGPT 更新了插件功能,能夠調(diào)用瀏覽器插件來(lái)訪(fǎng)問(wèn)最新的信息,但是需要用戶(hù)來(lái)針對(duì)問(wèn)題指定是否需要使用插件,無(wú)法做到完全自然的回答。

AI Agent則具備了自主調(diào)用工具的能力,在獲取到每一步子任務(wù)的工作后,Agent 都會(huì)判斷是否需要通過(guò)調(diào)用外部工具來(lái)完成該子任務(wù),并在完成后獲取該外部工具返回的信息提供給 LLM,進(jìn)行下一步子任務(wù)的工作。

OpenAI 也在 6 月為 GPT-4 和 GPT-3.5 更新了函數(shù)調(diào)用的功能,開(kāi)發(fā)者現(xiàn)在可以向這兩個(gè)大模型描述函數(shù),并讓模型智能地選擇輸出包含調(diào)用這些函數(shù)的參數(shù)的 JSON 對(duì)象。這是一種更可靠地將 GPT 的功能與外部工具和 API 相連的新方法,允許開(kāi)發(fā)者更可靠地從模型中獲得結(jié)構(gòu)化的數(shù)據(jù),為 AI 開(kāi)發(fā)者提供了方便。

以 HuggingGPT 為例,HuggingGPT 將模型社區(qū) HuggingFace 和 ChatGPT 連接在一起,形成了一個(gè) AI Agent。2023 年 4 月,浙江大學(xué)和微軟聯(lián)合團(tuán)隊(duì)發(fā)布了 HuggingGPT,它可以連接不同的 AI 模型,以解決用戶(hù)提出的任務(wù)。HuggingGPT 融合了 HuggingFace 中成百上千的模型和GPT,可以解決 24種任務(wù),包括文本分類(lèi)、對(duì)象檢測(cè)、語(yǔ)義分割、圖像生成、問(wèn)答、文本語(yǔ)音轉(zhuǎn)換和文本視頻轉(zhuǎn)換。具體步驟分為四步:

1)任務(wù)規(guī)劃:使用 ChatGPT 來(lái)獲取用戶(hù)請(qǐng)求;

2)模型選擇:根據(jù) Hugging Face 中的函數(shù)描述選擇模型,并用選中的模型執(zhí)行 AI 任務(wù);

3)任務(wù)執(zhí)行:使用第 2 步選擇的模型執(zhí)行的任務(wù),總結(jié)成回答返回給 ChatGPT;

4)回答生成:使用 ChatGPT 融合所有模型的推理,生成回答返回給用戶(hù)。

圖片

03 新風(fēng)口——AI Agent

AI Agent 發(fā)展迅速,出現(xiàn)多款“出圈”級(jí)研究成果。

2023年3月起,AI Agent 領(lǐng)域迎來(lái)了第一次“出圈”,西部世界小鎮(zhèn)、BabyAGI、AutoGPT 等多款重大 Agent研究項(xiàng)目均在短短兩周內(nèi)陸續(xù)上線(xiàn),引發(fā)了大家對(duì) AI Agent 領(lǐng)域的關(guān)注。目前已經(jīng)涌現(xiàn)了在游戲領(lǐng)域大放異彩的英偉達(dá) Voyager 智能體、能夠幫助個(gè)人完成簡(jiǎn)單任務(wù)的 Agent 助理 HyperWrite、以及主打個(gè)人情感陪伴的 AI 助理 Pi 等多款優(yōu)秀的 Agent成果,AI Agent 的研究進(jìn)展迅速。

去年11月, OpenAI 發(fā)布 AI Agent 初級(jí)形態(tài)產(chǎn)品 GPTs,讓人看到智能體的應(yīng)用前景。谷歌、亞馬遜在該領(lǐng)域也有所涉獵。比爾?蓋茨認(rèn)為 AI Agent 是 AI 的未來(lái),并預(yù)言不久的將來(lái),所有人都將擁有專(zhuān)屬 AI 助理。

2024年1月9日,在釘釘 2024 年度產(chǎn)品發(fā)布會(huì) - 我的超級(jí)助理活動(dòng)上,我們看到了理想中的 AI Agent:數(shù)字員工。會(huì)上,釘釘發(fā)布了全新 7.5 版本,并推出有機(jī)會(huì)對(duì)標(biāo) GPTs 的智能化產(chǎn)品 ——AI 助理,讓每個(gè)人、每家企業(yè)定制個(gè)性化、專(zhuān)屬超級(jí)助理。

如今 AI Agent 或成為激烈角逐點(diǎn),是 AIGC 下一階段的關(guān)鍵。

數(shù)據(jù)來(lái)源:
1.Large language models are zero-shot reasoners》 Kojima, et al. 
2. AI Agent:基于大模型的自主智能體,在探索AGI的道路上前進(jìn) 【東方證券】
—— End ——

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀(guān)點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多