人工智能時代，AI Agent才是實現(xiàn)超級個體的新賽道？

mrjiangkai 2024-01-30 發(fā)布于上海

展開全文

在去年ChatGPT引領(lǐng)的大模型浪潮之后，AI Agent迅速嶄露頭角，成為業(yè)界的新焦點。比爾蓋茨撰文預(yù)測它將顛覆軟件行業(yè)和人機交互方式，引起了廣泛關(guān)注。

據(jù)外媒MattSchlicht報道：“至少有100個項目正致力于將AI代理商業(yè)化，近10萬名開發(fā)人員正在構(gòu)建自主Agent?！蔽④?、OpenAI和谷歌等國外科技巨頭更是將其視為下一階段發(fā)展的關(guān)鍵戰(zhàn)場。那么，AI Agent究竟是什么？

AI Agent是什么？

AI Agent被翻譯為人工智能體或AI代理。 OpenAI將 AI Agent 定義為以大語言模型（LLM）為大腦驅(qū)動，具有自主理解、感知、規(guī)劃、記憶和使用工具的能力，能自動化執(zhí)行復(fù)雜任務(wù)的系統(tǒng)。它可以模擬人類的智能行為，處理復(fù)雜的任務(wù)，并根據(jù)環(huán)境的變化進行自適應(yīng)和學習，從而提高智能化水平和性能。

簡單來說，就是有能力主動思考和行動的智能體。用一個通俗易懂的例子來講，“大語言模型只能編個簡易俄羅斯方塊，而AI Agent可以整出一個和平精英?！?/span>

眾所周知，移動互聯(lián)網(wǎng)時代的產(chǎn)品形態(tài)是APP，那么AGI時代的應(yīng)用形態(tài)則是AI Agent。

AI Agent的原理

AI agent的核心組件包括記憶、規(guī)劃、工具。

記憶組件負責存儲信息，包括長期記憶和短期記憶。目前的GPT等大模型只有基礎(chǔ)的短期記憶能力，一旦進行多輪對話就容易忘記之前的內(nèi)容。

而AI Agent則在擁有更強的上下文和跨對話記憶的基礎(chǔ)上，不僅能記住先前的對話內(nèi)容和用戶偏好，還能記住對環(huán)境的感知形成世界觀，從而提供更個性化和連貫的交流體驗。

規(guī)劃組件負責對未來行動的決策和計劃制定，在執(zhí)行復(fù)雜任務(wù)時將其分解為子目標，分步解決，并根據(jù)外界的反饋進行反思和優(yōu)化。

工具組件負責調(diào)用外部工具來獲取額外的信息或執(zhí)行能力。GPT4的插件生態(tài)與此類似，但這需要用戶根據(jù)需求自己選擇相應(yīng)的插件，而AI Agent可以自動調(diào)用工具使用。

那AI Agent 和GPTs相比到底有哪些區(qū)別呢？

GPTs VS AI Agent

OpenAI 發(fā)布的GPTs算是 AI Agent 初級形態(tài)產(chǎn)品。但目前GPTs是基于prompt（提示詞）實現(xiàn)的，針對某個單項任務(wù)，只有當你輸入明確有效的prompt時，才有可能得到想要的結(jié)果。

而 AI Agent 就如同《星際穿越》里的塔斯、《鋼鐵俠》里的賈維斯一樣，可以根據(jù)你提出的需求，自主思考并決策，將目標任務(wù)拆解為多個子任務(wù)，然后利用外部工具一步步執(zhí)行，直到達成目標。

AI Agent和大模型的區(qū)別在于擁有長期記憶，可以感知世界、協(xié)同處理任務(wù)，會解決問題并做出決策。

舉一個例子，來自斯坦福大學以及谷歌的人工智能研究團隊創(chuàng)造了斯坦福維爾虛擬村莊，里面的村民是25個不同的AI Agent，他們通過訓練具備了一定的社交技能并擁有各自的性格和社會角色。

在小鎮(zhèn)的生活中他們會記住每天發(fā)生的事，并基于新的記憶進入新的一天。而且隨著互動的增加建立了復(fù)雜的關(guān)系，形成各類群體，并參與各種游戲和活動，甚至自主策劃了一場情人節(jié)派對，表現(xiàn)出了令人驚訝的自主性和智能性。

再舉一個生活中的例子，當你需要做年終匯報PPT時，AI Agengt自動將任務(wù)分為幾步，并調(diào)用其他工具搜集資料、制作圖表、生成內(nèi)容，甚至協(xié)同其他Agengt工作，最終完成PPT。而你使用GPTs則需要自己使用各類插件，每一步都要輸入相應(yīng)的提示詞，并且進行反復(fù)調(diào)試才可能得到想要的結(jié)果。

那么目前除了上面提到的斯坦福維爾虛擬村莊，還有其他已經(jīng)開發(fā)出來的AI Agent嗎？

AI Agent應(yīng)用

事實上，國外已經(jīng)存在很多AI Agent架構(gòu)與產(chǎn)品，例如：AutoGPT、Generative Agent、GPT-Engineer、BabyAGI、MetaGPT、GPT Researcher，這些搭載了大型語言模型能力的Agent不僅可以生成內(nèi)容，還可以直接解決各種場景中的各種問題，涉及零售、房地產(chǎn)、旅游、客戶服務(wù)、人力資源、金融、制造業(yè)等多個領(lǐng)域。

AI Agent開源性項目的典型代表之一是AutoGPT，它相當于一個完整的工具包，可以為各種項目構(gòu)建和運行自定義AI Agent。該工具使用OpenAI的GPT-4和GPT-3.5大語言模型(LLM)，允許為各種個人和商業(yè)項目構(gòu)建Agent。

AI Agent閉源性項目包括：使用個人知識庫的金融人工智能代理平臺，“開發(fā)人員虛擬實習生”BitBuilder，人工智能驅(qū)動的軟件開發(fā)商GitHub Copilot X等。

美國大語言模型明星創(chuàng)業(yè)公司Inflection AI也準備加入其中。據(jù)透露其正在開發(fā)一款私人助理，可以充當導(dǎo)師，以及處理在旅行過程中的行程預(yù)定、航班積分、酒店預(yù)定等任務(wù)。去年6月，Inflection AI的估值就達到40億美元，累計融資額15.25億美元，在基礎(chǔ)大模型公司中僅次于OpenAI。

亞馬遜云科技也宣布了Amazon Bedrock Agents新功能，它可以把開發(fā)、部署和管理多個Agent的能力打包集成在一起，開發(fā)者只需要幾次點擊，就可以構(gòu)建Agent應(yīng)用。

而在國內(nèi)，釘釘總裁在采訪時稱釘釘計劃在4月份推出AI Agent Store，目標是成為中國最活躍的AI Agent孵化、分發(fā)和交易平臺，三年內(nèi)產(chǎn)生1000萬個AI助理。聯(lián)想集團副總裁對媒體表示，聯(lián)想個人Agent將在不久后與用戶見面。