作者:Alberto Romero (青稞AI整理) 這篇超長的文章(部分是評論,部分是探索)是關(guān)于 GPT-5 的。但它的內(nèi)容遠(yuǎn)不止于此。它講述了我們對下一代人工智能模型的期望。它講述了即將出現(xiàn)的令人興奮的新功能(如推理和代理)。它講述了 GPT-5 技術(shù)和 GPT-5 產(chǎn)品。它講述了 OpenAI 面臨的競爭業(yè)務(wù)壓力以及其工程師面臨的技術(shù)限制。它講述了所有這些事情——這就是為什么它有 14,000 個(gè)字那么長。 你現(xiàn)在想知道,既然你已經(jīng)聽說了有關(guān) GPT-5 的泄密和謠言,為什么還要花一個(gè)小時(shí)閱讀這篇迷你書大小的文章。答案是:如果沒有背景,零散的信息是無用的;只有當(dāng)你把所有信息都放在一個(gè)地方時(shí),大局才會(huì)清晰。就是這樣。 在我們開始之前,我們先簡單介紹一下 OpenAI 的成功歷程,以及為什么人們對 GPT-5 的巨大期待會(huì)給他們帶來壓力。四年前,也就是 2020 年,GPT-3[1]震驚了科技界。谷歌、Meta 和微軟等公司紛紛挑戰(zhàn) OpenAI 的領(lǐng)先地位。他們確實(shí)這么做了(例如LaMDA [2]、OPT [3]、MT-NLG [4]),但僅僅幾年后。到 2023 年初,在 ChatGPT 取得成功(引起 OpenAI 的廣泛關(guān)注)之后,他們準(zhǔn)備發(fā)布GPT-4 [5]。同樣,各大公司紛紛效仿 OpenAI。一年后,谷歌推出了 Gemini 1.5,Anthropic 推出了 Claude 3,Meta 推出了 Llama 3。OpenAI 即將宣布 GPT-5,但它的競爭對手現(xiàn)在還有多遠(yuǎn)? 差距正在縮小,競爭再次陷入僵局,因此每個(gè)人——客戶、投資者、競爭對手和分析師——都在關(guān)注 OpenAI,興奮地想看看他們是否能第三次重復(fù)這一飛躍,將他們推向一年后的未來。這就是 GPT-5 的隱含承諾;OpenAI 希望在與歷史上最強(qiáng)大的科技公司的戰(zhàn)斗中保持影響力。想象一下,如果期望沒有得到滿足(比爾蓋茨等業(yè)內(nèi)人士[6]認(rèn)為這可能會(huì)發(fā)生),人工智能世界將是多么失望。 這就是 GPT-5 正在醞釀的充滿活力和期待的環(huán)境。一步走錯(cuò),每個(gè)人都會(huì)向 OpenAI 發(fā)起攻擊。但如果 GPT-5 超出我們的預(yù)期,它將成為未來幾年人工智能難題的關(guān)鍵一環(huán),不僅對 OpenAI 及其相當(dāng)綠色的商業(yè)模式如此,對為其付費(fèi)的人——投資者和用戶也是如此。如果發(fā)生這種情況,Gemini 1.5、Claude 3 和 Llama 3 將重新陷入話語的默默無聞,而 OpenAI 將再次松一口氣。 為了清晰起見,文章分為三個(gè)部分。
本文大綱:
第 1 部分:有關(guān) GPT-5 的一些元信息GPT-5 類模型2023 年 3 月至 2024 年 1 月期間,當(dāng)你談?wù)撟钕冗M(jìn)的人工智能或跨學(xué)科能力時(shí),你談?wù)摰氖?GPT-4。沒有其他東西可以與之相比。OpenAI 的模型獨(dú)樹一幟。 自 2 月份以來,情況發(fā)生了變化。Google Gemini(1.0 Ultra 和 1.5 Pro)和 Anthropic Claude 3 Opus 是 GPT-4 級模型(即將推出的Meta Llama 3 405B也是 GPT-4 級[25],在撰寫本文時(shí)仍在訓(xùn)練中)。這個(gè)備受追捧的頭銜早就該有競爭者了,但最終還是來了。優(yōu)點(diǎn)和缺點(diǎn)取決于您如何使用它們,但就性能而言,這三款產(chǎn)品都差不多[26]。 這一新現(xiàn)實(shí)——以及早期采用者似乎一致認(rèn)為 Claude 3 Opus 比 GPT-4 更好(在最近的GPT-4 渦輪升級之后[27],可能不再如此[28])或 Llama 3 405B 評估在中級檢查點(diǎn)方面已經(jīng)表現(xiàn)強(qiáng)勁——讓人們對 OpenAI 的領(lǐng)導(dǎo)地位產(chǎn)生了懷疑。 但我們不應(yīng)忘記,OpenAI 與其他模型之間有一年的差距;按照 AI 進(jìn)步速度的標(biāo)準(zhǔn),GPT-4 是一個(gè)老模型。不可否認(rèn),最新的 GPT-4 turbo 版本一點(diǎn)也不老(于 4 月 9 日發(fā)布)。然而,很難否認(rèn),區(qū)分 GPT-4 版本的適度迭代改進(jìn)與 Google、Anthropic 或 Meta 的全新最先進(jìn)模型相媲美。GPT-4 的骨架已有 1.5 年的歷史;這就是與 Gemini、Claude 和 Llama 相比的關(guān)鍵,它們肯定在更深層次上利用了最新的研究(例如架構(gòu)變化),而 GPT-4 可能僅通過更新微調(diào)就無法采用這些研究。 有趣的問題是:OpenAI 在構(gòu)建 GPT-5 時(shí)是否保持了其優(yōu)勢?還是其競爭對手終于縮小了差距? 一種可能性是,Google、Anthropic 和 Meta 已經(jīng)向我們提供了它們的所有產(chǎn)品:Gemini 1.0/1.5、Claude 3 和 Llama 3 是它們目前能做到的最好的產(chǎn)品。我認(rèn)為兩者都不是這種情況(這里我將跳過 Meta 的情況,因?yàn)樗鼈兊那闆r相當(dāng)特殊,應(yīng)該單獨(dú)分析)。1[29]讓我們從谷歌開始。 谷歌在發(fā)布Gemini Advanced (帶有 1.0 Ultra 后端)[30]一周后宣布了Gemini 1.5 [31]。他們只讓我們一睹 Gemini 1.5 的功能;他們宣布了中間版本 1.5 Pro,它已經(jīng)是 GPT-4 級的了[32],但我認(rèn)為這并不是他們最好的版本。我相信 Gemini 1.5 Ultra 已經(jīng)準(zhǔn)備就緒。如果他們還沒有推出它,那是因?yàn)樗麄兾×?OpenAI 自早期以來一直在利用的一個(gè)教訓(xùn):把握好發(fā)布時(shí)機(jī)是成功的基礎(chǔ)。生成式人工智能競賽太廣泛了,不容忽視這一點(diǎn)。 考慮到1.0 Pro 和 1.0 Ultra 之間[33]存在很大差距,可以合理地假設(shè) Gemini 1.5 Ultra 將明顯優(yōu)于 1.5 Pro(盡管谷歌尚未改進(jìn)命名部分)。但 Gemini 1.5 Ultra 會(huì)有多好?GPT-5 級別有多好?我們不知道,但考慮到 1.5 Pro 的評估分?jǐn)?shù),這是有可能的。 要點(diǎn)是,Gemini 1.0 達(dá)到 GPT-4 級別并不是偶然的(這不是碰壁的結(jié)果,也不是谷歌局限性的標(biāo)志),而是一個(gè)預(yù)先定義的計(jì)劃,旨在告訴世界他們也可以創(chuàng)造出那種人工智能(讓我提醒你,構(gòu)建模型的團(tuán)隊(duì)[34]不是負(fù)責(zé)谷歌經(jīng)常失敗的營銷部分的團(tuán)隊(duì)[35])。 Anthropic 的情況對我來說不是那么清楚,因?yàn)樗麄儽裙雀韬?OpenAI 更不愿意接受媒體采訪,但我沒有理由排除他們,因?yàn)?Claude 3 的表現(xiàn)比 GPT-4 略高,很難相信這只是巧合。另一個(gè)有利于 Anthropic 的關(guān)鍵點(diǎn)是它成立于 2021 年。一家世界級的人工智能初創(chuàng)公司需要多少時(shí)間才能開始在最高水平上競爭?合作伙伴關(guān)系、基礎(chǔ)設(shè)施、硬件、訓(xùn)練時(shí)間等都需要時(shí)間,當(dāng) OpenAI 開始訓(xùn)練 GPT-4 時(shí),Anthropic 才剛剛安定下來。Claude 3 是 Anthropic 的第一次真正努力,所以如果 Claude 4 比預(yù)期的更早到來,并且與 OpenAI 用 GPT-5 可能實(shí)現(xiàn)的任何目標(biāo)相匹配,我不會(huì)感到驚訝。 我看到的模式很明顯。對于每一代最先進(jìn)的模型(首先是 GPT-3 級別,然后是 GPT-4 級別,接下來是 GPT-5 級別),領(lǐng)先者與其他模型之間的差距都在縮小。原因很明顯:頂級人工智能公司已經(jīng)學(xué)會(huì)了如何可靠地構(gòu)建這項(xiàng)技術(shù)。構(gòu)建一流的大型語言模型 (LLM) 是一個(gè)已解決的問題。這不再是 OpenAI 的秘密。他們一開始就占據(jù)優(yōu)勢,因?yàn)樗麄儼l(fā)現(xiàn)了別人還沒有發(fā)現(xiàn)的東西,但其他人已經(jīng)趕上了。 即使公司擅長向間諜和泄密者隱瞞商業(yè)機(jī)密,技術(shù)和創(chuàng)新最終也會(huì)在可行且經(jīng)濟(jì)實(shí)惠的方面趨于一致。GPT-5 類模型可能存在一定程度的異質(zhì)性(就像 GPT-4 類模型一樣),但它們的發(fā)展方向都是相同的。 如果我沒記錯(cuò)的話,這會(huì)讓 GPT-5 本身失去相關(guān)性——這就是為什么我認(rèn)為這篇 14,000 字的分析應(yīng)該被更廣泛地閱讀,而不僅僅是 GPT-5 的預(yù)覽——并將其納入整個(gè)模型類別中。這是一件好事。 GPT-5 還是 GPT-4.5?3 月初有傳言稱GPT-4.5 已泄露[36](是公告,不是權(quán)重)。搜索引擎在 OpenAI 刪除該消息[37]之前就發(fā)現(xiàn)了它。網(wǎng)頁上說,“知識截止時(shí)間”(模型了解世界狀況的時(shí)間點(diǎn))是 2024 年 6 月。這意味著假設(shè)的 GPT-4.5 將訓(xùn)練到 6 月,然后經(jīng)歷長達(dá)數(shù)月的安全測試、護(hù)欄和紅隊(duì)測試,將發(fā)布推遲到年底。 如果這是真的,這是否意味著 GPT-5 今年不會(huì)問世?可能,但不一定。我們需要記住的是,這些名稱(GPT-4、GPT-4.5、GPT-5(或其他完全不同的名字))是 OpenAI 認(rèn)為足夠高、值得獲得給定發(fā)布號的某種能力水平的占位符。OpenAI 一直在改進(jìn)其模型、探索新的研究場所、使用不同級別的計(jì)算進(jìn)行訓(xùn)練運(yùn)行并評估模型檢查點(diǎn)。構(gòu)建新模型并不是一個(gè)簡單而直接的過程,而是需要大量的反復(fù)試驗(yàn)、調(diào)整細(xì)節(jié)和“ YOLO 運(yùn)行[38]”,這可能會(huì)產(chǎn)生意想不到的好結(jié)果。 經(jīng)過所有的實(shí)驗(yàn)后,當(dāng)他們覺得準(zhǔn)備好了,他們就會(huì)開始進(jìn)行大規(guī)模的訓(xùn)練。一旦達(dá)到“足夠好”的性能點(diǎn),他們就會(huì)以最合適的名字發(fā)布它。如果他們把 GPT-4.5 稱為 GPT-5 或反之亦然,我們不會(huì)注意到。這個(gè)一步一步的檢查點(diǎn)過程也解釋了為什么 Gemini 1.0/1.5 和 Claude 3 可以略高于 GPT-4,但這并不意味著 LLM 存在障礙。 這意味著,我將在下文中引用的所有關(guān)于“GPT-5 發(fā)布”的消息來源實(shí)際上可能在不知不覺中談?wù)摰氖?GPT-4.5 或某種名稱不同的新奇事物。也許,將知識截止時(shí)間定在 2024 年 6 月的 GPT-4.5 泄漏將是經(jīng)過進(jìn)一步改進(jìn)后的 GPT-5(也許他們試圖達(dá)到 GPT-4.5 的水平,但無法完全達(dá)到,因此不得不放棄發(fā)布)。這些決定會(huì)根據(jù)內(nèi)部結(jié)果和競爭對手的動(dòng)向而不斷變化(也許 OpenAI 在 3 月份沒有預(yù)料到 Claude 3 會(huì)成為公眾首選的模型,因此決定放棄 GPT-4.5 版本)。 有充分的理由認(rèn)為不會(huì)發(fā)布 GPT-4.5:在競爭如此激烈、審查如此嚴(yán)格的情況下,發(fā)布 .5 個(gè)版本是沒有意義的(即使 Sam Altman 表示他希望加倍進(jìn)行迭代部署[39],以避免震驚世界并給我們時(shí)間去適應(yīng)等等)。 人們會(huì)不自覺地將每個(gè)新的大版本都視為“下一個(gè)模型”,無論數(shù)字是多少,并會(huì)根據(jù)自己的期望對其進(jìn)行測試。如果用戶覺得它不夠好,他們會(huì)質(zhì)疑為什么 OpenAI 沒有等待 .0 版本。如果他們覺得它非常好,那么 OpenAI 會(huì)懷疑他們是否應(yīng)該將其命名為 .0,因?yàn)楝F(xiàn)在他們必須做出更大的飛躍才能獲得可接受的 .0 模型。并非所有東西都是客戶想要的,但生成式人工智能現(xiàn)在更像是一個(gè)行業(yè),而不是一個(gè)科學(xué)領(lǐng)域。OpenAI 應(yīng)該選擇 GPT-5 模型并使其變得更好。 不過也有例外。OpenAI 發(fā)布了 GPT-3.5 模型,但如果你仔細(xì)想想,這是一個(gè)低調(diào)的變化(后來被 ChatGPT 所掩蓋)。他們并沒有像 GPT-3 和 GPT-4 甚至 DALL-E 和 Sora 那樣大肆宣傳。另一個(gè)例子是谷歌在 Gemini 1 Ultra 發(fā)布一周后發(fā)布的 Gemini 1.5 Ultra。谷歌希望通過連續(xù)兩次發(fā)布高于 OpenAI 最佳模型的版本,加倍其對 GPT-4 的勝利。它失敗了——Gemini 1 Ultra 并不比 GPT-4 好(人們期待更多,而不是一個(gè)棘手的演示[40]),Gemini 1.5 被 Sora 推到了一邊,OpenAI 幾個(gè)小時(shí)后發(fā)布了 Sora(谷歌還有很多東西要從 OpenAI 的營銷策略中學(xué)習(xí))。2[41]無論如何,OpenAI 需要一個(gè)很好的理由來發(fā)布 GPT-4.5。 GPT品牌陷阱本節(jié)最后要提到的是 GPT 陷阱:與其他公司不同,OpenAI 將其產(chǎn)品與 GPT 首字母縮略詞緊密聯(lián)系在一起,現(xiàn)在 GPT 既是一個(gè)技術(shù)術(shù)語(就像它最初的樣子),也是一個(gè)擁有難以放棄的威望和力量的品牌。GPT,即生成式預(yù)訓(xùn)練變壓器,是一種非常特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu),可能會(huì)也可能不會(huì)在新的研究突破中幸存下來。GPT 能否逃脫“自回歸陷阱[42]”?你能將推理注入 GPT 或?qū)⑵渖墳榇韱幔磕壳吧胁磺宄?/p> 我的問題是:OpenAI 是否仍將其模型稱為 GPT,以維護(hù)大多數(shù)人與 AI 相關(guān)的強(qiáng)大品牌,還是會(huì)保持嚴(yán)謹(jǐn),一旦技術(shù)含義被更好的東西耗盡,就會(huì)切換到其他名稱(Q* 或其他)?如果 OpenAI 堅(jiān)持使用這個(gè)無價(jià)的首字母縮略詞(正如商標(biāo)注冊所[43]暗示的那樣),他們是否會(huì)因?yàn)閷⑵溴^定在過去而自我破壞自己的未來[44]?OpenAI 冒著讓人們錯(cuò)誤地認(rèn)為他們正在與另一個(gè)聊天機(jī)器人互動(dòng)的風(fēng)險(xiǎn),而他們手中可能有一個(gè)強(qiáng)大的代理。只是一個(gè)想法。 第二部分:我們對 GPT-5 所了解的一切OpenAI 何時(shí)發(fā)布 GPT-5?3 月 18 日,Lex Fridman 采訪了 Sam Altman [45]。他透露的細(xì)節(jié)之一是關(guān)于GPT-5 的發(fā)布日期[46]。Fridman 問道:“那么,GPT-5 什么時(shí)候發(fā)布呢?” Altman 回答說:“我不知道;這是誠實(shí)的回答?!?/p> 我相信他的誠實(shí),因?yàn)閷τ谒@鈨煽傻摹拔也恢馈边@句話,可能會(huì)有不同的解釋。我認(rèn)為他確切地知道他想讓OpenAI 做什么,但生命固有的不確定性讓他有語義空間說,老實(shí)說,他不知道。就 Altman所知道的程度而言,他可能不會(huì)說更多,因?yàn)槭紫?,他們?nèi)栽跊Q定是否發(fā)布中間版 GPT-4.5,其次,他們正在與競爭對手拉開距離,第三,他不想透露確切日期,以免讓競爭對手有機(jī)會(huì)以某種方式掩蓋發(fā)布,就像他們一直對谷歌所做的那樣。 隨后,他猶豫著是否要回答 GPT-5 是否會(huì)在今年問世,但補(bǔ)充說[47]:“我們今年將發(fā)布一款令人驚嘆的新模型;我不知道我們會(huì)給它起什么名字。”我認(rèn)為,我在上面“GPT-5 這個(gè)名字是隨意的”一節(jié)中的論點(diǎn)已經(jīng)解決了這個(gè)模糊性問題。Altman還表示,[48]他們“還有很多其他重要的東西要先發(fā)布”(他可能指的是:公共 Sora 和語音引擎、獨(dú)立的網(wǎng)絡(luò)/工作 AI 代理、更好的 ChatGPT UI/UX、搜索引擎、Q* 推理/數(shù)學(xué)模型)。因此,構(gòu)建 GPT-5 是當(dāng)務(wù)之急,但發(fā)布它不是當(dāng)務(wù)之急。 Altman 還表示,OpenAI 之前未能做到“不向世界發(fā)布令人震驚的更新[49]”(例如第一個(gè) GPT-4 版本)。這可以解釋他對 GPT-5 發(fā)布日期含糊其辭的原因。他補(bǔ)充說:“也許我們應(yīng)該考慮以不同的方式發(fā)布 GPT-5。”我們可以將此解讀為一種示意性評論,但我認(rèn)為這有助于解釋 Altman 猶豫不決,不愿說“我知道我們什么時(shí)候會(huì)發(fā)布 GPT-5,但我不會(huì)告訴你”,這樣說是公平且可以理解的。 這甚至可以解釋最新的 GPT-4 turbo 版本(4 月 9 日)[50]在數(shù)學(xué)推理方面的顯著改進(jìn):也許他們以不同的方式發(fā)布 GPT-5 以不震驚世界,方法是先在野外測試其各個(gè)部分(例如,針對 GPT-4 的新數(shù)學(xué)/推理微調(diào)),然后將它們組合成一個(gè)有凝聚力的整體,形成一個(gè)更強(qiáng)大的基礎(chǔ)模型。這同樣是不負(fù)責(zé)任的,也與 Altman 的話不一致。 讓我們聽聽其他消息來源。3 月 19 日,也就是 Fridman-Altman 采訪的第二天,Business Insider 發(fā)表了一篇新聞文章,題為“消息人士稱,OpenAI 預(yù)計(jì)將在年中為其聊天機(jī)器人發(fā)布'實(shí)質(zhì)性改進(jìn)’的 GPT-5 [51]”,這與 Altman 前一天的說法完全相反。如果 Altman 不知道日期,非 OpenAI 的消息來源怎么會(huì)知道?如果 OpenAI 還有這么多東西要先發(fā)布,GPT-5 怎么會(huì)在年中發(fā)布?這些信息是不連貫的。以下是 Business Insider 寫道:
因此,GPT-5 在 3 月 19 日仍在訓(xùn)練中(這是文章中唯一一個(gè)不是預(yù)測而是事實(shí)的數(shù)據(jù)點(diǎn))。讓我們采取慷慨的估計(jì),假設(shè)它已經(jīng)完成訓(xùn)練(2024 年 4 月),OpenAI 已經(jīng)在進(jìn)行安全測試和紅隊(duì)測試。在他們準(zhǔn)備部署之前,這會(huì)持續(xù)多久?讓我們再次采取慷慨的估計(jì),并說“與 GPT-4 相同”(GPT-5 可能更復(fù)雜,正如我們將在下一節(jié)中看到的那樣,這是一個(gè)安全的下限)。GPT -4 于 2022 年 8 月完成訓(xùn)練[53],OpenAI 于 2023 年 3 月宣布了這一消息。這是七個(gè)月的安全層。但請記住,微軟的 Bing Chat 已經(jīng)在后臺運(yùn)行 GPT-4。Bing [54]Chat 于 2023 年 2 月初發(fā)布。所以是半年。 總而言之,最樂觀的估計(jì)是 GPT-5 的發(fā)布時(shí)間距今還有半年,也就是說,發(fā)布日期不是 2024 年夏天(六月似乎是 AI 發(fā)布的最佳時(shí)間),而是 2024 年 10 月——最好的情況下!也就是選舉前一個(gè)月。考慮到AI 驅(qū)動(dòng)的政治宣傳的先例,OpenAI 肯定不會(huì)那么魯莽[55]。 “GPT-5 將在年中某個(gè)時(shí)候發(fā)布”可能是 Business Insider 的一個(gè)錯(cuò)誤,指的是 GPT-4.5(或者什么都沒提到)?我已經(jīng)說過,我認(rèn)為 OpenAI 不會(huì)用 4.5 取代 GPT-5 公告,但他們可能會(huì)將此版本添加為一個(gè)中期低調(diào)里程碑,同時(shí)明確表示 GPT-5 即將推出(在谷歌和 Anthropic 發(fā)布其他產(chǎn)品之前與他們抗?fàn)幨前l(fā)布 4.5 版本的一個(gè)很好的理由——只要 GPT-5 模型在幾個(gè)月后推出)。 這種觀點(diǎn)調(diào)和了我們迄今為止分析的所有信息:它調(diào)和了 Altman 的“我不知道 GPT-5 什么時(shí)候發(fā)布”和“我們還有很多其他重要的東西要先發(fā)布”。這也符合加倍迭代部署以及“令人震驚”的新模式對選舉構(gòu)成的威脅。談到選舉,GPT-5 發(fā)布日期的另一個(gè)候選日期是 11 月的 DevDay 左右(我最看好的預(yù)測)。去年,OpenAI 于 11 月 6 日舉行了第一次開發(fā)者大會(huì),今年是選舉后的第二天。 考慮到所有這些信息(包括那些不連貫的部分,一旦我們理解“GPT-5”是一個(gè)任意名稱,并且非 OpenAI 來源可能會(huì)混淆即將發(fā)布的版本的名稱,這些不連貫的部分就說得通了),我打賭:GPT-4.5(可能是 GPT-5 的另一種偷偷推進(jìn)版本)將于夏季發(fā)布,GPT-5 將在選舉后發(fā)布。OpenAI 將在未來幾個(gè)月發(fā)布一些新產(chǎn)品,但這不會(huì)是 Altman 所說的今年最大的發(fā)布。(最近的事件表明,更早的驚喜仍有可能。)3[56] GPT-5 會(huì)有多好?這是每個(gè)人都在等待的問題。我先聲明一下,我沒有獨(dú)家信息。但這并不意味著你不會(huì)從本節(jié)中得到任何東西。它的價(jià)值有兩方面:首先,它是你可能錯(cuò)過的資料的匯編;其次,它是對信息的分析和解釋,可以進(jìn)一步闡明我們可以期待什么。(在“算法突破”部分,我更深入地探討了 GPT-5 可能從前沿研究中整合的內(nèi)容。目前還沒有關(guān)于這方面的官方信息,只有線索和線索,以及我對能夠相當(dāng)好地遵循它們的自信。) 幾個(gè)月來,Altman 一直暗示他對 GPT-5 比現(xiàn)有 AI 更勝一籌充滿信心。今年 1 月,在達(dá)沃斯世界經(jīng)濟(jì)論壇期間舉行的一次私人談話中,Altman 私下接受韓國媒體《每日經(jīng)濟(jì)新聞》等新聞媒體采訪時(shí)表示([57]谷歌翻譯):“GPT2 非常糟糕。GPT3 相當(dāng)糟糕。GPT4 相當(dāng)糟糕。但 GPT5 會(huì)很好。”一個(gè)月前,他告訴 Fridman,GPT-4“有點(diǎn)糟糕[58]”,而 GPT-5 將“更聰明[59]”,不僅在某一方面,而是在各個(gè)方面。 接近 OpenAI 的人士也發(fā)表了含糊其辭的言論。理查德·何(Richard He)通過 Howie Xu[60]表示:“GPT-4 的大多數(shù)局限性將在 GPT-5 中得到修復(fù)”,一位未公開的消息人士告訴 Business Insider [61],“[GPT-5] 真的很好,就像是實(shí)質(zhì)性的改進(jìn)一樣。”所有這些信息都很好,但也有些瑣碎、模糊,甚至不可靠(我們現(xiàn)在可以相信 Business Insider 的消息來源嗎?)。 然而,Altman 告訴 Fridman 的一件事,我認(rèn)為是我們掌握的有關(guān) GPT-5 智能的最重要的數(shù)據(jù)點(diǎn)。他說的是[62]:“我預(yù)計(jì) 5 和 4 之間的差值將與 4 和 3 之間的差值相同。”這一說法比其他說法的 SNR 豐富得多。如果它聽起來同樣神秘,那是因?yàn)樗f的不是關(guān)于 GPT-5 的絕對智能水平,而是關(guān)于它的相對智能水平,這可能更難分析。具體來說:GPT-3 → GPT-4 = GPT-4 → GPT-5。 要解釋這個(gè)“等式”(誠然,它仍然含糊不清),我們需要技術(shù)手段來解開它,同時(shí)也需要對 GPT-3 和 GPT-4 有充分的了解。這就是我為本節(jié)所做的工作(此外,除非發(fā)生重大泄密,否則這是我們能從 Altman 那里得到的最好的信息)。我唯一需要做的假設(shè)是,Altman 知道自己在說什么——他明白這些增量意味著什么——而且他已經(jīng)知道 GPT-5 智能的大概情況,即使它還沒有完成(就像扎克了解 Llama 3 405B 檢查點(diǎn)的性能一樣)。由此,我得出了三種解釋(為了清楚起見,我只使用了型號,沒有使用“GPT”): 第一個(gè)解讀是,4-5 和 3-4 的增量是指跨基準(zhǔn)評估的可比跳躍,這意味著 5 將比4更**聰明,因?yàn)?4 比 3 更聰明(這個(gè)開始很棘手,因?yàn)楸娝苤?span>評估是有問題的[63],但我們先把這個(gè)放在一邊)。這肯定是一個(gè)人們樂于接受的結(jié)果,因?yàn)殡S著模型變得越來越好,攀登基準(zhǔn)變得越來越困難。實(shí)際上,難度如此之大,以至于我懷疑這是否有可能。這并不是因?yàn)槿斯ぶ悄懿荒茏兊媚敲粗悄?,而是因?yàn)檫@種智能會(huì)讓人類的測量標(biāo)準(zhǔn)太短,即基準(zhǔn)對于 GPT-5 來說太容易了。 上圖是 4 與 3.5 的比較(3 更低)。在某些方面,4 并沒有太大的進(jìn)步,但在其他方面,它比現(xiàn)在好得多,這可能會(huì)讓分?jǐn)?shù)變得毫無意義,因?yàn)榉謹(jǐn)?shù)太高了。即使我們接受 5 不會(huì)在所有方面都變得更好,但在那些方面,它已經(jīng)超越了基準(zhǔn)所能提供的極限。這使得 5 不可能實(shí)現(xiàn)與 4 相差 3-4 的大小。至少如果我們使用這些基準(zhǔn)的話。 如果我們假設(shè) Altman 正在考慮更難的基準(zhǔn)(例如SWE-bench[64]或ARC [65]),其中 GPT-3 和 GPT-4 的表現(xiàn)都很差(GPT-4 在 SWE-bench 上[66],GPT-3 在 ARC 上[67],GPT-4 在 ARC 上[68]),那么讓 GPT-5 顯示出類似的差異將令人失望。如果你參加為人類設(shè)計(jì)的考試(例如SAT、Bar、AP [69]),你就不能相信 GPT-5 的訓(xùn)練數(shù)據(jù)沒有被污染[70]。 第二種解釋表明,增量指的是非線性的“指數(shù)”縮放定律[71](大小、數(shù)據(jù)、計(jì)算的增加),而不是性能的線性增加。這意味著 5 延續(xù)了之前由 2、3 和 4 描繪的曲線,無論在性能方面產(chǎn)生什么。例如,如果 3 有 175B 個(gè)參數(shù),4 有1.8T 個(gè)參數(shù)[72],那么 5 將有大約 18 萬億個(gè)參數(shù)。但參數(shù)數(shù)量只是[73]擴(kuò)展方法的一個(gè)因素,因此增量可能包括其他所有因素:它們使用了多少計(jì)算能力,它們?yōu)槟P吞峁┝硕嗌儆?xùn)練數(shù)據(jù),等等。(我在下一節(jié)中更深入地探討了 GPT-5 與縮放定律的關(guān)系。) 這是 Altman 更穩(wěn)妥的說法(OpenAI 控制這些變量),也更合理(新興能力需要新的基準(zhǔn),而之前的數(shù)據(jù)并不存在,因此無法進(jìn)行 3→4 與 4→5 的比較)。然而,Altman 表示他預(yù)計(jì)會(huì)有這個(gè)增量,這表明他并不確定,而這個(gè)(例如,訓(xùn)練 GPT-5 需要多少 FLOP)他會(huì)知道。 第三種可能性是,Altman 的 delta 指的是用戶感知,即用戶會(huì)認(rèn)為 5 比 4 好,就像他們認(rèn)為 4 比 3 好一樣(問問重度用戶,你就會(huì)知道答案是“好很多”)。這是一個(gè)大膽的說法,因?yàn)?Altman 不可能知道我們會(huì)怎么想,但他可能是根據(jù)經(jīng)驗(yàn)說的;這是他從初步評估中感受到的,他只是在分享他的軼事評估。 如果這種解釋是正確的,那么我們可以得出結(jié)論,GPT-5將令人**印象深刻。如果那些最習(xí)慣使用以前版本的人真的有這種感覺——他們也是期望最高的人,而這項(xiàng)技術(shù)的新鮮感對他們來說已經(jīng)消退得最厲害。如果我很慷慨,必須打賭哪種解釋最正確,我會(huì)選擇這個(gè)。 如果我不覺得慷慨,還有第四種解釋:Altman 只是在炒作他公司的下一款產(chǎn)品。OpenAI 過去曾取得過成績,但激進(jìn)的營銷策略一直存在(例如,在谷歌發(fā)布 Gemini 1.5 數(shù)小時(shí)后發(fā)布 Sora)。我們可以默認(rèn)使用這一解釋以保證安全,但我相信上述三種解釋都有一定道理,尤其是第三種。 OpenAI 的目標(biāo)如何塑造 GPT-5在我們進(jìn)一步深入猜測之前,讓我分享一下我認(rèn)為正確的框架,以了解 GPT-5 能做什么和不能做什么,即如何區(qū)分明智的猜測和妄想。這可以作為理解 OpenAI 整個(gè) AI 方法的一般視角。我將在 GPT-5 上具體化它,因?yàn)檫@是我們今天的主題。 OpenAI宣稱的目標(biāo)是 AGI [74],但這太過模糊,與嚴(yán)肅的分析無關(guān)。除了 AGI,OpenAI 還有兩個(gè)“非官方目標(biāo)”(如果你愿意的話,也可以稱之為工具性目標(biāo)),它們更具體、更直接,是前進(jìn)的真正瓶頸(從技術(shù)意義上講;從產(chǎn)品角度來看,還有其他考慮因素,比如“制造人們想要的東西[75]”)。這兩個(gè)目標(biāo)是增強(qiáng)能力和降低成本。無論我們對 GPT-5 做出什么假設(shè),都必須遵循平衡兩者的需要。 OpenAI 總是可以無意識地增強(qiáng)功能(只要其研究人員和工程師知道如何做),但這可能會(huì)給 Azure 云帶來不可接受的成本,而 Azure 云會(huì)不滿微軟的合作關(guān)系(微軟與 OpenAI 的合作關(guān)系已經(jīng)不像以前那么獨(dú)家了[76])。OpenAI 不能成為現(xiàn)金流失。DeepMind 早期是谷歌的無底洞,但借口是“以科學(xué)的名義”。OpenAI 專注于業(yè)務(wù)和產(chǎn)品,因此他們必須帶來一些豐厚的利潤。 他們總是可以降低成本(以不同的方式,例如定制硬件、壓縮推理時(shí)間、稀疏性、優(yōu)化基礎(chǔ)設(shè)施和應(yīng)用量化等訓(xùn)練技術(shù)),但盲目這樣做會(huì)阻礙能力的發(fā)揮(2023 年春季,他們不得不放棄一個(gè)代號為“Arrakis”的項(xiàng)目[77],通過稀疏性提高 ChatGPT 的效率,因?yàn)樗谋憩F(xiàn)不佳)。花更多的錢總比失去客戶的信任要好——或者更糟的是,失去投資者的信任。 因此,無論如何,由于這兩個(gè)相互矛盾的要求(能力和成本)位于 OpenAI 優(yōu)先級的頂部(僅低于始終模糊的 AGI),即使我們?nèi)狈俜叫畔?,我們也可以縮小對 GPT-5 的期望范圍——我們知道他們關(guān)心這兩個(gè)因素。如果我們加上限制他們選擇的外部環(huán)境,平衡將進(jìn)一步對 OpenAI 不利:GPU 短缺(不像2023 年中期那么嚴(yán)重[78],但仍然存在)、互聯(lián)網(wǎng)數(shù)據(jù)短缺[79]、數(shù)據(jù)中心短缺以及對[80]新算法的[81]迫切搜索。 最后一個(gè)因素直接影響了 GPT-5,并以某種方式推動(dòng) OpenAI 打造出他們所能打造的最強(qiáng)大的模型:他們在行業(yè)中的特殊地位。OpenAI 是最受矚目的人工智能初創(chuàng)公司,在經(jīng)濟(jì)和技術(shù)上處于領(lǐng)先地位,每次他們發(fā)布新東西時(shí),我們都會(huì)屏住呼吸。所有人的目光都集中在他們身上——競爭對手、用戶、投資者、分析師、記者,甚至政府——所以他們必須大干一場。GPT-5 必須打破預(yù)期,改變范式。盡管 Altman 說過迭代部署和不震驚世界,但在某種程度上,他們必須震驚世界。哪怕只是一點(diǎn)點(diǎn)。 因此,盡管成本和一些外部約束(計(jì)算、數(shù)據(jù)、算法、選舉、社會(huì)影響)限制了他們的發(fā)展,但對增強(qiáng)能力的無限渴求和稍微震撼世界的需要將推動(dòng)他們走得盡可能遠(yuǎn)。讓我們看看他們能走多遠(yuǎn)。 第三部分:關(guān)于 GPT-5我們不知道的一切GPT-5 和縮放定律的統(tǒng)治2020 年,OpenAI 設(shè)計(jì)了一種經(jīng)驗(yàn)形式的擴(kuò)展定律[82],自此以后,該定律定義了 AI 公司的發(fā)展路線圖。主要思想是,三個(gè)因素足以定義甚至預(yù)測模型性能:模型大小、訓(xùn)練 token 數(shù)量以及計(jì)算/訓(xùn)練 FLOP(2022 年,DeepMind 將這些定律[83]和我們對如何訓(xùn)練計(jì)算效率高的模型的理解細(xì)化為所謂的“Chinchilla 擴(kuò)展定律”,即最大的模型訓(xùn)練不足;您需要按與模型大小相同的比例擴(kuò)展數(shù)據(jù)集大小,以充分利用可用的計(jì)算并實(shí)現(xiàn)性能最高的 AI)。 擴(kuò)展定律(無論是 OpenAI 的原始形式還是 DeepMind 的修訂版本)的底線意味著,隨著預(yù)算的增長,大部分預(yù)算應(yīng)該分配給擴(kuò)展模型(大小、數(shù)據(jù)、計(jì)算)。(即使定律的具體內(nèi)容存在爭議[84],但無論常數(shù)是什么,它們的存在在這一點(diǎn)上都是毋庸置疑的。) 奧爾特曼在 2023 年聲稱[85],“我們正處于這些巨型模型時(shí)代的終結(jié),我們將通過其他方式讓它們變得更好?!边@種方法塑造了 GPT-4(并且肯定會(huì)塑造 GPT-5),同時(shí)又不放棄規(guī)模,其中之一[86]就是使其成為專家混合模型 (MoE),而不是像 GPT-3 和 GPT-2 那樣的大型密集模型。 MoE 巧妙地將小型專業(yè)模型(專家)組合在一起,這些模型會(huì)根據(jù)輸入的性質(zhì)進(jìn)行激活(您可以將其想象為數(shù)學(xué)專家來解決數(shù)學(xué)問題,創(chuàng)意專家來撰寫小說等等),通過門控機(jī)制激活,該機(jī)制也是一個(gè)神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)將輸入分配給專家。在固定預(yù)算下,與小型密集模型相比,MoE 架構(gòu)可以提高性能并縮短推理時(shí)間,因?yàn)閷τ谌魏谓o定查詢,只有一小部分專業(yè)參數(shù)處于活動(dòng)狀態(tài)。 Altman 關(guān)于“巨型模型時(shí)代的終結(jié)”或從密集模型到多模態(tài)模型的轉(zhuǎn)變是否與縮放定律相矛盾?一點(diǎn)也不。如果說有什么不同的話,那就是通過利用架構(gòu)優(yōu)化等其他技巧,更明智地應(yīng)用了縮放的經(jīng)驗(yàn)教訓(xùn)(我錯(cuò)誤地批評了OpenAI 將 GPT-4 變成了多模態(tài)模型[87])。在生成式人工智能中,縮放仍然是王道(尤其是在語言和多模態(tài)模型中),因?yàn)樗?span>有效。你能通過在其他方面改進(jìn)模型讓它更好地發(fā)揮作用嗎?太棒了! 在最高水平上競爭的唯一方法是用整體視角來對待人工智能創(chuàng)新:如果更多的計(jì)算和數(shù)據(jù)可以為你縮小性能差距,那么大量研究更好的算法是沒有意義的。當(dāng)更簡單的架構(gòu)或優(yōu)化技術(shù)可以為你節(jié)省一半的錢時(shí),在 H100 上浪費(fèi)數(shù)百萬美元也是沒有意義的。如果將 GPT-5 放大 10 倍可行,那很好。如果將其變成超級 MoE 可行,那很好。 弗里德曼問阿爾特曼,創(chuàng)建 GPT-5 的主要挑戰(zhàn)是什么(計(jì)算還是技術(shù)/算法),阿爾特曼說:“總是所有這些?!彼a(bǔ)充說:OpenAI 真正擅長的事情是“我們將 200 個(gè)中等大小的東西組合成一個(gè)巨大的東西?!?span>4[88] 人工智能一直是一個(gè)權(quán)衡的領(lǐng)域,但一旦生成式人工智能進(jìn)入市場并成為一個(gè)盈利行業(yè),就會(huì)增加更多的權(quán)衡。OpenAI 正在處理所有這些問題。目前,尋找更好路線的首選啟發(fā)式方法是遵循Richard Sutton 在《苦澀的教訓(xùn)》中的建議[89],這是縮放定律的非正式表述。以下是我用一句話總結(jié) OpenAI 處理這些權(quán)衡的整體方法:堅(jiān)信縮放定律,但在有希望的研究面前不要過于保守。 GPT-5 是這種整體觀點(diǎn)的產(chǎn)物,因此它將充分利用縮放定律——以及任何其他東西,只要它能讓 OpenAI 更接近其目標(biāo)??s放在哪些方面定義 GPT-5?我的猜測很簡單:在所有方面。增加模型大小,增加訓(xùn)練數(shù)據(jù)集,增加計(jì)算/FLOP。讓我們做一些粗略的數(shù)字。 模型大小GPT-5 也將是一個(gè) MoE(AI 公司現(xiàn)在大多出于充分的理由制作 MoE;高性能和高效推理。Llama 3 是一個(gè)有趣的例外,可能是因?yàn)樗荚冢ㄓ绕涫禽^小的版本)在本地運(yùn)行,以便 GPU 貧乏者可以在有限的內(nèi)存中安裝它)。GPT-5 將比 GPT-4 更大(總參數(shù)數(shù)量意味著,如果 OpenAI 沒有找到比 MoE 更好的架構(gòu)設(shè)計(jì),那么 GPT-5 將擁有比 GPT-4 更多的專家或更大的專家,無論哪種方式都能產(chǎn)生最佳的性能和效率組合;還有其他方法可以添加參數(shù),但這對我來說最有意義)。 GPT-5 會(huì)大多少還不得而知。我們可以天真地推斷出參數(shù)數(shù)量的增長趨勢:GPT,2018 年(1.17 億[90]),GPT-2,2019 年(15 億[91]),GPT-3,2020 年(1.75 億[92]),GPT-4,2023 年(1.8 萬億[93],估計(jì)),但跳躍并不對應(yīng)任何明確的曲線(尤其是因?yàn)?GPT-4 是 MoE,因此它不能與其他模型進(jìn)行同類比較)。這種天真的推斷不起作用的另一個(gè)原因是,新模型的規(guī)模取決于訓(xùn)練數(shù)據(jù)集的大小和可以訓(xùn)練它的 GPU 數(shù)量(記住我之前提到的外部限制;數(shù)據(jù)和硬件短缺)。 我找到了其他地方發(fā)布的尺寸估計(jì)(例如2-5T 參數(shù)[94]),但我認(rèn)為沒有足夠的信息來做出準(zhǔn)確的預(yù)測(無論如何,我已經(jīng)計(jì)算過了,即使最終不是非常準(zhǔn)確,也可以給你一些有趣的東西)。 讓我們看看為什么做出明智的規(guī)模估計(jì)比聽起來更難。例如,艾倫·湯普森 (Alan Thompson) 給出的上述 2-5T 數(shù)字是基于這樣的假設(shè):與 GPT-4 相比,OpenAI 對 GPT-5 使用的計(jì)算量是 GPT-4 的兩倍(“10,000 → 25,000 個(gè) NVIDIA A100 GPU 和一些 H100”),訓(xùn)練時(shí)間是 GPT-4 的兩倍(“約 3 個(gè)月 → 約 4-6 個(gè)月”)。 GPT-5 早在 11 月就已開始訓(xùn)練[95],而最后一次訓(xùn)練在一個(gè)月前仍在進(jìn)行中,[96]因此將訓(xùn)練時(shí)間增加一倍是有道理的,但 GPU 數(shù)量不對。當(dāng)他們開始推出 GPT-5 時(shí),盡管 H100 GPU 短缺,但 OpenAI 仍可以使用 Microsoft Azure Cloud 的大部分計(jì)算能力,即“ [10k-40k H100 ](https://gpus./nvidia-h100-gpus-supply-and-demand/#:~:text=Azure probably has 10k-40k H100s. Should be similar for Oracle. Most of Azure’s capacity is going to OpenAI)”。因此,GPT-5 可能比 2-5T 大 3 倍(我已在下面寫下了我的計(jì)算細(xì)節(jié))。 數(shù)據(jù)集大小Chinchilla 縮放定律表明,最大的模型訓(xùn)練不足,因此如果沒有更多數(shù)據(jù)來提供附加參數(shù),那么讓 GPT-5 比 GPT-4 更大是沒有意義的。 即使 GPT-5 的大小相似(我不會(huì)打賭這不會(huì)違反縮放定律并且在新的算法范式下可能是合理的),Chinchilla 定律表明,僅靠更多的數(shù)據(jù)也會(huì)產(chǎn)生更好的性能(例如,Llama 3 8B 參數(shù)模型在 15T 令牌上進(jìn)行訓(xùn)練,嚴(yán)重“過度訓(xùn)練”,但當(dāng)他們停止訓(xùn)練時(shí)它仍在學(xué)習(xí))。[97] 據(jù)估計(jì), GPT-4(1.8T 參數(shù))已針對大約12-13[98]萬億個(gè) token[99]進(jìn)行了訓(xùn)練。如果我們保守地假設(shè) GPT-5 與 GPT-4 的大小相同,那么 OpenAI 仍然可以通過向其輸入多達(dá) 100 萬億個(gè) token 來改進(jìn)它——如果他們找到[100]收集這么多 token[101]的方法!如果它更大,那么他們需要那些多汁的 token。 OpenAI 的一個(gè)選擇是使用 Whisper[轉(zhuǎn)錄 YouTube](https://www./2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html#:~:text=Transcribing YouTube)視頻(他們一直違反 YouTube 的服務(wù)條款[102])。另一個(gè)選擇是合成數(shù)據(jù),這在 AI 公司中已經(jīng)是一種常見的做法[103],一旦人造互聯(lián)網(wǎng)數(shù)據(jù)“耗盡[104]”,這將成為常態(tài)。我相信 OpenAI 仍在壓縮最后剩余的可訪問數(shù)據(jù),并尋找新方法來確保合成數(shù)據(jù)的高質(zhì)量。 (他們可能找到了一種有趣的方法來實(shí)現(xiàn)后者,從而在不增加預(yù)訓(xùn)練標(biāo)記數(shù)量的情況下提高性能。我在“算法突破”部分的“推理”小節(jié)中探討了這一部分。) 計(jì)算更多 GPU 允許在同一數(shù)據(jù)集上構(gòu)建更大的模型和更多輪次,從而在兩種情況下都能獲得更好的性能(直到他們尚未找到某個(gè)點(diǎn))。要從整個(gè)表面分析中得出一個(gè)粗略的結(jié)論,我們應(yīng)該關(guān)注一件我們確信在 2022 年 8 月至 2023 年 3 月期間(GPT-4 的訓(xùn)練運(yùn)行跨度)和現(xiàn)在之間發(fā)生了變化的事情:OpenAI 可以訪問 Azure 的數(shù)千臺 H100,隨后可用 FLOP 的數(shù)量會(huì)增加,以訓(xùn)練下一個(gè)模型。 也許 OpenAI 還找到了一種進(jìn)一步優(yōu)化 MoE 架構(gòu)的方法,以相同的訓(xùn)練/推理成本擬合更多參數(shù),也許他們找到了一種方法,將合成的 AI 生成數(shù)據(jù)制作成高質(zhì)量的 GPT-5 代幣,但我們都不確定。然而,Azure 的 H100 具有我們不應(yīng)忽視的某種優(yōu)勢。如果有一家 AI 初創(chuàng)公司擺脫了 GPU 短缺,那就是 OpenAI。計(jì)算是成本發(fā)揮作用的地方,但目前,只要 GPT-5 產(chǎn)生出色的結(jié)果(并且還不是 AGI [105]),微軟就會(huì)負(fù)責(zé)這一部分。 我對 GPT-5 大小的估計(jì)假設(shè) OpenAI 沒有像 Thompson 所說的那樣使用 25k A100,而是使用了 25k H100 來訓(xùn)練 GPT-5(微軟云為 OpenAI 保留的“ [10k-40k H100 ](https://gpus./nvidia-h100-gpus-supply-and-demand/#:~:text=Azure probably has 10k-40k H100s. Should be similar for Oracle. Most of Azure’s capacity is going to OpenAI)”的平均值)。四舍五入后,H100訓(xùn)練 LLM 的速度比 A100 快2[106]到4 倍[107](成本相似)。OpenAI 可以在一個(gè)月內(nèi)用這個(gè)計(jì)算量訓(xùn)練出一個(gè) GPT-4 大小的模型。如果 GPT-5 需要 4-6 個(gè)月的時(shí)間,那么其大小的最終估計(jì)值為7-11T 參數(shù)(假設(shè)相同的架構(gòu)和訓(xùn)練數(shù)據(jù))。這是 Thompson 估計(jì)的兩倍多。但是,把它做這么大是否有意義,還是最好在更多的 FLOP 上訓(xùn)練一個(gè)較小的模型?我們不知道;OpenAI 今年可能在架構(gòu)或算法上取得了另一項(xiàng)突破,以在不增加規(guī)模的情況下提高性能。 現(xiàn)在讓我們進(jìn)行分析,假設(shè)推理是限制因素(Altman 在 2023 年表示,OpenAI 在訓(xùn)練和推理方面都受到 GPU 的限制,但他希望后者的效率提高 10 倍[108],這表明推理成本最終將超過訓(xùn)練成本)。有了 25k H100,OpenAI 對 GPT-5 的最大浮點(diǎn)數(shù)是 GPT-4 的兩倍,推理批次大小更大,并且能夠以 FP8 而不是 FP16(半精度)進(jìn)行推理。這意味著推理性能提高了2[109]到8 倍[110]。GPT-5 的參數(shù)可能多達(dá)10-15T ,比 GPT-4 大一個(gè)數(shù)量級(如果在推理時(shí)將模型權(quán)重分配到 GPU 上的現(xiàn)有并行配置[111]不會(huì)在這種規(guī)模下崩潰,但我不知道)。OpenAI 還可以選擇使其效率提高一個(gè)數(shù)量級,這與更便宜是同義詞(或兩者的某種加權(quán)混合)。 另一種可能性是,考慮到 OpenAI不斷改進(jìn) GPT-4 ,[112]我認(rèn)為這種可能性值得考慮,那就是部分新可用的計(jì)算將被重新定向,以使 GPT-4 更高效 / 更便宜(甚至免費(fèi),完全取代 GPT-3.5;這是可以想象的,對吧?)。這樣,OpenAI 可以從那些知道 ChatGPT 存在但不愿意付費(fèi)或不知道 3.5 免費(fèi)版和 4 付費(fèi)版之間的差距巨大的可疑用戶那里獲取收入。我不會(huì)對服務(wù)價(jià)格發(fā)表更多評論(不確定 GPT-5 是否會(huì)在 ChatGPT 上使用),因?yàn)闆]有確切的規(guī)格,就無法判斷(大小/數(shù)據(jù)/計(jì)算是一階不確定性,但價(jià)格是二階不確定性)。這只是商業(yè)視角的猜測:ChatGPT 的使用率并沒有增長[113],OpenAI 應(yīng)該對此做點(diǎn)什么。5[114] GPT-5 的算法突破這是最有趣的部分(是的,甚至比上一節(jié)更有趣),而且,正如有趣定律所規(guī)定的那樣,也是最具推測性的。從 GPT-4 推斷出 GPT-5 的擴(kuò)展定律是可行的,盡管有點(diǎn)棘手??紤]到目前該領(lǐng)域的不透明度,試圖預(yù)測算法的進(jìn)步是更大的挑戰(zhàn)。 最好的啟發(fā)式方法是關(guān)注與 OpenAI 相鄰的人,潛伏在具有高 SNR 的 alpha 位置,并閱讀來自頂級實(shí)驗(yàn)室的論文。我只做了部分這些,所以請?jiān)徣魏喂殴值恼f法。如果你已經(jīng)讀到這里,你對我的譫妄已經(jīng)太深了。所以謝謝你。以下是我們可以期待的提示[115](即 OpenAI 自 GPT-4 以來一直在研究的內(nèi)容): 當(dāng)然,這是奧特曼的營銷,但我們可以利用這種結(jié)構(gòu)化的愿景來獲取寶貴的見解。6[116]這些能力中,有些更側(cè)重于行為方面(例如推理、代理),而有些則更側(cè)重于消費(fèi)者方面(例如個(gè)性化)。所有這些都需要算法上的突破。7[117]問題是,GPT-5 會(huì)成為這一愿景的實(shí)現(xiàn)嗎?讓我們來分析一下,并做出合理的猜測。 多模態(tài)幾年前,多模態(tài)性還是一個(gè)夢想[118]。如今,它已成為必需品。所有頂級人工智能公司(無論是否對 AGI 感興趣)都在努力讓他們的模型能夠捕捉和生成各種感官模態(tài)。人工智能人員喜歡認(rèn)為沒有必要復(fù)制使我們變得聰明的所有進(jìn)化特征,但大腦的多模態(tài)性是他們無法承受的[119]。這些努力的兩個(gè)例子是:GPT-4 可以獲取文本和圖像并生成文本、圖像和音頻。Gemini 1.5 可以獲取文本、圖像、音頻和視頻并生成文本和圖像。 顯而易見的問題是:多模態(tài)性將走向何方?GPT-5(以及下一代人工智能模型)將擁有哪些額外的感官技能?我們可能天真地認(rèn)為人類有五種技能,一旦將它們整合在一起,我們就大功告成了。事實(shí)并非如此,人類實(shí)際上還有更多[120]。所有這些都是人工智能智能所必需的嗎?我們應(yīng)該實(shí)現(xiàn)動(dòng)物擁有而我們沒有的那些模式[121]嗎?這些都是有趣的問題,但我們正在討論 GPT-5,所以我堅(jiān)持直接的可能性;OpenAI 已經(jīng)暗示已經(jīng)解決了這些問題。 Voice Engine[122]表明情感/人類合成音頻已經(jīng)相當(dāng)成熟。它已經(jīng)實(shí)現(xiàn)在 ChatGPT 中,因此它將出現(xiàn)在 GPT-5 中(也許不是從一開始就出現(xiàn))。尚未解決但幾乎最熱門的領(lǐng)域是視頻生成。OpenAI在 2 月份宣布了 Sora [123],但并未正式發(fā)布。據(jù)The Information 報(bào)道[124],谷歌 DeepMind 首席執(zhí)行官 Demis Hassabis 表示:“谷歌可能很難趕上 OpenAI 的 Sora?!笨紤]到 Gemini 1.5 的功能,這并不是對谷歌在發(fā)布 AI 產(chǎn)品方面的限制的證實(shí),而是對 Sora 的出色表現(xiàn)的認(rèn)可。OpenAI 會(huì)把它放到 GPT-5 中嗎?他們正在藝術(shù)家[125]和TED中測試第一印象[126];一旦任何人都可以制作任何東西的視頻,誰也說不準(zhǔn)會(huì)發(fā)生什么。 據(jù) The Verge 報(bào)道,Adobe Premiere Pro 將集成 AI 視頻工具,其中可能包括 OpenAI Sora [127]。我敢打賭,OpenAI 會(huì)先將 Sora 作為獨(dú)立模型發(fā)布,但最終會(huì)將其與 GPT-5 合并??紤]到我們已經(jīng)習(xí)慣了文本模型而不是視頻模型,這將是對“不震驚世界”承諾的認(rèn)可。他們將逐步推出對 Sora 的訪問權(quán)限,就像他們之前對 GPT-4 Vision 所做的那樣,然后讓 GPT-5 能夠生成(和理解)視頻。 機(jī)器人Altman 并沒有在“AI 能力”幻燈片中提及人形機(jī)器人或?qū)嶓w,但與 Figure 的合作[128](以及你不應(yīng)該相信的花哨演示[129],即使它是真實(shí)的)說明了 OpenAI 未來在該領(lǐng)域的押注(請注意,多模態(tài)性不僅僅涉及眼睛和耳朵,還包括觸覺和本體感覺以及運(yùn)動(dòng)系統(tǒng),即行走和靈活性。在某種程度上,機(jī)器人技術(shù)是多模態(tài)性和代理之間的共同因素)。 我最有信心但不太為人工智能圈接受的觀點(diǎn)[130]之一是,身體是達(dá)到人類智力水平的必要條件,無論是硅基還是碳基。我們傾向于認(rèn)為智力存在于我們的大腦中,但這對我們的身體(以及他人的身體)在感知和認(rèn)知中所起的關(guān)鍵作用是一種智力上的損害。Melanie Michell 寫了一篇關(guān)于一般智力的科學(xué)評論[131],并談到了具體化和社會(huì)化:
我敢打賭,OpenAI 會(huì)重返機(jī)器人領(lǐng)域(我們將看到 GPT-5 在多大程度上預(yù)示著這種轉(zhuǎn)變)。他們放棄它[135]不是出于哲學(xué)信念(即使公司中的某些成員仍然會(huì)說“視頻生成將通過模擬一切而導(dǎo)致 AGI [136]”,這表明身體是不必要的),而是出于務(wù)實(shí)的考慮:沒有足夠的現(xiàn)成數(shù)據(jù),模擬不夠豐富,無法將結(jié)果推斷到現(xiàn)實(shí)世界,現(xiàn)實(shí)世界的實(shí)驗(yàn)過于昂貴和緩慢,莫拉維克悖論[137]等。 也許他們會(huì)將工作外包給專注于機(jī)器人領(lǐng)域的合作伙伴,從而重返機(jī)器人領(lǐng)域。一臺內(nèi)置 GPT-5 的 Figure 02 機(jī)器人,能夠進(jìn)行代理行為和推理——并且能夠直行——這將是一項(xiàng)巨大的工程壯舉,值得見證。 推理這是一個(gè)重大突破,GPT-5 可能會(huì)以前所未有的方式實(shí)現(xiàn)這一突破。奧爾特曼告訴弗里德曼,GPT-5 將比之前的模型更加智能,簡而言之,它將具有更強(qiáng)的推理能力。如果說人類智能在某件事上勝過動(dòng)物智能,那就是我們可以推理事物。推理,定義就是從現(xiàn)有知識中獲取知識的能力,即通過遵循邏輯規(guī)則(如演繹或歸納)將現(xiàn)有知識與新信息相結(jié)合,從而更接近真相。這就是我們構(gòu)建世界心理模型的方式(目前人工智能的一個(gè)熱門概念),也是我們制定計(jì)劃實(shí)現(xiàn)目標(biāo)的方式。簡而言之,這就是我們在周圍建造奇跡的方式,我們稱之為文明。 有意識的推理很難。確切地說,我們感覺很難。這是理所當(dāng)然的,因?yàn)樗谡J(rèn)知上比我們做的大多數(shù)其他事情都難;在腦海中計(jì)算四位數(shù)的乘法是只有最聰明的人才能做到的能力。如果它如此困難,那么天真的計(jì)算器如何能夠立即計(jì)算出比我們知道的更大的數(shù)字呢?這可以追溯到莫拉維克悖論[138](我剛才順便提到過)。漢斯·莫拉維克觀察到,人工智能可以非常輕松地完成對我們來說似乎很難的事情,比如高數(shù)運(yùn)算,但它很難完成看起來最平凡的任務(wù),比如直行。 但是,如果愚蠢的設(shè)備可以立即進(jìn)行神級算術(shù)運(yùn)算,為什么人工智能在推理解決新任務(wù)[139]或問題[140]時(shí)會(huì)比人類困難得多?為什么人工智能的泛化能力如此之差?為什么它表現(xiàn)出卓越的晶體智力,卻表現(xiàn)出可怕的流體智力[141]?關(guān)于目前最先進(jìn)的法學(xué)碩士(如 GPT-4 或 Claude 3)是否具有推理能力,一直存在爭議。我認(rèn)為有趣的數(shù)據(jù)點(diǎn)是,它們無法**像我們一樣推理,無法具有相同的深度、可靠性、穩(wěn)健性或泛化能力,而只能“以極其有限的方式”進(jìn)行推理,用 Altman 的話來說。(在[142]MMLU[143]或BIG-bench[144]等“推理”基準(zhǔn)測試中獲得相當(dāng)高的分?jǐn)?shù)并不等同于具有像人類一樣的推理能力;它可以通過記憶和模式匹配來捷徑,更不用說受到數(shù)據(jù)污染的影響了。) 我們可以認(rèn)為這是一個(gè)“技能問題”,或者“抽樣可以證明知識的存在,但不能證明知識的缺失[145]”,這些理由都是合理且有效的原因,但不能完全解釋 GPT-4 在人類可以解決的ARC 挑戰(zhàn)等問題上的絕對[146]失敗。進(jìn)化可能為我們提供了不必要的推理障礙,因?yàn)樗且粋€(gè)無效的優(yōu)化過程,但有大量經(jīng)驗(yàn)證據(jù)表明,人工智能仍然以 Moravec 沒有預(yù)測到的方式落后于我們。8[147] 以上這些都是為了向你介紹我認(rèn)為是人工智能推理缺陷背后的深層技術(shù)問題。我認(rèn)為最大的因素是人工智能公司過于注重模仿學(xué)習(xí),即從互聯(lián)網(wǎng)上獲取大量人造數(shù)據(jù),并將其輸入到大型模型中,這樣他們就可以像我們一樣寫作、像我們一樣解決問題(這就是純粹的法學(xué)碩士所做的)。其原理是,通過向人工智能輸入幾個(gè)世紀(jì)以來創(chuàng)造的人類數(shù)據(jù),它會(huì)學(xué)會(huì)像我們一樣推理,但這是行不通的。 模仿學(xué)習(xí)方法有兩個(gè)重要的局限性:首先,互聯(lián)網(wǎng)上的知識大多是顯性知識(知道什么),但隱性知識(知道怎么做)無法用文字準(zhǔn)確傳達(dá),所以我們甚至不會(huì)嘗試——你在網(wǎng)上找到的大多是復(fù)雜迭代過程的成品(例如,你讀了我的文章,但你完全不知道我必須經(jīng)過數(shù)十次草稿)。(我回到代理人部分的顯性-隱性區(qū)別。) 其次,模仿只是人類兒童學(xué)習(xí)工具箱中的眾多工具之一。孩子們也會(huì)進(jìn)行實(shí)驗(yàn)、反復(fù)試驗(yàn)和自我對弈——除了模仿之外,我們還有多種學(xué)習(xí)方式,即通過反饋循環(huán)與世界互動(dòng)來更新知識,以及通過整合機(jī)制將其堆疊在現(xiàn)有知識之上。法學(xué)碩士缺乏這些批判性推理工具。然而,它們在人工智能領(lǐng)域并非聞所未聞:DeepMind 的 AlphaGo Zero就是以 100-0[148]擊敗AlphaGo[149]的——沒有任何人類數(shù)據(jù),只是利用深度強(qiáng)化學(xué)習(xí) (RL) 和搜索的組合與自己對弈。 除了這種強(qiáng)大的反復(fù)試驗(yàn)循環(huán)機(jī)制之外,AlphaGo 和 AlphaGo Zero 都具有一項(xiàng)附加功能,即使是當(dāng)今最好的 LLM(GPT-4、Claude 3 等)也不具備這項(xiàng)功能:思考下一步該做什么的能力(這是一種平凡的說法,他們使用搜索算法通過對比和整合新信息與先前知識來辨別針對目標(biāo)的壞的、好的和更好的選項(xiàng))。根據(jù)手頭問題的復(fù)雜性分配計(jì)算能力的能力是人類一直在做的事情(DeepMind 已經(jīng)測試了這種方法[150]并得到了有趣的結(jié)果)。這就是丹尼爾·卡尼曼在他暢銷書《思考,快與慢》中所說的系統(tǒng) 2 思維。Yoshua Bengio[151]和Yann LeCun[152]曾試圖賦予 AI“系統(tǒng) 2 思維”能力。 我相信這兩個(gè)功能——自我游戲/循環(huán)/反復(fù)試驗(yàn)和系統(tǒng) 2 思維——是有前途的研究場所,可以開始縮小人工智能和人類之間的推理差距。有趣的是,擁有這些能力的人工智能的存在,比如 DeepMind 的 AlphaGo Zero——還有AlphaZero[153]和MuZero [154](甚至沒有游戲規(guī)則)——與當(dāng)今最新的人工智能系統(tǒng)(如 GPT-4)缺乏這些能力的事實(shí)形成了鮮明對比。原因是現(xiàn)實(shí)世界(即使只是語言世界)比棋盤更難“解決”:不完美信息、規(guī)則和獎(jiǎng)勵(lì)定義不明確、自由度接近無限的不受約束的動(dòng)作空間的游戲是最接近科學(xué)中不可能的挑戰(zhàn)。 我相信,彌合推理游戲玩家 AI 和推理現(xiàn)實(shí)世界 AI 之間的差距是所有當(dāng)前推理項(xiàng)目的目的(我相信 Gemini已經(jīng)有了這方面的一些成果[155],但我認(rèn)為它還沒有顯示出令人滿意的結(jié)果)。證據(jù)讓我認(rèn)為 OpenAI 一直專注于通過將搜索和 RL 的功能與 LLM 相結(jié)合來擺脫純粹的模仿學(xué)習(xí)。這就是對 Q* 的猜測[156]所暗示的,也是來自領(lǐng)先研究人員的公開線索悄悄發(fā)出的呼聲。也許在 OpenAI 中尋找這方面線索的關(guān)鍵人物是 Noam Brown,他是人工智能推理專家,于 2023 年 6 月從 Meta 加入該公司。他在公告推文中說[157]:
我想他只是在你了解了我上面提供的背景知識后才說出這一切。最近,在一條現(xiàn)已被刪除的推文中,他說:“你不會(huì)通過在人類數(shù)據(jù)上進(jìn)行更好的模仿學(xué)習(xí)來獲得超人的表現(xiàn)?!?/p> 最近在紅杉資本 (Sequoia) 的一次演講[158]中,剛剛離開 OpenAI 的 Andrej Karpathy 也說了類似的話:
Brown 和 Karpathy 對模仿學(xué)習(xí)局限性的言論與 DeepMind 聯(lián)合創(chuàng)始人Shane Legg[159]在 Dwarkesh Patel 的播客上所說的話相呼應(yīng),再次提到了 AlphaGo:
因此,要超越模仿學(xué)習(xí),你必須將其與搜索、自我對弈、強(qiáng)化學(xué)習(xí)等相結(jié)合。這就是人們所認(rèn)為的 Q。這就是我所認(rèn)為的 Q。有幾篇論文介紹了如何將搜索能力引入 LLM[161]或如何在游戲中推廣自我對弈[162],但我還沒有找到確鑿的證據(jù)證明 OpenAI 究竟使用什么來為 GPT-5 添加推理技能。 具有推理能力的 Q*/GPT-5 會(huì)像上述情況一樣令人印象深刻嗎?Yann LeCun 表示,[163]我們應(yīng)該“忽略關(guān)于 Q* 的大量胡說八道”,聲稱所有頂級人工智能實(shí)驗(yàn)室都在研究類似的事情(技術(shù)趨于可能,所以這是有道理的)。他指責(zé) Altman “長期自欺欺人”,這是對Altman 在董事會(huì)鬧劇中被解雇前一天關(guān)于 Q* 的言論的批評[164]:“[第四次] 當(dāng)我們推開無知之幕、推進(jìn)發(fā)現(xiàn)前沿時(shí),我終于有機(jī)會(huì)在場了?!?/p> 但 LeCun 可能也在試圖為 Meta 的工作辯護(hù),或者他只是對 OpenAI 收購 Brown 感到不滿,Brown 在 LeCun 的 FAIR 實(shí)驗(yàn)室創(chuàng)造了 Libratus(撲克)和 CICERO(外交)。(為了支持 LeCun 的警告,我們還應(yīng)該注意到,Karpathy 說這還沒有完成,Brown 只是暗示了他未來的工作,而不是已經(jīng)存在的東西。) 就實(shí)際結(jié)果而言,考慮到我們目前掌握的有關(guān) AI 推理的背景和證據(jù)數(shù)量, Flowers (一位半可靠的 OpenAI 泄密者)的評論表明,[165]最新的 GPT-4 turbo 版本[166]是 OpenAI 目前在這方面最先進(jìn)的版本。The Information 報(bào)道稱[167],Q* 可以解決以前從未見過的數(shù)學(xué)問題,而事實(shí)上,新的 GPT-4 turbo 在數(shù)學(xué)/代碼問題上改進(jìn)最多(數(shù)學(xué)任務(wù)能最好地顯示推理能力的早期信號)。OpenAI 選擇這個(gè)低調(diào)的預(yù)覽來通過 GPT-4 評估 Q* 作為以推理為中心的模型,在賦予 GPT-5 這種智能之前進(jìn)行一次“不令人震驚”的中期公開發(fā)布,這也是有道理的。 我敢打賭,GPT-5 將是一個(gè)純粹的 LLM,具有顯著增強(qiáng)的推理能力,借鑒 Q* 類 RL 模型。9[168]除此之外,OpenAI 將繼續(xù)進(jìn)一步探索如何將這兩條尚未完全融合的研究路線結(jié)合在一起。 個(gè)性化我就長話短說吧。個(gè)性化就是讓用戶與人工智能建立更親密的關(guān)系。用戶無法將 ChatGPT 變成他們想要的定制助手。系統(tǒng)提示、微調(diào)、RAG 和其他技術(shù)允許用戶引導(dǎo)聊天機(jī)器人按照他們想要的行為行事,但就人工智能對用戶的了解和用戶對人工智能的控制而言(以及它發(fā)送到云端以獲得服務(wù)器響應(yīng)的數(shù)據(jù)而言),這是不夠的。如果你想讓人工智能更多地了解你,你需要提供更多的數(shù)據(jù),這反過來會(huì)降低你的隱私。這是一個(gè)關(guān)鍵的權(quán)衡。 如果 AI 公司不想讓客戶冒險(xiǎn)采用開源技術(shù),即使這需要付出更多努力(Llama 3 讓這種轉(zhuǎn)變比以往任何時(shí)候都更具吸引力),那么他們就需要找到一種讓他們和客戶都滿意的折衷解決方案。在權(quán)力和隱私之間是否存在令人滿意的中間立場?我不這么認(rèn)為;如果你做大,你就去云。OpenAI 甚至沒有試圖讓個(gè)性化成為 GPT-5 的強(qiáng)項(xiàng)。原因之一是:該模型將非常龐大且計(jì)算量很大,因此不要考慮本地處理和數(shù)據(jù)隱私(大多數(shù)企業(yè)不愿意將他們的數(shù)據(jù)發(fā)送給 OpenAI)。 除了隱私和設(shè)備處理之外,還有其他一些東西可以實(shí)現(xiàn)新的個(gè)性化水平(其他公司已經(jīng)實(shí)現(xiàn)了,特別是[谷歌](https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#context-window:~:text=In our research%2C we’ve also successfully tested up to 10 million tokens)和Magic [169],盡管只有谷歌公開發(fā)布了具有此功能的模型):數(shù)百萬個(gè)令牌上下文窗口。 從向 ChatGPT 提出兩個(gè)句子的問題到能夠用包含十年工作成果的 400 頁 PDF 填充提示窗口,ChatGPT 可以幫助您檢索其中可能隱藏的任何內(nèi)容,適用性有了很大的提高。為什么以前沒有這個(gè)功能?因?yàn)閷θ绱硕嗟妮斎胩崾具M(jìn)行推理的成本非常高,而且隨著您添加的每一個(gè)單詞,成本會(huì)以二次方的方式變得更加難以承受。這就是所謂的“二次注意力瓶頸”。然而,代碼似乎已經(jīng)被破解了;谷歌[170]和Meta 的新研究[171]表明,二次瓶頸已不復(fù)存在。 一旦 PDF 的長度可以無限長,Ask Your PDF 就是一款很棒的應(yīng)用程序,但現(xiàn)在百萬個(gè)標(biāo)記窗口可以實(shí)現(xiàn)一些新東西,而十萬個(gè)標(biāo)記窗口則無法實(shí)現(xiàn):“ Ask My Life [172]”類別的應(yīng)用程序。我不確定 GPT-5 的上下文窗口大小是多少,但考慮到像 Magic 這樣的年輕初創(chuàng)公司似乎已經(jīng)通過數(shù)百萬個(gè)標(biāo)記窗口取得了巨大的成果——并且考慮到 Altman 明確提到個(gè)性化是必備的 AI 功能——OpenAI 至少必須匹配這個(gè)賭注。 可靠性可靠性是懷疑論者的最愛。我認(rèn)為 LLM 不可靠(例如幻覺)是人們認(rèn)為生成式 AI 的價(jià)值主張不夠清晰以至于無法獲得報(bào)酬的主要原因之一[173],也是增長停滯[174]和使用停滯的原因[175],也是一些專家認(rèn)為它們是一種“有趣的消遣[176]”而不是提高生產(chǎn)力[177](即使可以,也并不總是很順利[178])的原因。這并不是每個(gè)人對 LLM 的體驗(yàn),但它足夠突出,以至于公司不應(yīng)該否認(rèn)可靠性是他們需要解決的問題(特別是如果他們希望人類使用這項(xiàng)技術(shù)來幫助解決高風(fēng)險(xiǎn)類別的案件)。 可靠性是任何科技產(chǎn)品的關(guān)鍵,那么為什么這些大型人工智能模型很難做到這一點(diǎn)呢?我發(fā)現(xiàn)一個(gè)有助于理解這一點(diǎn)的概念是,像 GPT-5 這樣的東西既不是發(fā)明也不是發(fā)現(xiàn)。它們最好被描述為被發(fā)現(xiàn)的發(fā)明。即使是更接近構(gòu)建現(xiàn)代人工智能的人(更不用說用戶或投資者)也不知道如何解釋輸入查詢并獲得輸出后模型內(nèi)部發(fā)生的事情。(機(jī)械可解釋性是一個(gè)針對這一問題的熱門研究領(lǐng)域,但仍處于早期階段。如果你對此感興趣,請閱讀Anthropic 的作品。)[179] 就好像 GPT-5 及其同類是先進(jìn)文明遺留下來的古老設(shè)備,而我們恰好在考古硅片挖掘中偶然發(fā)現(xiàn)了它們。它們是我們發(fā)現(xiàn)的發(fā)明,現(xiàn)在我們正試圖弄清楚它們是什么、它們?nèi)绾喂ぷ?,以及如何使它們的行為可解釋和可預(yù)測。我們所認(rèn)為的不可靠性僅僅是對文物理解不夠的后續(xù)后果。這就是為什么盡管公司在客戶流失和企業(yè)疑慮方面損失了數(shù)百萬美元,但這個(gè)缺陷仍未得到解決。 OpenAI 正試圖通過重重護(hù)欄 (RLHF)、測試和紅隊(duì)測試讓 GPT-5 更加可靠和安全。這種方法存在缺點(diǎn)。如果我們接受我上面解釋的觀點(diǎn),即人工智能無法推理是因?yàn)椤?span>抽樣可以證明知識的存在,但不能證明知識的缺失[180]”,我們就可以將同樣的想法應(yīng)用于安全測試:抽樣可以證明安全漏洞的存在,但不能證明漏洞的缺失。這意味著無論 OpenAI 進(jìn)行多少測試,他們都無法確定他們的模型在越獄[181]、對抗性攻擊[182]或即時(shí)注入方面是完全可靠或完全安全的[183]。 OpenAI 會(huì)改善 GPT-5 的可靠性、幻覺和外部攻擊媒介嗎?GPT-3 → GPT-4 的軌跡表明他們會(huì)的[184]。他們會(huì)解決這些問題嗎?別指望它了。 代理在我看來,這一部分是整篇文章中最有趣的部分。到目前為止,我所寫的所有內(nèi)容都以某種方式對 AI 代理(特別強(qiáng)調(diào)推理)很重要。最大的問題是:GPT-5 是否具有代理能力,還是會(huì)像之前的 GPT 版本一樣,成為一個(gè)可以做很多事情但不能制定計(jì)劃并采取行動(dòng)實(shí)現(xiàn)目標(biāo)的標(biāo)準(zhǔn)語言模型?這個(gè)問題之所以重要,是因?yàn)槲覍⒁韵氯齻€(gè)原因分解如下:首先,代理對于智能的重要性怎么強(qiáng)調(diào)也不為過。其次,我們知道這種代理的原始版本在某種程度上是可能的。第三,OpenAI 一直在研究 AI 代理。 許多人認(rèn)為,自主性(即利用現(xiàn)有資源,隨著時(shí)間的推移,自主推理、計(jì)劃和行動(dòng)以達(dá)到某個(gè)目標(biāo)的能力)是法學(xué)碩士和人類級人工智能之間的缺失環(huán)節(jié)。自主性比純粹的推理更能成為智能的標(biāo)志。正如我們上面所看到的,推理是實(shí)現(xiàn)目標(biāo)的第一步,也是任何智能代理的關(guān)鍵能力,但還不夠。在現(xiàn)實(shí)世界中計(jì)劃和行動(dòng)(對于人工智能來說,模擬環(huán)境可以很好地作為初步近似)是所有人類都具備的技能。我們很早就開始以一種展現(xiàn)針對預(yù)定目標(biāo)進(jìn)行順序推理的能力的方式與世界互動(dòng)。起初,它是無意識的,不涉及推理(例如哭鬧的幼兒),但隨著我們的成長,它變成了一個(gè)復(fù)雜而有意識的過程。 解釋為什么主動(dòng)性是智能的必需品,而真空推理卻沒有多大用處的一種方法是通過顯性知識和隱性知識之間的差異。讓我們想象一個(gè)強(qiáng)大的推理能力強(qiáng)的人工智能,它可以被動(dòng)地體驗(yàn)和感知世界(例如物理專家人工智能)。閱讀網(wǎng)絡(luò)上的所有書籍將使人工智能能夠吸收并創(chuàng)建大量顯性知識(知道什么),這些知識可以形式化、轉(zhuǎn)移并寫在紙上和書上。然而,無論人工智能在物理方面有多聰明,它仍然缺乏將所有這些公式和方程式應(yīng)用于例如確保為昂貴的引力波探測實(shí)驗(yàn)提供資金的能力。 為什么?因?yàn)檫@需要了解世界的社會(huì)經(jīng)濟(jì)結(jié)構(gòu),并將這些知識應(yīng)用于不確定的新情況和許多可變因素。這種應(yīng)用概括能力超出了任何書本所能涵蓋的范圍。這就是隱性知識(訣竅);只有通過實(shí)踐和直接從已經(jīng)知道如何做的人那里學(xué)習(xí)才能學(xué)到。10[185]底線是:如果人工智能不首先獲得專門技術(shù)/隱性知識,那么無論其純推理能力有多強(qiáng),它都無法發(fā)揮有用的代理作用并實(shí)現(xiàn)目標(biāo)。11[186] 為了獲得訣竅,人類會(huì)做一些事情。但是,要以一種有助于學(xué)習(xí)和理解的方式“做”,就需要遵循行動(dòng)計(jì)劃,以通過反饋循環(huán)、實(shí)驗(yàn)、工具使用以及將所有這些與現(xiàn)有知識庫相結(jié)合的方式實(shí)現(xiàn)目標(biāo)(這就是 AlphaZero 所做的超越模仿學(xué)習(xí)的有針對性的推理的目的)。因此,對于代理來說,推理是一種達(dá)到目的的手段,而不是目的本身(這就是為什么它在真空中毫無用處)。推理提供了新的顯性知識,然后人工智能代理可以使用這些知識來計(jì)劃和行動(dòng),以獲取實(shí)現(xiàn)復(fù)雜目標(biāo)所需的隱性知識。這是智能的精髓;這是人工智能的終極形式。 這種代理智能與 GPT-4、Claude 3、Gemini 1.5 或 Llama 3 等 LLM 形成鮮明對比,這些 LLM 無法令人滿意地執(zhí)行計(jì)劃(早期基于 LLM 的代理嘗試,如BabyAGI[187]和AutoGPT[188]或失敗的自主性實(shí)驗(yàn)[189]就是證據(jù))。當(dāng)前最好的 AI 是亞代理,或者用或多或少官方的術(shù)語來說,它們是AI 工具(Gwern 在 AI 工具與 AI 代理二分法方面有很好的資源[190])。 那么,我們?nèi)绾螐?AI 工具轉(zhuǎn)變?yōu)槟軌蛲评?、?jì)劃和行動(dòng)的 AI 代理?OpenAI 能否縮小 GPT-4(AI 工具)與 GPT-5(潛在的 AI 代理)之間的差距?要回答這個(gè)問題,我們需要回顧 OpenAI 目前對代理的關(guān)注和信念,并考慮是否有一條從那里開始的道路。特別是,OpenAI 似乎確信 LLM(或更一般的 token 預(yù)測算法 (TPA),這是一個(gè)總體術(shù)語,包括其他模態(tài)的模型,例如 DALL-E、Sora 或語音引擎)足以實(shí)現(xiàn) AI 代理。 如果我們相信 OpenAI 的立場,我們首先需要回答另一個(gè)問題:人工智能代理能否從 TPA 中誕生,從而繞過對隱性知識甚至手工推理特征的需求?12[191] 這些問題背后的原理是,一個(gè)偉大的人工智能預(yù)測器/模擬器(理論上是可能的)必須以某種方式開發(fā)出一個(gè)內(nèi)部世界模型,才能做出準(zhǔn)確的預(yù)測。這樣的預(yù)測器只需深入了解世界是如何運(yùn)作的,就可以繞過獲取隱性知識的需要。例如,你不是從書本上學(xué)會(huì)騎自行車的,你必須騎它,但如果你能以任意高的細(xì)節(jié)水平預(yù)測接下來會(huì)發(fā)生什么,這可能足以讓你在第一次騎行和所有后續(xù)騎行中都準(zhǔn)確無誤。人類做不到這一點(diǎn),所以我們需要練習(xí),但人工智能可以嗎?十三[192]在介紹 AI 代理的真實(shí)示例(包括 OpenAI 正在開展的工作)之前,讓我們先對此進(jìn)行一些闡述。 標(biāo)記預(yù)測算法 (TPA) 非常強(qiáng)大。它如此強(qiáng)大,以至于整個(gè)現(xiàn)代生成式人工智能都建立在這樣一個(gè)前提上:足夠強(qiáng)大的 TPA 可以發(fā)展智能。14[193]GPT-4、Claude 3、Gemini 1.5 和 Llama 3 都是 TPA。Sora 是一個(gè) TPA(其創(chuàng)造者稱“將通過模擬一切實(shí)現(xiàn) AGI [194]”)。Voice Engine[195]和Suno[196]是 TPA。即使是像Figure 01 [197](“視頻輸入,軌跡輸出[198]”)和Voyager [199](使用 GPT-4 的 AI Minecraft 玩家)這樣不太可能的例子也本質(zhì)上是 TPA。但純粹的 TPA 可能并不是解決所有問題的最佳解決方案。例如,DeepMind 的AlphaGo[200]和AlphaZero[201]不是 TPA,而是我在“推理”部分中所說的強(qiáng)化學(xué)習(xí)、搜索和深度學(xué)習(xí)的巧妙結(jié)合。 一個(gè)智能的 AI 代理能否從像 GPT-4 一樣訓(xùn)練的 GPT-5 中脫穎而出,成為 TPA?還是說,要讓 GPT-5 成為代理,OpenAI 需要找到一個(gè)完全不同的功能來優(yōu)化,甚至找到一個(gè)新的架構(gòu)?(好得多的)GPT-4 最終能否發(fā)展出代理能力,還是 AI 代理需要完全不同?OpenAI 早期成功背后的科學(xué)頭腦 Ilya Sutskever對 TPA 的力量毫不懷疑:[202]
Sora 的創(chuàng)造者之一 Bill Peebles在最近的一次演講中更進(jìn)一步[203]:
您可能不認(rèn)同這種觀點(diǎn),但我們可以放心地推斷 Sutskever 和 Peebles 的觀點(diǎn),以了解 OpenAI 內(nèi)部的爭論除外,他們的觀點(diǎn)是一致的。如果成功,這種方法將推翻人工智能需要捕捉隱性知識或特定推理機(jī)制來規(guī)劃和行動(dòng)以實(shí)現(xiàn)目標(biāo)并變得智能的想法。也許它只是一路上的代幣。 我不認(rèn)同 OpenAI 的觀點(diǎn),原因之一是:他們沒有繞過隱性知識的挑戰(zhàn)。他們只是把它轉(zhuǎn)移到了其他地方?,F(xiàn)在的問題不是學(xué)習(xí)推理、計(jì)劃和行動(dòng),而是模擬世界。他們想要解決的實(shí)際上是預(yù)知問題[204]。Peebles 對此的討論非常隨意,以至于它看起來并不重要。但是,創(chuàng)建一個(gè)完美的預(yù)測器 / 模擬器不是比創(chuàng)建一個(gè)可以在世界上計(jì)劃和行動(dòng)的實(shí)體更難嗎?是否有可能創(chuàng)建一個(gè)可以模擬“真正逼真的動(dòng)作序列”的人工智能,正如 Peebles 在他的演講中所聲稱的那樣?我不這么認(rèn)為——我不認(rèn)為我們可以做到這一點(diǎn),而且我認(rèn)為我們無論如何都無法評估這種能力。也許 OpenAI 對 Bitter Lesson 的信任和依賴太過分了(或者也許我錯(cuò)了,我們拭目以待)。 無論如何,如今人工智能公司的選擇非常有限——盡管 Yann LeCun一直在[205]嘗試[206],但沒有人知道如何構(gòu)建計(jì)劃/行動(dòng)系統(tǒng)——因此,無論他們喜歡與否,他們都以 LLM 的形式使用基于轉(zhuǎn)換器的 TPA(包括 OpenAI)來應(yīng)對代理挑戰(zhàn),因?yàn)檫@是他們掌握的最佳技術(shù)。讓我們從現(xiàn)有的原型開始,然后跳到我們對 OpenAI 的努力的了解。 除了我上面分享的例子(例如 BabyAGI、AutoGPT、Voyager 等)之外,還有其他基于 LLM 的代理嘗試。第一個(gè)引起我注意的是 pre-ChatGPT。2022 年 9 月,Adept AI 宣布了他們所謂的 Action Transformer 的第一個(gè)版本,[207]這是一個(gè)“通過觀看人們的視頻來訓(xùn)練使用數(shù)字工具的大型變壓器”。他們發(fā)布了一些演示[208],但僅此而已。一年前,兩位聯(lián)合創(chuàng)始人離開了公司[209],這根本不是一個(gè)好兆頭(The Information 報(bào)道稱[210],Adept 正準(zhǔn)備在夏天推出一款 AI 代理。我們拭目以待)。另一家最近加入 AI 代理淘金熱的年輕初創(chuàng)公司是 Cognition AI,它最出名的是作為“第一位 AI 軟件工程師” Devin的創(chuàng)造者[211](它現(xiàn)在有一個(gè)開源表親OpenDevin [212])。一開始還算順利,但后來,一則名為“揭穿 Devin 的真面目[213]”的評論視頻曝光后迅速走紅,揭露了 Cognition 對 Devin 能力的過度炒作。結(jié)果呢?Cognition 不得不公開承認(rèn),Devin 的能力不足以“通過接手繁瑣的 Upwork 任務(wù)賺錢[214]”。 那些都是純粹的軟件代理。還有另一個(gè)分支,誠然,更難實(shí)現(xiàn):AI 代理設(shè)備。最著名的例子是Rabbit R1[215]和Humane AI Pin。R1[216]的評論即將發(fā)布[217],所以我們會(huì)等待它們(大約在這篇文章計(jì)劃發(fā)布的同一天)。Humane AI Pin 的評論上周已經(jīng)發(fā)布,它們絕對是毀滅性的。 只需知道,考慮到上述所有證據(jù),結(jié)論是,基于 LLM 的 AI 代理尚未實(shí)現(xiàn)。OpenAI 能做得更好嗎? 人工智能代理”變成一個(gè)“包羅萬象的術(shù)語”,而不是放棄自己的雄心壯志或迎接技術(shù)挑戰(zhàn)。OpenAI的 Ben Newhouse 表示,[218]他們正在打造“一款可能成為行業(yè)定義的從零到一的產(chǎn)品,利用我們即將推出的模型中最新和最優(yōu)秀的技術(shù)”。我們拭目以待。 作為本節(jié)關(guān)于代理的總結(jié),我認(rèn)為 OpenAI 尚未準(zhǔn)備好通過其最大的版本向 AI 代理邁進(jìn)。還有很多工作要做。盡管 TPA 是目前唯一可能的解決方案(直到我上面描述的推理挑戰(zhàn)得到解決),但它本身還不足以實(shí)現(xiàn)人們所追求的代理能力,以至于人們會(huì)考慮將它們用于嚴(yán)肅的項(xiàng)目。 我敢打賭,GPT-5 將會(huì)像我們之前見過的一樣,是一個(gè)多模態(tài)法學(xué)碩士——如果你愿意的話,可以說是一個(gè)改進(jìn)的 GPT-4。它周圍很可能是 GPT-4 中尚不存在的系統(tǒng),包括連接到 AI 代理模型以在互聯(lián)網(wǎng)和設(shè)備上執(zhí)行自主操作的能力(但這與人類般的 AI 代理的真正夢想相去甚遠(yuǎn))。雖然多模態(tài)、推理、個(gè)性化和可靠性是系統(tǒng)的特征(它們都將在 GPT-5 中得到改進(jìn)),但代理是一個(gè)完全不同的實(shí)體。GPT-5 不需要成為代理即可享受代理的力量。它很可能是一種原始的“AI 代理管理器”,也許是我們一致認(rèn)可的第一個(gè)這樣的管理器。 OpenAI 將在產(chǎn)品層面整合 GPT-5 和 AI 代理,以試水。他們也不會(huì)同時(shí)發(fā)布 GPT-5 和 AI 代理群(作為先例,GPT-4 和 GPT-4V 曾分離過一段時(shí)間)。我認(rèn)為 OpenAI 認(rèn)為代理能力比“僅僅”更好的多模態(tài) LLM 更難控制,因此他們將更慢地推出 AI 代理。讓我強(qiáng)調(diào)一下Newhouse的上述引言[219],以清楚說明我為什么相信這一點(diǎn):“我們正在構(gòu)建……可能成為行業(yè)定義的從零到一的產(chǎn)品,該產(chǎn)品將利用我們即將推出的**模型中最新和最出色的功能 [重點(diǎn)是我的]?!币豢罾眉磳⑼瞥龅哪P停℅PT-5)中最出色功能的產(chǎn)品(AI 代理)。 結(jié)束語就是這樣了。 希望能幫助你更好地理解 GPT-5 本身(一旦它發(fā)布,我們就會(huì)得到完整的圖景),還能幫助你更好地思考這些事情、為實(shí)現(xiàn)這一目標(biāo)必須協(xié)調(diào)運(yùn)作的許多部分,以及為更好地了解未來所必需的許多考慮因素。 引用鏈接
|
|