【原】透過ChatGPT的進(jìn)化足跡，OpenAI傳達(dá)了哪些信號(hào)？

腦極體 2022-12-14 發(fā)布于河南

展開全文

古希臘神話中，一位名叫赫爾墨斯的神，會(huì)充當(dāng)人神之間的信使，穿著帶有雙翼的飛鞋，行走在神明與人類之間。

根據(jù)《荷馬史詩》的記載：“在天神中，赫爾墨斯是最喜歡引導(dǎo)凡人前行的?！边@句話用來形容OpenAI與AI的關(guān)系，雖不中亦不遠(yuǎn)矣。

上一周，OpenAI打造的ChatGPT出盡風(fēng)頭，成為國內(nèi)外AI領(lǐng)域的頭號(hào)熱門話題。關(guān)于ChatGPT的對(duì)話能力，大家可能已經(jīng)通過很多文章感受過了。簡單總結(jié)，就是對(duì)答如流，無所不能，可替程序員寫代碼，可替商務(wù)人士出方案，還能替作家編故事。一度讓久違的 “谷歌已死”“XX職業(yè)又要被AI取代了”之類的AI威脅論說辭，開始大量出現(xiàn)了。

關(guān)于ChatGPT的神奇之處，看多了也有點(diǎn)審美疲勞了，冷靜下來思考一下：

為什么同樣是AIGC，問答、對(duì)話這類NLP領(lǐng)域應(yīng)用更容易引起轟動(dòng)，激發(fā)人們對(duì)通用人工智能的希望？

為什么同樣是預(yù)訓(xùn)練模型，相比BERT、GPT3等前輩，ChatGPT的對(duì)話能力產(chǎn)生了質(zhì)的飛躍？

為什么同樣是做AI，OpenAI要死磕NLP，從GPT1到 ChatGPT不斷迭代？

OpenAI的CEO、聯(lián)合創(chuàng)始人 Sam Altman曾說過一句話：“Trust the exponential，F(xiàn)lat looking backwards，vertical looking forwards”，相信指數(shù)的力量，平行地向后看，垂直地向前看。ChatGPT出現(xiàn)代表著，AI似乎已經(jīng)站到了指數(shù)級(jí)飛躍的關(guān)鍵點(diǎn)上。但起飛的ChatGPT，并不是一蹴而就的。

從GPT到ChatGPT，恰好代表了OpenAI在大模型領(lǐng)域切實(shí)走過的歷程，從中可以看到，OpenAI在AI大模型競爭中，已經(jīng)探索出了一條屬于自己的道路，就如同赫爾墨斯一樣，成為引領(lǐng)AI技術(shù)前進(jìn)的使者。

如果OpenAI是傳遞AI前沿進(jìn)展的赫爾墨斯，ChatGPT就是那雙帶著雙翼的金絲鞋。我們既要關(guān)注ChatGPT這雙鞋究竟有多神奇，更有必要搞懂，OpenAI選擇的這條大模型道路有何玄機(jī)。

今天，中國科技企業(yè)與研究機(jī)構(gòu)都在積極投布局大模型，求術(shù)不如問道，我們不妨從GPT這一系列模型的演變歷程，望向OpenAI關(guān)于AI與大模型的戰(zhàn)略思考與發(fā)展脈絡(luò)。

從GPT-1到ChatGPT，

超神模型的演化足跡

OpenAI在博客中寫道，ChatGPT 是從 GPT3.5 系列中的模型進(jìn)行微調(diào)而誕生的。

正如名稱中所暗示的那樣，GPT- 3.5是OpenAI設(shè)計(jì)的一系列NLP模型中的第四個(gè)，此前還出現(xiàn)了GPT - 1、GPT - 2 和 GPT - 3。

在 GPT 出現(xiàn)之前，NLP 模型主要是基于針對(duì)特定任務(wù)的大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。這會(huì)導(dǎo)致一些限制：

大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù)不易獲得；

模型僅限于所接受的訓(xùn)練，泛化能力不足；

無法執(zhí)行開箱即用的任務(wù)，限制了模型的落地應(yīng)用。

為了克服這些問題，OpenAI走上了預(yù)訓(xùn)練大模型的道路。從GPT1到ChatGPT，就是一個(gè)預(yù)訓(xùn)練模型越來越大、效果越來越強(qiáng)的過程。當(dāng)然，OpenAI的實(shí)現(xiàn)方式并不只是“大力出奇跡”那么簡單。

第一代：從有監(jiān)督到無監(jiān)督GPT-1。2018年，OpenAI推出了第一代生成式預(yù)訓(xùn)練模型GPT-1，此前，NLP任務(wù)需要通過大規(guī)模數(shù)據(jù)集來進(jìn)行有監(jiān)督的學(xué)習(xí)，需要成本高昂的數(shù)據(jù)標(biāo)注工作，GPT-1的關(guān)鍵特征是：半監(jiān)督學(xué)習(xí)。先用無監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練，在 8 個(gè) GPU 上花費(fèi) 了1 個(gè)月的時(shí)間，從大量未標(biāo)注數(shù)據(jù)中增強(qiáng)AI系統(tǒng)的語言能力，獲得大量知識(shí)，然后進(jìn)行有監(jiān)督的微調(diào)，與大型數(shù)據(jù)集集成來提高系統(tǒng)在NLP任務(wù)中的性能。

GPT-1的效果明顯，只需要極少的微調(diào)，就可以增強(qiáng)NLP模型的能力，減少對(duì)資源和數(shù)據(jù)的需求。同時(shí)，GPT-1也存在明顯的問題，一是數(shù)據(jù)局限性，GPT-1 是在互聯(lián)網(wǎng)上的書籍和文本上訓(xùn)練的，對(duì)世界的認(rèn)識(shí)不夠完整和準(zhǔn)確；二是泛化性依然不足，在一些任務(wù)上性能表現(xiàn)就會(huì)下降。

第二代：更大更高更強(qiáng)的GPT-2。2019年推出的GPT-2，與GPT-1并沒有本質(zhì)上的不同（注意這一點(diǎn)），架構(gòu)相同，使用了更大的數(shù)據(jù)集WebText，大約有40 GB的文本數(shù)據(jù)、800萬個(gè)文檔，并為模型添加了更多參數(shù)（達(dá)到驚人的 15 億個(gè)參數(shù)），來提高模型的準(zhǔn)確性，可以說是加強(qiáng)版或臃腫版的GPT-1。

GPT-2的出現(xiàn)，進(jìn)一步證明了無監(jiān)督學(xué)習(xí)的價(jià)值，以及預(yù)訓(xùn)練模型在下游NLP任務(wù)中的廣泛成功，已經(jīng)開始達(dá)到圖靈測試的要求，有研究表示，GPT-2生成的文本幾乎與《紐約時(shí)報(bào)》的真實(shí)文章（83%）一樣令人信服。

（GPT-2表現(xiàn)）

第三代：跨越式進(jìn)步的GPT-3。2020年，GPT-3的這次迭代，出現(xiàn)了重大的飛躍，成為與GPT-2迥然不同的物種。

首先，GPT-3的體量空前龐大，擁有超過 1750 億個(gè)參數(shù)，是GPT-2的 117 倍；其次，GPT-3不需要微調(diào)，它可以識(shí)別到數(shù)據(jù)中隱藏的含義，并運(yùn)用此前訓(xùn)練獲得的知識(shí)，來執(zhí)行下游任務(wù)。這意味著，哪怕從來沒有接觸過的示例，GPT-3就能理解并提供不錯(cuò)的表現(xiàn)。因此，GPT-3也在商業(yè)應(yīng)用上表現(xiàn)出了極高的穩(wěn)定性和實(shí)用性，通過云上的 API訪問來實(shí)現(xiàn)商業(yè)化。這種入得了實(shí)驗(yàn)室、下得了車間的能力，使得GPT-3成為2020年AI領(lǐng)域最驚艷的模型之一。

當(dāng)然，GPT-3也并不完美。正如聯(lián)合創(chuàng)始人 Sam Altman所說，GPT-3的水平仍處于早期階段，有時(shí)候也會(huì)犯非常愚蠢的錯(cuò)誤，我們距離真正的人工智能世界還有很長的距離。另外，GPT-3 API 的很多基礎(chǔ)模型非常龐大，需要大量的專業(yè)知識(shí)和性能優(yōu)異的機(jī)器，這使得中小企業(yè)或個(gè)人開發(fā)者使用起來比較困難。

第四代：基于理解而生成的ChatGPT。終于在2022年，OpenAI的預(yù)訓(xùn)練語言模型之路，又出現(xiàn)了顛覆式的迭代，產(chǎn)生了技術(shù)路線上的又一次方向性變化：基于人工標(biāo)注數(shù)據(jù)+強(qiáng)化學(xué)習(xí)的推理和生成。

前面提到，一開始預(yù)訓(xùn)練模型的出現(xiàn)，是為了減少監(jiān)督學(xué)習(xí)對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的依賴。而ChatGPT在GPT -3.5大規(guī)模語言模型的基礎(chǔ)上，又開始依托大量人工標(biāo)注數(shù)據(jù)（據(jù)說OpenAI找了40個(gè)博士來標(biāo)數(shù)據(jù)），這怎么又走回監(jiān)督學(xué)習(xí)的“老路”了呢？

原因是，GPT 3.5雖然很強(qiáng)，但無法理解人類指令的含義（比如寫一段博文、改一段代碼），無法判斷輸入，自然也就很難給出高質(zhì)量的輸出答案。所以O(shè)penAI通過專業(yè)的標(biāo)注人員（據(jù)說是40個(gè)博士）來寫詞條，給出相應(yīng)指令/問題的高質(zhì)量答案，在基于這些數(shù)據(jù)來調(diào)整GPT -3.5的參數(shù)，從而讓GPT -3.5具備了理解人類指令的能力。

在人工標(biāo)注訓(xùn)練數(shù)據(jù)的基礎(chǔ)上，再使用強(qiáng)化學(xué)習(xí)來增強(qiáng)預(yù)訓(xùn)練模型的能力。強(qiáng)化學(xué)習(xí)，簡單理解就是做對(duì)了獎(jiǎng)勵(lì)、做錯(cuò)了懲罰，不斷根據(jù)系統(tǒng)的打分來更新參數(shù)，從而產(chǎn)生越來越高質(zhì)量的回答。所以這幾天很多人在互動(dòng)中發(fā)現(xiàn)，ChatGPT會(huì)承認(rèn)錯(cuò)誤、會(huì)修改自己的答復(fù)，這正是因?yàn)樗邆鋸娜祟惖姆答佒袕?qiáng)化學(xué)習(xí)并重新思考的能力。

因?yàn)镃hatGPT具備了理解能力，所以才被看作是通向通用人工智能AGI的路徑。

當(dāng)然，ChatGPT也并不是完美進(jìn)化體。OpenAI的官網(wǎng)明確提示，ChatGPT“可能偶爾會(huì)生成不正確的信息”，并且“對(duì)2021年之后的世界和事件的了解有限”。一些比較難的知識(shí)，比如“紅樓夢講了什么”，ChatGPT會(huì)一本正經(jīng)地胡說八道。

從GPT模型的演進(jìn)和迭代中，可以看到OpenAI是不斷朝著自然語言理解這一目標(biāo)前進(jìn)，用更大的模型、更先進(jìn)的架構(gòu)，最終為通用人工智能找到了一條路徑。

從GPT-1到ChatGPT的縱向演變，會(huì)看到OpenAI對(duì)大模型的獨(dú)特理解與技術(shù)脈絡(luò)——通過模型預(yù)訓(xùn)練提升NLP指標(biāo)，抵達(dá)強(qiáng)人工智能。NLP領(lǐng)域究竟特殊在哪里，值得OpenAI如此執(zhí)著？

OpenAI的大模型差異化之路

前文中不難看出，OpenAI對(duì)于文本生成模型的執(zhí)著，因?yàn)樽鰤虻镁?、投入夠多，所以能夠做得更好，是非常有長期戰(zhàn)略定力的。

與之相比，和GPT-1同年推出的預(yù)訓(xùn)練模型，還有谷歌發(fā)布的BERT，但后者在火爆一段時(shí)間之后影響力明顯減弱；而NLP問答領(lǐng)域一向由Meta引領(lǐng)，Meta AI 的 OPT 模型和GPT-3 達(dá)到了同等的參數(shù)量，但效果就不如OpenAI。同期選手中，OpenAI對(duì)于語言模型的用心顯然是更多的。

一方面是資源投入，無論是越來越大的模型，需要消耗龐大的算力資源，ChatGPT所需要的高質(zhì)量標(biāo)注數(shù)據(jù)，依靠博士級(jí)別的專業(yè)人士來完成，比起將數(shù)據(jù)標(biāo)注任務(wù)分發(fā)給眾包平臺(tái)，顯然會(huì)消耗更多的人力和財(cái)力。

另一方面，是技術(shù)投入，大規(guī)模預(yù)訓(xùn)練、增強(qiáng)學(xué)習(xí)等技術(shù)都用在提升NLP對(duì)話系統(tǒng)在開放通用領(lǐng)域上的理解和推理能力。NLP是認(rèn)知智能，要提升就必須解決知識(shí)依賴，而知識(shí)又是非常離散且難以表示的，要解決帶標(biāo)數(shù)據(jù)不足、常識(shí)知識(shí)不足等問題，是非常具有技術(shù)挑戰(zhàn)的。多年前IBM的Frederick Jelinek就說過：“每當(dāng)我開除一個(gè)語言學(xué)家，語音識(shí)別系統(tǒng)的性能就會(huì)改善一些。”頗有種“解決不了問題，就解決提出問題的人”的既視感。所以也可以說，OpenAI選擇了一條更難走的路，去解決真正困難的問題。

此外，聚焦NLP領(lǐng)域也意味著OpenAI會(huì)承擔(dān)隱形的機(jī)會(huì)成本。

今年AIGC（AI生成內(nèi)容）在資本市場和應(yīng)用市場都有很大的進(jìn)展，與AI作畫、音視頻生成、AlphaFold2所解決的蛋白質(zhì)結(jié)構(gòu)預(yù)測等生成任務(wù)相比，NLP任務(wù)都是直接用詞匯和符號(hào)來表達(dá)概念，此類模型通過“API+云服務(wù)”來完成商業(yè)化服務(wù)，無論是云資源的消耗量還是接口調(diào)用服務(wù)收費(fèi)，所獲得的收益也是遠(yuǎn)不及圖像音視頻或科學(xué)計(jì)算的。拿同樣的精力做十個(gè)八個(gè)Dalle模型，肯定能賺得更多。

科技博主王詠剛在博客中分享了一個(gè)故事，稱與OpenAI的兩位聯(lián)合創(chuàng)始人交流，發(fā)現(xiàn)這二人甚至不知道AIGC是什么意思！

說到這里，或許可以得出結(jié)論，OpenAI作為一個(gè)旨在“實(shí)現(xiàn)安全的通用人工智能(AGI)”的公司，就是在不計(jì)投入、不計(jì)商業(yè)回報(bào)，專心致志地通過過預(yù)訓(xùn)練大模型來提升NLP任務(wù)的各項(xiàng)指標(biāo)，從而接近AGI的愿景。

為什么OpenAI能夠走出這條引領(lǐng)潮流的大模型差異化之路呢？

一方面是NLP的特殊之處。

NLP 不是魔術(shù)，但是，其結(jié)果有時(shí)幾乎就是魔術(shù)一般神奇。通用人工智能必須具備認(rèn)知智能，這也是目前制約人工智能取得更大突破和更廣泛應(yīng)用的關(guān)鍵瓶頸，而NLP正是認(rèn)知智能的核心。Geoffrey Hinton、Yann LeCun都曾說過類似的觀點(diǎn)，深度學(xué)習(xí)的下一個(gè)大的進(jìn)展，應(yīng)該是讓神經(jīng)網(wǎng)絡(luò)真正理解文檔的內(nèi)容。

也就是說，當(dāng)AI能理解自然語言了，AGI可能就實(shí)現(xiàn)了。

另外，OpenAI的運(yùn)行模式也起到了關(guān)鍵的影響。

突破性創(chuàng)新早期需要大量的投入，大模型的開發(fā)需要大量的基礎(chǔ)設(shè)施投入，而ChatGPT的對(duì)話系統(tǒng)短期內(nèi)很難靠調(diào)用量的規(guī)模化來攤平研發(fā)成本。因此，OpenAI是一個(gè)非營利性研究機(jī)構(gòu)，沒有迫切的商業(yè)化壓力，因此可以更專注于NLP領(lǐng)域的基礎(chǔ)研究，這是商業(yè)型AI公司所很難實(shí)現(xiàn)的。

2011年，自然語言領(lǐng)域的泰斗肯尼斯·丘吉(Kenneth Church)發(fā)表了一篇長文《鐘擺擺得太遠(yuǎn)》(A Pendulum Swung Too Far)，其中提到：我們這一代學(xué)者趕上了經(jīng)驗(yàn)主義的黃金時(shí)代，把唾手可得的低枝果實(shí)采摘下來，留給下一代的都是“難啃的硬骨頭”。

深度學(xué)習(xí)是經(jīng)驗(yàn)主義的一個(gè)新高峰，而這個(gè)領(lǐng)域的低枝果實(shí)也總有摘完的一天，近年來有大量AI科學(xué)家發(fā)出警告，深度學(xué)習(xí)面臨很多局限性，單純用深度學(xué)習(xí)很難解決一些復(fù)雜任務(wù)，或許不用太久，基礎(chǔ)性突破就會(huì)成為AI產(chǎn)業(yè)的重要支撐。

GPT的演進(jìn)也說明了，AI的突破需要循序漸進(jìn)、從小到大地一步步實(shí)現(xiàn)，今天，每家AI企業(yè)和研究機(jī)構(gòu)都在做大模型，相比CV計(jì)算機(jī)視覺、數(shù)字人、元宇宙等AI應(yīng)用，NLP要顯得暗淡很多。而如果一窩蜂去摘容易的果實(shí)，最終會(huì)制約AI深入產(chǎn)業(yè)的腳步。

ChatGPT的出現(xiàn)提醒我們，唯有啃下基礎(chǔ)領(lǐng)域的硬骨頭，才能真正為AI帶來質(zhì)變。