背景如果將大語言模型想象成一個人,那么,通過對它的人格、智商、理性與社會情緒能力進行心理測量,是不是可以清晰地描繪出大語言模型的心智成熟程度。這就是新興的人工智能心理測量學(xué)。只是,在人工智能心理測量學(xué)中,我們不再測查人類,而是測查大語言模型以及各類機器人。 在 GPT-4 發(fā)布之后,我們第一時間測查了它在理性思維能力測驗上的表現(xiàn),并將其與 GPT-3.5 的結(jié)果、253 位受過高等教育的進行對比。結(jié)果發(fā)現(xiàn),GPT-4 實現(xiàn)了大躍遷,達到了一個超越人類的水準。 詳情參見:理性思維超越人類?GPT-4真正大殺八方的是這項能力 測試流程在百度文心一言發(fā)布之后,我們第一時間獲得邀請碼,選擇了在前文中測試 GPT-3.5 與 GPT-4 一致的題目、流程。詳細說明請參考前文。這里不再啰嗦。 簡而言之,我們挑選了認知科學(xué)家用來評定人類理性思維的四類經(jīng)典測試任務(wù):語義錯覺類任務(wù);認知反射類任務(wù);證偽選擇類任務(wù);心智程序類任務(wù)。四類任務(wù)總計 26 道題目。 在測試之前,我們已經(jīng)預(yù)估文心一言的表現(xiàn)會不如 GPT-4,但最終實際測試結(jié)果還是令人大跌眼鏡,可能與百度開發(fā)團隊的認知有關(guān)系。在下文中,我會略作分析。 需要提醒的是,本報告僅僅是一個早期工作,并不完善。測試流程有無數(shù)可以改善之處。結(jié)論未來隨時可能被修正、被推翻。各位讀者請理解。 現(xiàn)在,讓我們來詳細看看測試結(jié)果。 分項測試結(jié)果語義錯覺類任務(wù)在語義錯覺類任務(wù)這里,我們挑選了 4 個任務(wù)。測試結(jié)果如下圖所示: 文心一言全部答錯。其中,第四題未指出錯誤,只說蒙娜麗莎是達·芬奇的,在盧浮宮。應(yīng)該是通過百度百科獲得了該事實性數(shù)據(jù)。如下圖所示: 認知反射類任務(wù)在認知反射類任務(wù)這里,我們挑選了三類任務(wù)。 直覺減法操作,測試結(jié)果如下圖所示: 文心一言答對第一題,其他都答錯。尤其是第三題,沒讀懂題目,在做加法。如下圖所示: 直覺序列操作,測試結(jié)果如下圖所示: 文心一言全部答錯。尤其是第一題,沒讀懂題目,解的是 3 名研究人員發(fā)表 1 篇論文要多久。如下圖所示: 直覺除法操作,測試結(jié)果如下圖所示: 文心一言全部答錯。如下圖所示: 證偽選擇類任務(wù)在這里,我選擇了經(jīng)典的沃森四卡片測驗。這是一個對于人類來說,超級困難的題目。能夠很好地完成這項任務(wù),意味著這個人的理性思維能力很不錯。 同樣,對于 AI 來說,也是同等困難。GPT-3.5 與 GPT-4 均無法很好完成,同樣,文心一言也無法很好完成。測試結(jié)果如下圖所示: 心智程序類任務(wù)這部分,我挑選了九道題目。這九道題目,是一個更龐大的人類理性思維測驗中的一部分。 這九道題目,相對來說較有代表性,代表了人類理性思維知識的方方面面,能夠較好地區(qū)分理性思維低下與理性思維較高的人。 三個模型測試結(jié)果,如下圖所示: 文心一言唯一答對的是第二題,但答得也不夠好。如下圖所示: 而有三道題,要么是答案正確,但是解釋錯誤;要么是同樣的提示語,但有時答案正確,有時答案不正確,并且解釋不夠?qū)?。這類測試結(jié)果,我們都統(tǒng)一判為錯。 而人類被試測試結(jié)果如下: 這些統(tǒng)計數(shù)據(jù)來自 253 位人類。他們普遍受過高等教育,不少擁有碩博學(xué)歷,屬于較為典型的高學(xué)歷高收入高認知群體。 大語言模型有多么像人?整體測試結(jié)果,如下圖所示: 26 道題目,GPT-3.5 答對 15 道;GPT-4 答對 23 道;文心一言答對 2 道。 需要提醒的是,這僅僅是一項早期,測試流程、測試方法都有很多可以完善之處,未來結(jié)論隨時會被推翻。 由于時間緣故,我們并沒有前三類任務(wù)人類的測試結(jié)果數(shù)據(jù),但按照過往的經(jīng)驗數(shù)據(jù),大約在 40%-60%左右的正確率,如果我們略微高估,前三類任務(wù) 17 道題總計估算為答對 10 道題,加上第四類任務(wù),人類大約答對 6 道。最終將人類的正確率估算為 26 道題目,答對 16 道。正確率大約為 62%。 62%,這也許就是什么時候,你覺得一個大語言模型像是一個真正的人一樣的臨界值。GPT-3.5 接近這個數(shù)值,所以人們被它大大地震驚住了。而 GPT-4 遠遠超越了這個值。 而百度的文心一言,只有 8%。路漫漫其修遠矣。 給百度研發(fā)團隊的一點小建議不懂 NLP 的吃瓜群眾,其實對百度 NLP 團隊做出的努力,一無所知。我說個事實,大家就明白了。在中文自然語言處理領(lǐng)域,百度提供的 NLP 開源項目是數(shù)量最多的、維護最勤奮的、質(zhì)量最好的。包括我?guī)ш犙邪l(fā)的寫匠項目,調(diào)用的也是百度 NLP 團隊開發(fā)的分詞開源包。 但是,文心一言表現(xiàn)這樣,我覺得還是無法簡簡單單地用研發(fā)時間不足來解釋、產(chǎn)品是第一版上線來敷衍。這類話可能是拿來敷衍李老板可以,但是敷衍全球同行是非常危險的。 我深深懷疑,百度該項目的研發(fā)團隊,極可能走錯路線了。作為一名既懂認知科學(xué)又懂 NLP 的從業(yè)者,我覺得,以百度的技術(shù)實力,表現(xiàn)不至于這樣。極可能是團隊領(lǐng)導(dǎo)者定錯目標了:拿到盡可能多的知識單元。 所以,新品發(fā)布會上,從 CEO 到 CTO,兩位專家,還在拿百度擁有全球最大的中文知識單元說事。 但是,這壓根不是 GPT-4 令人震驚的原因?。。?! GPT-4 這類產(chǎn)品真正令人震驚的是,從 GPT-3.5 開始,它真的像一個人類了。 這才是形成全球性碾壓式傳播的根本。 這是完全不同的另一種開發(fā)目標。也就是,如何讓 GPT-3.5 更像是一個人類,能夠更快地自我學(xué)習(xí)、自我糾錯。 中文知識單元的數(shù)量,在這個事情上毫無意義啊。 好比,我們要教會一個三歲的小朋友盡快學(xué)會說話,這個時候,有兩個重要任務(wù): 1)生命:讓她盡快明白語義、語音之間的各類規(guī)則以及如何用語義、語音表達一個物理世界。 2)生態(tài):我們是想方設(shè)法給她在家里創(chuàng)造一個有助于孩子學(xué)說話的生態(tài)。比如,我雇傭阿姨帶小美妞的時候,第一考慮就是這阿姨愛不愛說話,外不外向。顯然,一個喜歡說話、外向的阿姨,更容易帶動小美妞說話。 結(jié)果,百度該項目團隊的做法好比是,直接給一個三歲的小朋友扔了一千萬噸詞典,你背著詞典走路吧。 生命何在?生態(tài)何在? 如果始終沿著這條技術(shù)路線走下去,我懷疑在 OpenAI 團隊開源之前,不可能產(chǎn)生一個近似于數(shù)字生命的產(chǎn)品。 而 OpenAI 團隊是將大語言模型當作真正的生命來對待,從構(gòu)建一個數(shù)字生命的基本機制開始設(shè)計,一切工作都是圍繞兩個基本出發(fā)點: 1)生命:盡量促進“智能”的自發(fā)涌現(xiàn); 2)生態(tài):盡量設(shè)計一個促進有助“智能”誕生并發(fā)育的生態(tài)。 在早期,這個數(shù)字生命很幼稚,但過了千億參數(shù)級別之后,很多早期打好的良好基礎(chǔ),就會帶來極其多的“智能”涌現(xiàn)。好比小朋友從三歲學(xué)說話,長大之后,流利使用語言完成諸多大事。 我們不能在還沒有涌現(xiàn)“智能”之前,就急匆匆地去賣應(yīng)用、搞數(shù)據(jù)對接。那壓根與 GPT-4 不是一類產(chǎn)品啊。 我們究竟要的是一個數(shù)字生命,以及這個新興的數(shù)字生命與生態(tài)帶來的新世界;還是又多了一個更方便地查詢知識單元的工具。 我相信答案不言而喻。 正如我七年前在文章:認知科學(xué)看人工智能文末所寫的一樣:
這份小小報告及建議,希望對如今蜂擁而入大語言模型研發(fā)領(lǐng)域的團隊,略有啟發(fā)。也期待中國誕生足夠多、足夠好的數(shù)字生命,帶著國人一起步入新世界。 陽志平 |
|
來自: 平常心 > 《新興產(chǎn)業(yè)》