【原】我們舉辦了一場推理模型“年終考試”，最終奪冠的居然是

新用戶84877682 2024-12-31 發(fā)布于浙江

展開全文

推理模型不僅能夠模仿人類思維，還能跨越知識領(lǐng)域，將信息整合并生成新的知識，這正是AGI實現(xiàn)通用性的基礎(chǔ)。

撰文｜張賀飛

編輯｜沈菲菲

笛卡爾說：“我思，故我在?！?/span>

思考是文明存在的根本，是人類探索未知的永恒追求，現(xiàn)在也成了大模型技術(shù)演進(jìn)的一個重要方向。

自O(shè)penAI在9月中旬悄然發(fā)布o(jì)1模型后，一系列推理模型陸續(xù)開放測試。比如通義千問的QwQ、deepseek的R1、Kimi的K1以及智譜剛剛發(fā)布的GLM-Zero的初代版本GLM-Zero-Preview（智譜清言同步上線了智能體“Zero推理模型”）。

正好到了年末，我們萌生了舉辦一場推理模型“年終考試”的想法。

在“考試”正式開始前，先來簡單科普下推理模型的特點：相較于基座模型，推理模型在回答問題前會像人類一樣進(jìn)行更長時間的“思考”，不斷驗證和糾錯，更擅長編程、數(shù)學(xué)、科學(xué)等任務(wù)。

所以，這是一場面向“理科生”的考試。

需要說明的是，我們沒有使用AIME2024、MATH500等專業(yè)的數(shù)據(jù)集，也無意對各個推理模型進(jìn)行專業(yè)測評和排名，僅適用于多數(shù)人在日常生活中可能遇到的問題。

譬如給孩子輔導(dǎo)作業(yè)、應(yīng)付面試時的“奇葩問題”、和朋友一起玩劇本殺時的推理游戲等等，和大家一起探索各個推理模型的“長項”和“短板”。

考試規(guī)則

一共有六道考題，分別用高三數(shù)學(xué)的單選題、多選題和計算題測試模型的數(shù)學(xué)計算能力，用一道常見的編程題目測試模型的編程能力，用一道邏輯問題和一道海龜湯問題測試模型的推理能力。

分?jǐn)?shù)評定分為三個維度，最終根據(jù)推理結(jié)果（占比60%）、推理過程（占比25%）、推理時間（占比15%）加權(quán)平均?？紤]到單次測試存在的不確定性，滿分為100分，兜底分?jǐn)?shù)為60分（即使做錯了也有60分）。

考生名單：OpenAI o1、通義千問QwQ-32B-preview、deepseek深度思考（R1）、Kimi視覺思考版（K1）和智譜GLM-Zero。

下面，考試正式開始。

第一題：單選題

考慮到不少人曾經(jīng)拿高考真題測試，為了防止可能的“作弊”行為，我們從《2024屆浙江省鎮(zhèn)海中學(xué)高三下學(xué)期期中數(shù)學(xué)試題》篩選了一道單選題目進(jìn)行測試。（難度的話，至少本科畢業(yè)十年的我們是不會做的。）

鑒于測試的過程比較無趣，我們把5個模型的測試錄屏放在了視頻中，感興趣的小伙伴可以點擊觀看，也可以直接查看最終的“考試”結(jié)果。

第一題成績揭曉

五個推理模型均給出了正確答案。

其中o1模型的推理速度是最快的，推理過程簡單高效，直接給出了計算過程和結(jié)果；可能是剛上線的緣故，GLM-Zero的推理速度相對慢一些，但推理過程是最符合人類思維的（在思維鏈中可以清晰地看到自我反思和優(yōu)化、將復(fù)雜問題分解，并嘗試用不同方法解決問題），可以作為解題的參考答案。另外三個模型的推理速度比o1稍慢，但在結(jié)果和推理過程上可以和o1媲美。

第二題：多選題

題目來源和單選題一樣，難度有所增加，更考驗?zāi)Ｐ吞幚韽?fù)雜問題的能力，以及思考的方式和過程。（PS：我們在考前進(jìn)行過類似題目的測試，部分模型每次都只給一個答案，所以在正式考試時特意給了多選題的提示。）

第二題成績揭曉

五個推理模型中，只有三個模型給出了正確答案。

o1、GLM-Zero和QwQ回答正確，Kimi視覺思考版只給出了一個正確選項，deepseek深度思考的回答是“沒有正確答案”（排除了圖像識別問題）。在三個回答正確的模型中，GLM-Zero和QwQ表現(xiàn)出了不俗的歸納與演繹能力，提供了詳細(xì)的解題過程，并通過反思進(jìn)行多次驗證，而且GLM-Zero的推理速度比上一題提升了不少。o1沒有顯示思考過程，直接給出了答案。

第三題：計算題

如果一個城市中 95%的人打了疫苗，而疫苗保護率是 90%，病毒傳播率是5%，未接種者感染率是 50%，計算城市中總感染率。

這是一道AI擬定的題目，因為表述有點“模糊不清”，但又不乏邏輯自洽，審題不仔細(xì)的話，很可能給出錯誤答案。（畢竟我們當(dāng)年就在高考試卷上吃過“馬虎”虧，也要讓AI嘗嘗什么叫審題要認(rèn)真?。。。。?/span>

第三題成績揭曉

和預(yù)料的一樣，有兩個模型“翻了車”。

這道題不僅僅計算，還考驗?zāi)Ｐ偷乃伎歼^程，能否識別中題目中的邏輯漏洞，找到最合理的假設(shè)。GLM-Zero在速度上“逆襲”了，整體表現(xiàn)比o1的表現(xiàn)還要優(yōu)秀。deepseek深度思考的推理過程看起來最完善，考慮到了多種可能，最終給到的是最合理的答案。Kimi和QwQ也考慮了多種可能，但在邏輯漏洞的理解上出現(xiàn)了偏差，最終沿著錯誤的方向進(jìn)行計算，導(dǎo)致計算結(jié)果錯誤。

第四題：編程題

寫一個程序，將一個字符串中的所有單詞翻轉(zhuǎn)（例如輸入：“Hello World”，輸出：“World Hello”）。

由于我們不是程序員，對代碼的認(rèn)知停留在了大一的C語言入門階段，所以選擇的編程題目比較基礎(chǔ)，主要考驗代碼的合理性和可用性。（如果你是程序員的話，希望進(jìn)行更深度的測試，并將結(jié)果同步給我們。）

第四題成績揭曉

五個推理模型都達(dá)到了及格分。

其中GLM-Zero和Kimi的代碼解釋最為詳細(xì)，雖然程序很簡單，依然進(jìn)行了逐行解釋，對新手程序員非常友好。o1模型照舊簡單高效，deepseek給出了兩種不同的實現(xiàn)方式，且均測試有效。就推理速度來看，GLM-Zero考慮到了更復(fù)雜的測試情形，反復(fù)推理驗證，導(dǎo)致耗時比其他模型長了不少。

第五題：推理題

一個房間里有三個開關(guān)，分別對應(yīng)三個燈泡，你只能進(jìn)入房間一次，如何確定哪個開關(guān)對應(yīng)哪個燈泡？

據(jù)傳是微軟的面試題，主要考驗面試者的邏輯思維和判斷能力，推理模型能否通過微軟的面試呢？（本來打算用“牛過橋”的問題，據(jù)說是華為的面試題，考慮到邏輯性和答案的一致性，最終還是選擇了燈泡問題。）

第五題成績揭曉

也許是問題過于“經(jīng)典”，五個模型均順利過關(guān)。

其實也意味著，五個模型在推理上都有著不錯的能力。就細(xì)節(jié)上來看，Kimi“不小心”出現(xiàn)了格式混亂，GLM-Zero和o1都在極短時間里給出了合理的推理過程和正確答案。之所以在得分上有差距，原因是deepseek和QwQ都特意補充“確保燈泡是白熾燈”，彌補了題目本身的缺陷，在邏輯上更加合理。

第六題：海龜湯題

一名男子在彈鋼琴時，突然一根弦斷了，他立即停止彈奏并開始哭泣。這是為什么？

海龜湯問題的答案通常是開放的，涉及不同領(lǐng)域的知識，模型需要對語言細(xì)節(jié)進(jìn)行精確理解，并在回答中清晰地表達(dá)推理過程。同時需要從表面信息推導(dǎo)出隱藏的邏輯，要求模型能夠分析隱含的信息并進(jìn)行深度推理。

第六題成績揭曉

海龜湯題沒有標(biāo)準(zhǔn)答案，主要考的是推理結(jié)果的合理性。

o1模型終于“翻車”了，將問題理解為了“腦筋急轉(zhuǎn)彎”，而且推理幾乎沒有邏輯；deepseek陷入了思考死循環(huán)，等待了4分多鐘后，我們被迫停止了測試；kimi、GLM-Zero和QwQ的表現(xiàn)不相上下，只是Kimi再次出現(xiàn)了格式混亂。遺憾的是，作為“理科生”的推理模型，都沒有進(jìn)行富有創(chuàng)造性的故事描述。

考試小結(jié)

我們按照文初提到的考試規(guī)則，進(jìn)行了平均分的計算，考慮到單次測試的偶發(fā)性（比如將多選題拆解為單選題，進(jìn)一步測試兩個“翻車”的模型，最終都給出了正確答案），可以說各個推理模型并未拉開太大的差距，并沒有陷入同質(zhì)化，而是各有所長。

o1模型勝在推理速度和推理正確率；QwQ-32B-preview的表現(xiàn)中規(guī)中矩；deepseek深度思考在數(shù)學(xué)計算和編程方面表現(xiàn)優(yōu)秀；Kimi視覺思考版“自我反思”能力強，在發(fā)散問題上的邏輯自洽性最佳；GLM-Zero在數(shù)學(xué)計算、編程和推理上的綜合表現(xiàn)不輸o1，可以說是目前國內(nèi)最好的推理模型。

不過，Open AI已經(jīng)發(fā)布了o3模型，整體性能比o1提升了20%，國內(nèi)的幾個推理模型仍然有很大的提升空間。其中智譜已經(jīng)公開表態(tài)將持續(xù)優(yōu)化迭代強化學(xué)習(xí)技術(shù)，并將推出正式版的GLM-Zero，將深度思考的能力從數(shù)理邏輯擴展到更多更通用的技術(shù)。

寫在最后

正如OpenAI的介紹o1模型的博客文章里所提到的：“我們通往AGI的路上，已經(jīng)沒有任何阻礙?！?/span>

推理模型不僅能夠模仿人類思維，還能跨越知識領(lǐng)域，將信息整合并生成新的知識，這正是AGI實現(xiàn)通用性的基礎(chǔ)。

相較于我們的“單題測試“，推理模型在產(chǎn)業(yè)中落地的可能更大。比如在金融、醫(yī)療、法律等決策過程常涉及多變量權(quán)衡的領(lǐng)域，推理模型可以分析大量數(shù)據(jù)、找出相關(guān)性，并提供優(yōu)化的解決方案。

以醫(yī)療場景為例，基于推理的診斷模型可以幫助醫(yī)生快速排查可能病因并建議治療方案，從而提高診斷效率；再比如智譜在AutoGLM上示范的人機協(xié)作場景，推理模型能夠更好地理解人類的意圖、預(yù)測需求、并主動提出建議，將進(jìn)一步提升Agent的能力，幫助用戶解決更多類型的問題。

可以預(yù)見，2024年是大模型落地應(yīng)用的元年，在推理模型的賦能下，2025年將是AI進(jìn)一步提質(zhì)增效的一年。

主理人 | 張賀飛（Alter）

前媒體人、公關(guān)，現(xiàn)專職科技自媒體

鈦媒體、36kr、創(chuàng)業(yè)邦、福布斯中國等專欄作者

轉(zhuǎn)載、商務(wù)、開白以及讀者交流，請聯(lián)系個人微信「imhefei」