小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

我們舉辦了一場推理模型“年終考試”,最終奪冠的居然是

 新用戶84877682 2024-12-31 發(fā)布于浙江

推理模型不僅能夠模仿人類思維,還能跨越知識領(lǐng)域,將信息整合并生成新的知識,這正是AGI實現(xiàn)通用性的基礎(chǔ)。

撰文張賀飛
編輯沈菲菲

笛卡爾說:“我思,故我在?!?/span>

思考是文明存在的根本,是人類探索未知的永恒追求,現(xiàn)在也成了大模型技術(shù)演進(jìn)的一個重要方向。

自O(shè)penAI在9月中旬悄然發(fā)布o(jì)1模型后,一系列推理模型陸續(xù)開放測試。比如通義千問的QwQ、deepseek的R1、Kimi的K1以及智譜剛剛發(fā)布的GLM-Zero的初代版本GLM-Zero-Preview(智譜清言同步上線了智能體“Zero推理模型”)。

正好到了年末,我們萌生了舉辦一場推理模型“年終考試”的想法。

在“考試”正式開始前,先來簡單科普下推理模型的特點:相較于基座模型,推理模型在回答問題前會像人類一樣進(jìn)行更長時間的“思考”,不斷驗證和糾錯,更擅長編程、數(shù)學(xué)、科學(xué)等任務(wù)。

所以,這是一場面向“理科生”的考試。

需要說明的是,我們沒有使用AIME2024、MATH500等專業(yè)的數(shù)據(jù)集,也無意對各個推理模型進(jìn)行專業(yè)測評和排名,僅適用于多數(shù)人在日常生活中可能遇到的問題。

譬如給孩子輔導(dǎo)作業(yè)、應(yīng)付面試時的“奇葩問題”、和朋友一起玩劇本殺時的推理游戲等等,和大家一起探索各個推理模型的“長項”和“短板”。

考試規(guī)則

一共有六道考題,分別用高三數(shù)學(xué)的單選題、多選題和計算題測試模型的數(shù)學(xué)計算能力,用一道常見的編程題目測試模型的編程能力,用一道邏輯問題和一道海龜湯問題測試模型的推理能力。

分?jǐn)?shù)評定分為三個維度,最終根據(jù)推理結(jié)果(占比60%)、推理過程(占比25%)、推理時間(占比15%)加權(quán)平均??紤]到單次測試存在的不確定性,滿分為100分,兜底分?jǐn)?shù)為60分(即使做錯了也有60分)。

考生名單:OpenAI o1、通義千問QwQ-32B-preview、deepseek深度思考(R1)、Kimi視覺思考版(K1)和智譜GLM-Zero。

下面,考試正式開始。

第一題:單選題


考慮到不少人曾經(jīng)拿高考真題測試,為了防止可能的“作弊”行為,我們從《2024屆浙江省鎮(zhèn)海中學(xué)高三下學(xué)期期中數(shù)學(xué)試題》篩選了一道單選題目進(jìn)行測試。(難度的話,至少本科畢業(yè)十年的我們是不會做的。

鑒于測試的過程比較無趣,我們把5個模型的測試錄屏放在了視頻中,感興趣的小伙伴可以點擊觀看,也可以直接查看最終的“考試”結(jié)果。

第一題成績揭曉


五個推理模型均給出了正確答案。

其中o1模型的推理速度是最快的,推理過程簡單高效,直接給出了計算過程和結(jié)果;可能是剛上線的緣故,GLM-Zero的推理速度相對慢一些,但推理過程是最符合人類思維的(在思維鏈中可以清晰地看到自我反思和優(yōu)化、將復(fù)雜問題分解,并嘗試用不同方法解決問題),可以作為解題的參考答案。另外三個模型的推理速度比o1稍慢,但在結(jié)果和推理過程上可以和o1媲美。

第二題:多選題


題目來源和單選題一樣,難度有所增加,更考驗?zāi)P吞幚韽?fù)雜問題的能力,以及思考的方式和過程。(PS:我們在考前進(jìn)行過類似題目的測試,部分模型每次都只給一個答案,所以在正式考試時特意給了多選題的提示。)


第二題成績揭曉


五個推理模型中,只有三個模型給出了正確答案。

o1、GLM-Zero和QwQ回答正確,Kimi視覺思考版只給出了一個正確選項,deepseek深度思考的回答是“沒有正確答案”(排除了圖像識別問題)。在三個回答正確的模型中,GLM-Zero和QwQ表現(xiàn)出了不俗的歸納與演繹能力,提供了詳細(xì)的解題過程,并通過反思進(jìn)行多次驗證,而且GLM-Zero的推理速度比上一題提升了不少。o1沒有顯示思考過程,直接給出了答案。

第三題:計算題
如果一個城市中 95%的人打了疫苗,而疫苗保護率是 90%,病毒傳播率是5%,未接種者感染率是 50%,計算城市中總感染率。
這是一道AI擬定的題目,因為表述有點“模糊不清”,但又不乏邏輯自洽,審題不仔細(xì)的話,很可能給出錯誤答案。(畢竟我們當(dāng)年就在高考試卷上吃過“馬虎”虧,也要讓AI嘗嘗什么叫審題要認(rèn)真?。。。。?/span>


第三題成績揭曉


和預(yù)料的一樣,有兩個模型“翻了車”。

這道題不僅僅計算,還考驗?zāi)P偷乃伎歼^程,能否識別中題目中的邏輯漏洞,找到最合理的假設(shè)。GLM-Zero在速度上“逆襲”了,整體表現(xiàn)比o1的表現(xiàn)還要優(yōu)秀。deepseek深度思考的推理過程看起來最完善,考慮到了多種可能,最終給到的是最合理的答案。Kimi和QwQ也考慮了多種可能,但在邏輯漏洞的理解上出現(xiàn)了偏差,最終沿著錯誤的方向進(jìn)行計算,導(dǎo)致計算結(jié)果錯誤。

第四題:編程題
寫一個程序,將一個字符串中的所有單詞翻轉(zhuǎn)(例如輸入:“Hello World”,輸出:“World Hello”)。
由于我們不是程序員,對代碼的認(rèn)知停留在了大一的C語言入門階段,所以選擇的編程題目比較基礎(chǔ),主要考驗代碼的合理性和可用性。(如果你是程序員的話,希望進(jìn)行更深度的測試,并將結(jié)果同步給我們。)


第四題成績揭曉


五個推理模型都達(dá)到了及格分。

其中GLM-Zero和Kimi的代碼解釋最為詳細(xì),雖然程序很簡單,依然進(jìn)行了逐行解釋,對新手程序員非常友好。o1模型照舊簡單高效,deepseek給出了兩種不同的實現(xiàn)方式,且均測試有效。就推理速度來看,GLM-Zero考慮到了更復(fù)雜的測試情形,反復(fù)推理驗證,導(dǎo)致耗時比其他模型長了不少。

第五題:推理題
一個房間里有三個開關(guān),分別對應(yīng)三個燈泡,你只能進(jìn)入房間一次,如何確定哪個開關(guān)對應(yīng)哪個燈泡?
據(jù)傳是微軟的面試題,主要考驗面試者的邏輯思維和判斷能力,推理模型能否通過微軟的面試呢?(本來打算用“牛過橋”的問題,據(jù)說是華為的面試題,考慮到邏輯性和答案的一致性,最終還是選擇了燈泡問題。)


第五題成績揭曉


也許是問題過于“經(jīng)典”,五個模型均順利過關(guān)。

其實也意味著,五個模型在推理上都有著不錯的能力。就細(xì)節(jié)上來看,Kimi“不小心”出現(xiàn)了格式混亂,GLM-Zero和o1都在極短時間里給出了合理的推理過程和正確答案。之所以在得分上有差距,原因是deepseek和QwQ都特意補充“確保燈泡是白熾燈”,彌補了題目本身的缺陷,在邏輯上更加合理。

第六題:海龜湯題
一名男子在彈鋼琴時,突然一根弦斷了,他立即停止彈奏并開始哭泣。這是為什么?
海龜湯問題的答案通常是開放的,涉及不同領(lǐng)域的知識,模型需要對語言細(xì)節(jié)進(jìn)行精確理解,并在回答中清晰地表達(dá)推理過程。同時需要從表面信息推導(dǎo)出隱藏的邏輯,要求模型能夠分析隱含的信息并進(jìn)行深度推理。


第六題成績揭曉


海龜湯題沒有標(biāo)準(zhǔn)答案,主要考的是推理結(jié)果的合理性。

o1模型終于“翻車”了,將問題理解為了“腦筋急轉(zhuǎn)彎”,而且推理幾乎沒有邏輯;deepseek陷入了思考死循環(huán),等待了4分多鐘后,我們被迫停止了測試;kimi、GLM-Zero和QwQ的表現(xiàn)不相上下,只是Kimi再次出現(xiàn)了格式混亂。遺憾的是,作為“理科生”的推理模型,都沒有進(jìn)行富有創(chuàng)造性的故事描述。

考試小結(jié)

我們按照文初提到的考試規(guī)則,進(jìn)行了平均分的計算,考慮到單次測試的偶發(fā)性(比如將多選題拆解為單選題,進(jìn)一步測試兩個“翻車”的模型,最終都給出了正確答案),可以說各個推理模型并未拉開太大的差距,并沒有陷入同質(zhì)化,而是各有所長。


o1模型勝在推理速度和推理正確率;QwQ-32B-preview的表現(xiàn)中規(guī)中矩;deepseek深度思考在數(shù)學(xué)計算和編程方面表現(xiàn)優(yōu)秀;Kimi視覺思考版“自我反思”能力強,在發(fā)散問題上的邏輯自洽性最佳;GLM-Zero在數(shù)學(xué)計算、編程和推理上的綜合表現(xiàn)不輸o1,可以說是目前國內(nèi)最好的推理模型。

不過,Open AI已經(jīng)發(fā)布了o3模型,整體性能比o1提升了20%,國內(nèi)的幾個推理模型仍然有很大的提升空間。其中智譜已經(jīng)公開表態(tài)將持續(xù)優(yōu)化迭代強化學(xué)習(xí)技術(shù),并將推出正式版的GLM-Zero,將深度思考的能力從數(shù)理邏輯擴展到更多更通用的技術(shù)。

寫在最后

正如OpenAI的介紹o1模型的博客文章里所提到的:“我們通往AGI的路上,已經(jīng)沒有任何阻礙?!?/span>

推理模型不僅能夠模仿人類思維,還能跨越知識領(lǐng)域,將信息整合并生成新的知識,這正是AGI實現(xiàn)通用性的基礎(chǔ)。

相較于我們的“單題測試“,推理模型在產(chǎn)業(yè)中落地的可能更大。比如在金融、醫(yī)療、法律等決策過程常涉及多變量權(quán)衡的領(lǐng)域,推理模型可以分析大量數(shù)據(jù)、找出相關(guān)性,并提供優(yōu)化的解決方案。

以醫(yī)療場景為例,基于推理的診斷模型可以幫助醫(yī)生快速排查可能病因并建議治療方案,從而提高診斷效率;再比如智譜在AutoGLM上示范的人機協(xié)作場景,推理模型能夠更好地理解人類的意圖、預(yù)測需求、并主動提出建議,將進(jìn)一步提升Agent的能力,幫助用戶解決更多類型的問題。

可以預(yù)見,2024年是大模型落地應(yīng)用的元年,在推理模型的賦能下,2025年將是AI進(jìn)一步提質(zhì)增效的一年。

主理人 | 張賀飛(Alter)

前媒體人、公關(guān),現(xiàn)專職科技自媒體

鈦媒體、36kr、創(chuàng)業(yè)邦、福布斯中國等專欄作者

轉(zhuǎn)載、商務(wù)、開白以及讀者交流,請聯(lián)系個人微信「imhefei」

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多