? 作者|劉沛羽 機構|中國人民大學 研究方向 | 自然語言處理,模型壓縮 本文介紹并討論了對OpenAI最新發(fā)布的大語言模型GPT-4在北京高考題目上的測試結果。文章也同步發(fā)布在AI Box知乎專欄(知乎搜索 AI Box專欄),歡迎大家在知乎專欄的文章下方評論留言,交流探討! 當GPT-4進入北京市2022高考考場能有什么表現(xiàn)?
GPT-4是最近很火的大型語言模型,可以在多個任務上取得人類水平的表現(xiàn)。在最新發(fā)布的OpenAI技術報告中,GPT-4在考試類的測試中表現(xiàn)搶眼,如GRE語文考試中,取得169分的成績(滿分170)。不過要是聊到考試,論考察面之廣,那還得是高考。問題來了,如果讓GPT-4來做北京市2022高考會有什么結果呢?本文就來幫大家來做這個測試。我們匯總了北京市2022高考的語文、數(shù)學、英語、物理、化學、生物、歷史、生物的考試題,盡量考慮所有的主觀題和客觀題。本文和現(xiàn)有高考評測的區(qū)別,之前大家只關注選擇題,這次評估我們特意將非選擇題囊括進來,同時,針對一些大型計算題(如,物理計算題)還會逐句分析GPT-4的解答過程,而不是只看答案,另外如果答錯了還會問GPT-4為什么這么答。之所以這么做,因為我們嘗試從做高考題的角度,深入分析GPT-4的能力邊界在哪,希望對于大模型有更加全面的認識。 1. 考試結果 話不多說,直接上考試結果。我們匯總了北京市2022高考的語文、數(shù)學、英語、物理、化學、生物的考試題,包括所有的主觀題和客觀題,題目和答案來自2022年高考真題??荚嚱Y果如下: (注:在測試的2022北京地理考試中,所有的題目都與圖強相關,因此無法給出評測) 上述成績不考慮英語聽說考試(50分)以及大部分卷面中需要看圖的題,如果我們粗略的按照平均正確率來算,大概是72%,按照總分750的話也就大概是541分,高出北京高考的本科批錄取控制分數(shù)線116分(北京一本和二本合并為本科批)。好在我們不用操心給GPT-4填報志愿的問題,這個評估只是為了讓大家對GPT-4的能力有個直觀的認識,后面我們將詳細來講評測過程中我們對GPT-4細分能力的發(fā)現(xiàn)。 2. 評估方法 盡管考試題具備參考答案,但我們的評測過程仍面臨以下幾個挑戰(zhàn):(1)圖像的表示。這一問題在理科以及地理領域尤為突出,我們分為三種情況處理。首先,最簡單的情況是,圖示的存在與否并不影響題目理解,因此可以直接忽略。其次,較為復雜一點的是,圖示提供了額外的信息(比如物理中的電板電荷極性)我們會以括號輔助的形式添加到題目中,以協(xié)助GPT-4理解,前兩種情況相對較少。最困難的也是常見的情況是,題目中包含難以用語言詳細描述但對解題至關重要的圖像(物理中的電路圖,化學里的大型化學式以及地理中的地圖等),我們只能跳過該題目不進行統(tǒng)計。(注:截止寫稿之日,我們暫時還沒有拿到GPT-4支持圖像輸入的方式) (2)計算符號的表示。針對數(shù)學和物理中的公式,我們發(fā)現(xiàn)不管用文本類輸入(如,t_0)還是用latex輸入(如, (3)非選擇題答案不確定。這種情況涵蓋文科作文類題目和理科證明類題目,由于很難給出有說服力的得分,因此我們不會在上面的統(tǒng)計表中給出分數(shù)。然而,在后續(xù)的分析環(huán)節(jié),我們仍將考慮這些題目,對GPT-4的能力進行探討。 3. 知識存儲 大型語言模型通常都會有常識的積累,比如天空是藍色的,足球是圓的。但這里關注的知識則是側重需要學習過書本而非體驗生活就能獲取的那些知識。我們主要分2個部分來考慮,文科知識,即語文的古詩詞,歷史知識等,理科規(guī)律,如物理的牛頓定律,化學的元素特征等。 3.1 文科知識 在語文考試的詩詞補充題目中,部分詩詞填寫錯誤。只有第(3)是正確的,其他均錯誤。 高考語文14題 我們從知識記憶和問題理解2個角度來嘗試理解它出錯的原因。首先,經(jīng)過測試發(fā)現(xiàn)GPT-4的知識儲備還是很強的,以第(1)問為例,我們重開窗口來單獨提問《錦瑟》中間兩聯(lián),則會收到正確的回復: 甚至我們將這個范圍擴展到其他的課本文章也可以收到正確的回復。以朱自清散文《背影》為例,第一句為“我與父親不相見已二年余了,我最不能忘記的是他的背影。”,GPT-4回復: 看起來記憶知識并不存在問題,可能回答問題的時候對題目的要求理解可能存在問題。因此,我們降低了題目難度,直接將問題改為“幫我填寫下面空白處的詩詞,(1)《錦瑟》中間兩聯(lián):“莊生曉夢迷蝴蝶,望帝春心托杜鵑。_________,_________?!?,經(jīng)過多次測試發(fā)現(xiàn),GPT-4依然很難正確,總是輕易的將其他詩詞中的句子填補進來,但是GPT-3.5在測試中,雖然原題容易答錯,但采用前述簡化后的題目則很快可以對應上正確的答案。那么GPT-4這里的考慮就有些費解了。 對于其他學科,這里簡單舉例,如政治考試中“基本認識”,如“全面建成小康社會是改革開放以來黨的全部理論和實踐的主題”是正確的,而“歷史性成就的取得表明我國已進入社會主義高級階段“是錯誤的;歷史考試中,將史料涉及的歷史事件按照時間順序排序正確,說明對史實的記憶也是正確的。 3.2 理科規(guī)律 對于理科而言,需要記憶的主要包含公式定理和基本概念。公式定理特點是只包含較少的符號,但是不能出一絲差錯,否則所有的計算都將失去意義,而化學和生物的基本概念有點類似文科的內容是需要死記硬背。通過測試發(fā)現(xiàn)這些對于GPT-4而言都不是問題。例如數(shù)學考試中基本數(shù)學公式:計算復數(shù)的模,圓到直線的距離;物理考試中電場強度計算公式;生物考試細菌是一種原核生物,其DNA分布在細胞質中,不在細胞核中; 化學考試中的化學反應方程,向硫化氫溶液中通入氯氣生成黃色沉淀,GPT-4能清楚描述反應生成的各種物質; 高考化學第6題 具體的例子這里不再一一細數(shù)。 4.閱讀理解 閱讀理解本身就是大型語言模型的強項,例如ChatGPT已經(jīng)可以根據(jù)人類的指令完成特定的任務,如機器翻譯,情感分類等。但是在高考這個場景下,對于GPT-4而言,存在一些特殊的困難,我們分為純文本類和符號類類分別討論。首先,對于純文本類,我們所有的測試都是在全中文的場景下測試的,而GPT-4通常被認為英文的表達能力是最強的,因此跨語言的理解是一個潛在問題,例如題目的理解是否正確,尤其是在語文考試中,古文、詩詞的理解是否正確,都會影響GPT-4考試的正確率。另外,對于符號類問題,比較直接的情況就是數(shù)學公式,除此之外還有化學表達式(如,水的表達式 4.1 文本理解 首先,我們可以看一下語文的詩詞鑒賞題目。詩詞語言涉及到的中文理解能力要求比簡單理解題目高不少。如高考語文詩詞賞析,杜甫的《病柏》,13小題詢問這周詩主要意象有哪些,分別說明這些意象有何意韻。
參考答案中沒有固定的形式,但是提到了2個要點:
對比GPT-4和上面要點,首先可以看出GPT-4對各個意象的理解還是比較確切的,比如柏樹聯(lián)想到世事難料,但是這個回答其實很難給分,原因在于要點中“時代背景”是一個重要內容,GPT-4將對文章的理解落腳到了詩人自己的經(jīng)歷,而不是對國運時局的感慨。本質上來說,這個問題似乎是一種通過多做題可以鍛煉出來的答題技巧,整體來說,對古詩詞理解到這個程度感覺還是可以的。 另外,在歷史考試中的一道題中我們發(fā)現(xiàn)GPT-4對于題意的理解有時候也會出現(xiàn)問題。例如: 這道題正確答案是B。其實這個題GPT-4答錯的原因,在于這個題面最后一句話“這意味著“中的”這“字如何理解,顯然GPT-4理解成了清政府的做法,而事實上,正確答案似乎在問“英國提出的要求”意味著什么。 縱觀所有考試來看,GPT-4在中文題目理解,甚至語文的古文、詩詞理解上大體也是達標的,但是偶爾還是會有一些理解偏差的問題。 4.2 符號理解 理科考試中經(jīng)常會出現(xiàn)符號表達,如數(shù)學的公式,以及化學中的符號等。對于數(shù)學考試而言,我們發(fā)現(xiàn)不管使用文本形式輸入符號還是latex輸入,都不會影響GPT-4的理解。這個其實也在我們的意料之中。比較有趣的是化學符號其實對于GPT-4而言也不是問題。 (1)化學表達式的理解。前面的高考化學第6題中涉及到各種物質溶液,如硫化氫( (2)物理變量的理解。物理考試題目中變量通常是數(shù)字加單位的形式,如 5. 復雜計算 在理科問題的處理上,GPT-4的答題方式遵循著一步一步思考的模式。即它會首先拆解題意,然后根據(jù)理解表達列式,最后統(tǒng)一求解。這個思路沒有問題,但是我們發(fā)現(xiàn)GPT-4解題思路可能是正確的,最后的答案卻是錯誤的,主要是解方程的能力依然存在問題。 (1)方程求解錯誤,很難修正。這里我們同樣以一道高考物理考試18題為例。GPT-4已經(jīng)成功分析了題意并正確列出來了方程 GPT-3.5求解方程 GPT-4求解方程出錯 (2)計算中存在筆誤,可被修正。同樣對于高考物理19題第(3)問,GPT-4在最初列式中出現(xiàn)問題,導致整體到計算錯誤。有趣的是,可以在問題后進行反問,“請檢查一下你做的過程是否正確“,GPT-4即可及時修正并給出正確答案。與前一種情況不同,這個我們可以理解為是一種“筆誤”,可以通過及時檢查來進行修正。 高考物理19題(3)問錯誤列式 通過提示修改可以改正 而對已經(jīng)正確的解答而言,多次提示檢查,基本不會將正確的改錯。 6. 可探索的方向 通過整體的測試,我們大概對GPT-4做高考題有了一個相對全面的認識。有人可能會問,我就想要一個能回答出標準答案的GPT-4,能有什么方法?簡單來說,可能有以下幾個思路: (1)多做真題。從語文的古文回答上看出,GPT-4的理解能力到位但是回答技巧欠缺,針對這個問題,我們最簡單的方法就是多做高考真題。對于GPT-4而言,其實這個問題可以簡化為一個高考題問答場景下的模型微調問題。我們的目標是,讓模型可以多看一些示例的問題和標準的答案,盡量讓它的回復更貼合標準答案的方式。 (2)計算能力有待提升。從物理題的解答來看,大多數(shù)情況下,GPT-4可以根據(jù)題意列出正確的表達式,但是解方程能力有待加強。在對比GPT-3.5過程中,我們發(fā)現(xiàn)GPT-4能力似乎還是有所下降的。不過給出一個方程進行計算,其實可以作為一個獨立的模塊,考慮接入外部的工具來執(zhí)行,會是一個較為容易的解決思路。 (3)及時檢查。從前面第5部分的經(jīng)驗來看,我們可以通過提示“請檢查一下你做的過程是否正確“來督促GPT-4執(zhí)行檢查,可能會降低錯誤率。 7. 未來的工作 本文盡最大努力,希望給GPT-4一個完整的高考評分,但是依然避免不了存在以下局限性。我們會在后面繼續(xù)完善整體的評估流程。 (1)缺少圖示。盡管GPT-4宣稱已經(jīng)可以輸入圖像,但是截止目前,我們還沒有拿到可用的方式,所以僅在文本輸入的條件下,先進行了一輪評測,如果近期我們可以拿到支持圖像輸入的GPT-4測試資格,會進一步完善當前的評估。 (2)考題的局限性。我們目前只在北京市的2022年高考上進行了評測,考慮到不同地域和年份高考題均不一樣,為了能夠全面評估大語言模型的高考水平,我們計劃增加不同年份、地域的高考題評測,努力實現(xiàn)自動化、更全面的評估。 8. 總結 我們總結了GPT-4在高考測試中的結果,較為全面衡量了GPT-4的常識記憶以及推理能力,發(fā)現(xiàn):GPT-4在常識記憶和閱讀理解方面表現(xiàn)良好,但在復雜計算方面存在一些不足。具體而言,GPT-4能很好的記憶文科知識以及理科規(guī)律,在閱讀理解上表現(xiàn)不俗,英語考試幾乎滿分,即便中文的古文閱讀理解以及理科符號理解也基本正確。但是我們也發(fā)現(xiàn)GPT-4存在的問題,對于推理類的考試表現(xiàn)則相對較差,如方程求解。綜上所述,盡管GPT-4在許多方面表現(xiàn)出色,我們也要承認它存在一些不足,并且只有我們進一步去理解它的邊界,才會有助于整個社區(qū)的發(fā)展。 更多推薦 最新綜述:速覽Transformer長文本建模研究進展 EMNLP 2022|SimANS:簡單有效的困惑負樣本采樣方法 |
|
來自: 蝌蚪3lhxr2dfr1 > 《二》