【原】DeepMind在解決數(shù)學(xué)問題方面達(dá)到里程碑——人工智能的下一個重大挑戰(zhàn)

Wsz6868 2024-07-26

展開全文

2024年7月25日 DeepMind在解決數(shù)學(xué)問題方面達(dá)到里程碑——人工智能的下一個重大挑戰(zhàn) AlphaProof在今年的數(shù)學(xué)奧林匹克(Mathematical Olympiad)問題上展示了自己的實(shí)力——在用人工智能創(chuàng)建實(shí)質(zhì)性證明的競賽中邁出了一步。大衛(wèi)·卡斯特爾韋奇 Close up of a stamp sheetlet on the theme of "57th International Mathematical Olympiad 2016" 主題為“2016年第五十七屆國際數(shù)學(xué)奧林匹克”的郵票小型張?zhí)貙?國際數(shù)學(xué)奧林匹克中的問題來自幾個數(shù)學(xué)領(lǐng)域。鳴謝:David Wong/南華早報via Getty 谷歌DeepMind在從圍棋游戲到戰(zhàn)略棋盤游戲的所有領(lǐng)域都擊敗了人類，現(xiàn)在它表示，它即將在解決數(shù)學(xué)問題方面擊敗世界頂級學(xué)生。這家總部位于倫敦的機(jī)器學(xué)習(xí)公司于7月25日宣布，其人工智能(AI)系統(tǒng)已經(jīng)解決了本月在英國巴斯舉行的2024年國際數(shù)學(xué)奧林匹克(IMO)上向?qū)W校學(xué)生提出的六個問題中的四個。人工智能產(chǎn)生了嚴(yán)格的、一步一步的證明，由兩名頂級數(shù)學(xué)家標(biāo)記，并獲得了28/42的分?jǐn)?shù)——離金牌范圍僅差一分。 “這顯然是一個非常重大的進(jìn)步，”英國劍橋的數(shù)學(xué)家約瑟夫·邁爾斯說，他與菲爾茲獎獲得者蒂姆·高爾斯一起審查了這些解決方案，并幫助選擇了今年IMO的原始問題。 DeepMind和其他公司正在進(jìn)行一場競賽，最終讓機(jī)器給出證明，解決數(shù)學(xué)中的實(shí)質(zhì)性研究問題。該公司表示，在國際數(shù)學(xué)家大會(IMO)上設(shè)置的問題——世界上最重要的年輕數(shù)學(xué)家競賽——已經(jīng)成為實(shí)現(xiàn)這一目標(biāo)的進(jìn)展基準(zhǔn)，并被視為機(jī)器學(xué)習(xí)的“重大挑戰(zhàn)”。 “這是第一次任何人工智能系統(tǒng)能夠?qū)崿F(xiàn)獎牌級別的性能”，DeepMind負(fù)責(zé)科學(xué)的人工智能副總裁Pushmeet Kohli在向記者發(fā)布的一份簡報中說。“這是構(gòu)建高級定理證明器的旅程中的一個關(guān)鍵里程碑，”Kohli說。分支就在幾個月前的一月份，DeepMind系統(tǒng)AlphaGeometry在解決一種類型的IMO問題(歐幾里德幾何中的問題)時，已經(jīng)達(dá)到了獎?wù)芦@得者級別的性能。第一個在整體測試中表現(xiàn)出金牌水平的人工智能——包括代數(shù)、組合學(xué)和數(shù)論等通常被認(rèn)為比幾何更具挑戰(zhàn)性的問題——將有資格獲得500萬美元的獎勵，稱為人工智能數(shù)學(xué)奧林匹克(AIMO)獎。(該獎項有嚴(yán)格的標(biāo)準(zhǔn)，如開源代碼和有限的計算能力，這意味著DeepMind目前的努力不符合條件。) 在他們最近的努力中，研究人員使用AlphaGeometry2在20秒內(nèi)解決了幾何問題；DeepMind計算機(jī)科學(xué)家Thang Luong表示，人工智能是他們創(chuàng)紀(jì)錄系統(tǒng)的改進(jìn)和更快版本。對于其他類型的問題，該團(tuán)隊開發(fā)了一個全新的系統(tǒng)，名為AlphaProof。AlphaProof解決了競賽的兩個代數(shù)問題，外加一個數(shù)論問題，花了三天時間。(實(shí)際IMO的參與者有兩次會議，每次4.5小時。)它無法解決數(shù)學(xué)的另一個領(lǐng)域組合學(xué)中的兩個問題。 Close up view of a gold medal won at the 63rd International Mathematical Olympiad by a Romanian participant. 一名羅馬尼亞選手在第63屆國際數(shù)學(xué)奧林匹克競賽中獲得金牌的特寫鏡頭。數(shù)學(xué)奧林匹克是世界上學(xué)齡數(shù)學(xué)天才的首要競賽。信用:MoiraM/Alamy當(dāng)試圖用語言模型回答數(shù)學(xué)問題時，研究人員獲得了喜憂參半的結(jié)果——這種類型的系統(tǒng)為ChatGPT等聊天機(jī)器人提供了動力。有時，模型給出了正確的答案，但不能合理地解釋他們的推理，有時他們吐出廢話。就在上周，來自軟件公司Numina和HuggingFace的一組研究人員使用一種語言模型贏得了AIMO中級“進(jìn)步獎”，該獎基于IMO問題的簡化版本。這些公司將他們的整個系統(tǒng)開源，供其他研究人員下載。但是獲獎?wù)吒嬖V《自然》雜志，要解決更難的問題，單靠語言模型可能還不夠。 a級求解器 AlphaProof將語言模型與強(qiáng)化學(xué)習(xí)技術(shù)相結(jié)合，使用該公司已成功用于攻擊圍棋等游戲以及一些特定數(shù)學(xué)問題的“AlphaZero”引擎。在強(qiáng)化學(xué)習(xí)中，神經(jīng)網(wǎng)絡(luò)通過反復(fù)試驗來學(xué)習(xí)。當(dāng)它的答案可以用一些客觀的度量標(biāo)準(zhǔn)來評估時，這種方法很有效。出于這個目的，AlphaProof被訓(xùn)練用一種叫做Lean的正式語言讀寫證明，這種語言被用在數(shù)學(xué)家流行的同名軟件包“證明助手”中。為此，AlphaProof通過在精益包中運(yùn)行它們來測試其輸出是否正確，這有助于填充代碼中的一些步驟。訓(xùn)練任何語言模型都需要大量的數(shù)據(jù)，但是在精益中幾乎沒有可用的數(shù)學(xué)證明。DeepMind機(jī)器學(xué)習(xí)研究人員托馬斯·休伯特(Thomas Hubert)說，為了克服這個問題，該團(tuán)隊設(shè)計了一個額外的網(wǎng)絡(luò)，試圖將現(xiàn)有的用自然語言寫的100萬個問題的記錄翻譯成精益，但不包括人類寫的解決方案，他是AlphaProof的開發(fā)負(fù)責(zé)人之一?！拔覀兊姆椒ㄊ?，我們能學(xué)會證明嗎，即使我們最初沒有訓(xùn)練人類書寫的證明？”(該公司對圍棋采取了類似的方法，其人工智能通過與自己對弈來學(xué)習(xí)下棋，而不是像人類那樣。) 魔法鑰匙許多精益翻譯都是無意義的，但足夠好了，足以讓AlphaProof開始它的強(qiáng)化學(xué)習(xí)周期。高爾斯在新聞發(fā)布會上說，結(jié)果比預(yù)期好得多?！癐MO中的許多問題都有這種神奇的特性。巴黎法蘭西學(xué)院的高爾斯說:“這個問題起初看起來很難，直到你找到一把神奇的鑰匙來解開它。在某些情況下，AlphaProof似乎能夠提供額外的創(chuàng)造性飛躍，在無限大的可能性范圍內(nèi)提供正確的一步。高爾斯補(bǔ)充說，但是還需要進(jìn)一步的分析來確定答案是否沒有看起來那么令人驚訝。在DeepMind的AlphaGo機(jī)器人在2016年擊敗世界頂級人類圍棋選手的著名比賽中采取了令人驚訝的“37步棋”之后，類似的辯論隨之而來——這是人工智能的分水嶺。邁爾斯在新聞發(fā)布會上說，這些技術(shù)是否能完善到在數(shù)學(xué)領(lǐng)域做研究水平的工作還有待觀察?！八苎由斓狡渌N類的數(shù)學(xué)嗎？在這些數(shù)學(xué)中，可能沒有一百萬個問題需要訓(xùn)練?！? DeepMind計算機(jī)科學(xué)家大衛(wèi)·西爾弗(David Silver)說，“我們現(xiàn)在可以證明，他們不是公開的研究問題，而是至少對世界上最優(yōu)秀的年輕數(shù)學(xué)家來說非常具有挑戰(zhàn)性的問題，”他在2010年代中期是開發(fā)AlphaGo的主要研究人員。doi::https:///10.1038/d41586-024-02441-2