|
智東西11月19日報道,今天凌晨,谷歌最強推理模型Gemini 3終于亮相,一個模型囊括了原生多模態(tài)、推理、Agent多種能力。 谷歌DeepMind研究團隊稱,這是全球最先進的多模態(tài)理解模型、谷歌最強大的Agent編程和氛圍編程模型,能呈現(xiàn)更豐富的可視化效果和更深度的交互體驗,且完全構(gòu)建于最先進的推理技術(shù)基礎(chǔ)之上。 該模型基于谷歌TPU進行訓練,支持100萬個token的上下文窗口,適用于需要以下功能的應(yīng)用:Agent、高級編程、長上下文、多模態(tài)理解、算法開發(fā)。 剛一發(fā)布,Gemini 3就幾乎屠榜所有評測集,以1501 Elo得分位列LMArena大模型競技場第一。 ![]() ![]() ![]() 今天起,谷歌將在以下平臺部署Gemini 3: 適用于Gemini應(yīng)用的所有用戶,以及在搜索的AI模式中使用Google AI Pro和Ultra訂閱服務(wù)的用戶;適用于Gemini API中的開發(fā)者、谷歌全新Agent開發(fā)平臺Antigravity的開發(fā)者,以及Gemini CLI的開發(fā)者;適用于Vertex AI平臺與Gemini企業(yè)版的企業(yè)用戶。 此外,谷歌將在未來幾周向Google AI Ultra訂閱者開放Gemini 3的深度思考模式,目前其還在進行安全評估。 先來看下Gemini 3 Pro能做什么。 Gemini 3能編寫托卡馬克裝置中等離子體流的可視化代碼,并創(chuàng)作捕捉核聚變物理原理的詩歌。 ![]() 如果用戶想學習家族傳統(tǒng)烹飪,Gemini 3可以解讀并翻譯不同語言的手寫食譜,制作成可共享的家庭食譜。 ![]() 如果用戶想學習一個新話題,可以給Gemini 3輸入學術(shù)論文、長視頻講座或教程,它還能生成交互式抽認卡、可視化或其他格式的代碼,幫助用戶掌握這些內(nèi)容。 ![]() Gemini 3可以分析用戶的匹克球比賽視頻,找出可以改進的地方,并生成整體動作提升的訓練計劃。 ![]() AI搜索模式下,Gemini 3能學習復(fù)雜主題內(nèi)容,如借助搜索功能中AI模式的生成式用戶界面,學習像RNA聚合酶作用機制這類復(fù)雜知識點。值得一提的是,這也是谷歌首次在模型發(fā)布首日,就將新模型直接集成至AI搜索功能中。 ![]() Gemini 3可以編寫擁有豐富可視化界面和互動性的復(fù)古3D飛船游戲。
該模型通過代碼構(gòu)建、解構(gòu)和重新創(chuàng)作精細的3D體素藝術(shù),能讓用戶的想象變?yōu)楝F(xiàn)實。 ![]() Gemini 3能使用著色器創(chuàng)建可玩的科幻世界。 ![]() 其還可以生成更具實用性、元素豐富的互動性網(wǎng)頁和App。 ![]() ![]() 該模型展現(xiàn)出博士級推理能力,在“人類終極測試”(不使用任何工具情況下得分37.5%)和GPQA鉆石級測試中均斬獲最高分,在MathArena Apex測試中取得23.4%的最新頂尖成績。 除了文本,Gemini 3 Pro在MMMU-Pro上獲得了81%,在Video-MMMU上獲得了87.6%的多模推理,在SimpleQA Verify上也獲得了最高的72.1%。 這意味著Gemini 3 Pro能夠以高度可靠性解決涵蓋科學和數(shù)學等廣泛主題的復(fù)雜問題。 Gemini 3的深度思考和多模態(tài)理解能力更新,可以幫助用戶解決更復(fù)雜的問題。測試中,Gemini 3 Deep Think在“人類終極測試”(未使用工具時為41.0%)和GPQA Diamond(93.8%)中表現(xiàn)優(yōu)于Gemini 3 Pro。它在ARC-AGI-2(代碼執(zhí)行,ARC獎項認證)上取得了45.1%的成績,均超過谷歌自家前代模型,以及OpenAI、Anthropic的模型。 ![]() 編程能力中,Gemini 3是谷歌迄今為止構(gòu)建過的最佳氛圍編程和Agent編程模型。 該模型以1487 Elo得分登頂WebDev競技場排行榜。它在Terminal-Bench 2.0測試模型工具使用能力上,得分為54.2%,在衡量編程Agent能力的基準測試SWE-bench Verified上表現(xiàn)遠超2.5 Pro。 開發(fā)者可以在Google AI Studio、Vertex AI、Gemini CLI以及谷歌全新的代理開發(fā)平臺Google Antigravity中使用Gemini 3進行構(gòu)建。它還支持第三方平臺,如Cursor、GitHub、JetBrains、Manus、Replit等。 自Gemini 2以來,谷歌Gemini模型已經(jīng)在Agent方面取得諸多進展,此次Gemini 3還登頂了Vending-Bench 2排行榜。該基準測試通過模擬自動售貨機業(yè)務(wù)運營來考核模型的長期規(guī)劃能力,其結(jié)果顯示,Gemini 3 Pro在一整年的模擬運營中,始終保持穩(wěn)定的工具使用和決策連貫性,既未偏離任務(wù)目標,又實現(xiàn)了更高收益。 ![]() ![]() 今天谷歌還發(fā)布了全新的Agent開發(fā)平臺Google Antigravity。 借助Gemini 3的高級推理、工具使用及Agent編程能力,谷歌Antigravity將AI輔助功能從開發(fā)者工具包里的一個工具,轉(zhuǎn)變?yōu)榉e極主動的合作伙伴。 盡管谷歌Antigravity的核心仍是AI集成開發(fā)環(huán)境(AI IDE)體驗,但其Agent已升級至專屬界面,并能直接訪問編輯器、終端和瀏覽器。如今,這些Agent可以自主規(guī)劃并同步為開發(fā)者執(zhí)行復(fù)雜的端到端軟件任務(wù),同時還能對自身代碼進行驗證。 除了Gemini 3 Pro,Google Antigravity還將結(jié)合谷歌最新的Gemini 2.5 Computer Use模型,以及圖像編輯模型Nano Banana。 谷歌Antigravity借助Gemini 3,為航班追蹤應(yīng)用打造了端到端的Agent工作流。該Agent能夠自主規(guī)劃、編寫應(yīng)用代碼,并通過基于瀏覽器的計算機操作來驗證其執(zhí)行效果。 ![]() 最后谷歌還提到,Gemini 3是其迄今為止最安全的模型,并且經(jīng)歷了谷歌AI模型中最全面的安全評估。模型評測結(jié)果顯示,其諂媚行為減少,對即時注射的抵抗力增強,并提升了對網(wǎng)絡(luò)攻擊濫用的防護。 隨著Gemini 3正式亮相,加之谷歌此次免費開放其使用權(quán)限,一場圍繞大模型的新一輪行業(yè)競爭已全面打響。 |
|
|