作者:KID 來(lái)源:科技最前線 (kejizqx) 12 月 6 日晚,Google 給近期稍顯沉寂的 AI 模型戰(zhàn)場(chǎng)扔下了一顆新的炸彈:號(hào)稱多模態(tài)任務(wù)處理能力首次超越人類的 AI 模型,Gemini 1.0 正式發(fā)布。 在過(guò)去的一年里,大模型絕對(duì)是科技領(lǐng)域最熱的話題之一。OpenAI的GPTs驚艷全世界,微軟的Copilot更是先一步滲透進(jìn)全線產(chǎn)品,因此Gemini一出,這一操作被市場(chǎng)視作是Google在AI大模型領(lǐng)域放出的大招。 具體是什么樣重磅的AI模型和工具?一起來(lái)看看。 01 具體來(lái)說(shuō),此次谷歌一共帶來(lái)了Gemini的三個(gè)版本:
Gemini發(fā)布后,外界最關(guān)心的是其對(duì)OpenAI的GPT4的挑戰(zhàn)。從Google DeepMind產(chǎn)品副總裁EliCollins(伊萊·柯林斯)回答記者提問(wèn)可以看出,團(tuán)隊(duì)一直在對(duì) Gemini 模型進(jìn)行嚴(yán)格的測(cè)試并評(píng)估其在各種任務(wù)中的性能。 從自然圖像、音頻和視頻理解到數(shù)學(xué)推理,在被大型語(yǔ)言模型(LLM)研究和開(kāi)發(fā)中廣泛使用的 32 項(xiàng)學(xué)術(shù)基準(zhǔn)中,Gemini Ultra 的性能有 30 項(xiàng)都超過(guò)了目前最先進(jìn)的水平。 在多模態(tài)方面,GeminiUltra在新的MMMU基準(zhǔn)測(cè)試中也獲得了59.4%的SOTA分?jǐn)?shù)。 這項(xiàng)基準(zhǔn)測(cè)試是由跨不同領(lǐng)域的多模式任務(wù)組成,需要大模型進(jìn)行一個(gè)深思熟慮的推理過(guò)程。 根據(jù)谷歌給出的圖像基準(zhǔn)測(cè)試結(jié)果來(lái)看,GeminiUltra在沒(méi)有OCR系統(tǒng)的幫助下,表現(xiàn)優(yōu)于之前最先進(jìn)的模型。 02 和市面上現(xiàn)有大模型相比,Gemini從一開(kāi)始就被創(chuàng)建為多模態(tài)的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。 三個(gè)空杯并排放在桌子上,一張藍(lán)色紙團(tuán)被塞進(jìn)其中一個(gè)杯子里,在人類一番眼花繚亂的操作后,AI準(zhǔn)確地猜出:“紙團(tuán)在最左邊的杯子里!” 做一個(gè)后仰躲避的慢動(dòng)作,AI比四周同事都更快知道你在表演《黑客帝國(guó)》。 甚至它還能提煉出柑橘和指尖陀螺的共性,這兩樣的共同之處是都能讓人放松。 給它一張手寫的物理題,AI不僅能看懂,而且還可以辨別手寫答案的對(duì)錯(cuò),在此基礎(chǔ)上,它還會(huì)對(duì)每一個(gè)細(xì)節(jié)步驟進(jìn)行詳解,著實(shí)是學(xué)生黨的得力助手。 03 技術(shù)殺手锏 以往創(chuàng)建多模態(tài)大模型的方法,通常是為不同的模態(tài)訓(xùn)練單獨(dú)的組件,然后將它們拼接在一起,大致模擬其中的一些功能。這樣訓(xùn)練出來(lái)的模型雖然有時(shí)可以很好地執(zhí)行某些任務(wù)(比如描述圖像),但在面對(duì)更具概念性和復(fù)雜推理的情況下,就會(huì)出現(xiàn)表現(xiàn)不佳的結(jié)果。 相比較下的谷歌Gemini強(qiáng)調(diào)的原生多模態(tài),是指從一開(kāi)始就對(duì)不同的模態(tài)進(jìn)行預(yù)訓(xùn)練,然后用額外的多模態(tài)數(shù)據(jù)對(duì)其進(jìn)行微調(diào),以此來(lái)進(jìn)一步完善大模型的有效性。谷歌對(duì)此表示:這樣的訓(xùn)練方法,有助于Gemini從頭開(kāi)始無(wú)縫地理解和推理各種輸入,遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的多模態(tài)模型;而且它的功能在幾乎每個(gè)領(lǐng)域都是最先進(jìn)的。 具體到模型架構(gòu)方面,Gemini基于增強(qiáng)的Transformer decoder打造,采用了高效attention機(jī)制(如Multi-QueryAttention),支持32k上下文長(zhǎng)度。盡管沒(méi)有透露Ultra和Pro版本的具體參數(shù)規(guī)模,但技術(shù)報(bào)告中提到,谷歌使用TPUv5e和TPUv4來(lái)訓(xùn)練Gemini。訓(xùn)練Gemini Ultra使用了跨多個(gè)數(shù)據(jù)中心的大量TPUv4。這意味著與谷歌此前的主力大模型PaLM-2相比,Gemini在規(guī)模上顯著增大。此前,PaLM-2被曝參數(shù)規(guī)模為3400億。 據(jù)悉,從今天開(kāi)始,Bard 將使用 Gemini Pro 的微調(diào)版本來(lái)進(jìn)行更高級(jí)的推理、規(guī)劃和理解等。這是 Bard 自推出以來(lái)最大的升級(jí)。
OpenAI的GPTs驚艷全世界。 微軟的Copilot更是先一步滲透進(jìn)全線產(chǎn)品。 Gemini一出,號(hào)稱谷歌迄今為止功能最強(qiáng)大、最通用的大模型。 那么在這一波后,全球最強(qiáng)AI模型是否正式易主?我們靜待觀察。 |
|