Google大模型Gemini，全球最強(qiáng)AI模型正式易主？

江海博覽 2023-12-08 發(fā)布于湖南

展開(kāi)全文

作者：KID

編輯：蘇子瞻
來(lái)源：科技最前線 (kejizqx)

12 月 6 日晚，Google 給近期稍顯沉寂的 AI 模型戰(zhàn)場(chǎng)扔下了一顆新的炸彈：號(hào)稱多模態(tài)任務(wù)處理能力首次超越人類的 AI 模型，Gemini 1.0 正式發(fā)布。

在過(guò)去的一年里，大模型絕對(duì)是科技領(lǐng)域最熱的話題之一。OpenAI的GPTs驚艷全世界，微軟的Copilot更是先一步滲透進(jìn)全線產(chǎn)品，因此Gemini一出，這一操作被市場(chǎng)視作是Google在AI大模型領(lǐng)域放出的大招。

具體是什么樣重磅的AI模型和工具？一起來(lái)看看。

01
谷歌史上最強(qiáng)大模型Gemini

具體來(lái)說(shuō)，此次谷歌一共帶來(lái)了Gemini的三個(gè)版本：

Gemini Ultra：谷歌最大、最強(qiáng)模型，適用于高度復(fù)雜的任務(wù)
Gemini Pro：可擴(kuò)展至各種任務(wù)的Gemini模型
Gemini Nano：適用于端側(cè)設(shè)備的模型

Gemini發(fā)布后，外界最關(guān)心的是其對(duì)OpenAI的GPT4的挑戰(zhàn)。從Google DeepMind產(chǎn)品副總裁EliCollins（伊萊·柯林斯）回答記者提問(wèn)可以看出，團(tuán)隊(duì)一直在對(duì) Gemini 模型進(jìn)行嚴(yán)格的測(cè)試并評(píng)估其在各種任務(wù)中的性能。

從自然圖像、音頻和視頻理解到數(shù)學(xué)推理，在被大型語(yǔ)言模型（LLM）研究和開(kāi)發(fā)中廣泛使用的 32 項(xiàng)學(xué)術(shù)基準(zhǔn)中，Gemini Ultra 的性能有 30 項(xiàng)都超過(guò)了目前最先進(jìn)的水平。

在多模態(tài)方面，GeminiUltra在新的MMMU基準(zhǔn)測(cè)試中也獲得了59.4%的SOTA分?jǐn)?shù)。

這項(xiàng)基準(zhǔn)測(cè)試是由跨不同領(lǐng)域的多模式任務(wù)組成，需要大模型進(jìn)行一個(gè)深思熟慮的推理過(guò)程。

根據(jù)谷歌給出的圖像基準(zhǔn)測(cè)試結(jié)果來(lái)看，GeminiUltra在沒(méi)有OCR系統(tǒng)的幫助下，表現(xiàn)優(yōu)于之前最先進(jìn)的模型。

02
驚艷全場(chǎng)的Gemini多模態(tài)大模型

和市面上現(xiàn)有大模型相比，Gemini從一開(kāi)始就被創(chuàng)建為多模態(tài)的模型，這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息，包括文本、代碼、音頻、圖像和視頻。

比方說(shuō)，當(dāng)人類拿起畫(huà)筆在一張紙上勾勒出一只鴨子，并為它涂上了藍(lán)色。這次AI說(shuō)道：“這可不是鴨子常見(jiàn)的顏色?！?/span>

三個(gè)空杯并排放在桌子上，一張藍(lán)色紙團(tuán)被塞進(jìn)其中一個(gè)杯子里，在人類一番眼花繚亂的操作后，AI準(zhǔn)確地猜出：“紙團(tuán)在最左邊的杯子里！”

做一個(gè)后仰躲避的慢動(dòng)作，AI比四周同事都更快知道你在表演《黑客帝國(guó)》。

甚至它還能提煉出柑橘和指尖陀螺的共性，這兩樣的共同之處是都能讓人放松。

給它一張手寫的物理題，AI不僅能看懂，而且還可以辨別手寫答案的對(duì)錯(cuò)，在此基礎(chǔ)上，它還會(huì)對(duì)每一個(gè)細(xì)節(jié)步驟進(jìn)行詳解，著實(shí)是學(xué)生黨的得力助手。

技術(shù)殺手锏

以往創(chuàng)建多模態(tài)大模型的方法，通常是為不同的模態(tài)訓(xùn)練單獨(dú)的組件，然后將它們拼接在一起，大致模擬其中的一些功能。這樣訓(xùn)練出來(lái)的模型雖然有時(shí)可以很好地執(zhí)行某些任務(wù)（比如描述圖像），但在面對(duì)更具概念性和復(fù)雜推理的情況下，就會(huì)出現(xiàn)表現(xiàn)不佳的結(jié)果。

相比較下的谷歌Gemini強(qiáng)調(diào)的原生多模態(tài)，是指從一開(kāi)始就對(duì)不同的模態(tài)進(jìn)行預(yù)訓(xùn)練，然后用額外的多模態(tài)數(shù)據(jù)對(duì)其進(jìn)行微調(diào)，以此來(lái)進(jìn)一步完善大模型的有效性。谷歌對(duì)此表示：這樣的訓(xùn)練方法，有助于Gemini從頭開(kāi)始無(wú)縫地理解和推理各種輸入，遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的多模態(tài)模型；而且它的功能在幾乎每個(gè)領(lǐng)域都是最先進(jìn)的。

具體到模型架構(gòu)方面，Gemini基于增強(qiáng)的Transformer decoder打造，采用了高效attention機(jī)制（如Multi-QueryAttention），支持32k上下文長(zhǎng)度。盡管沒(méi)有透露Ultra和Pro版本的具體參數(shù)規(guī)模，但技術(shù)報(bào)告中提到，谷歌使用TPUv5e和TPUv4來(lái)訓(xùn)練Gemini。訓(xùn)練Gemini Ultra使用了跨多個(gè)數(shù)據(jù)中心的大量TPUv4。這意味著與谷歌此前的主力大模型PaLM-2相比，Gemini在規(guī)模上顯著增大。此前，PaLM-2被曝參數(shù)規(guī)模為3400億。

據(jù)悉，從今天開(kāi)始，Bard 將使用 Gemini Pro 的微調(diào)版本來(lái)進(jìn)行更高級(jí)的推理、規(guī)劃和理解等。這是 Bard 自推出以來(lái)最大的升級(jí)。

Google的Pixel 8 Pro成為首款搭載 Gemini Nano 的智能手機(jī)，它支持錄音應(yīng)用中的“總結(jié)”等新功能，并在 Gboard 中推出“智能回復(fù)”功能，從 WhatsApp 開(kāi)始，明年還將推出更多信息應(yīng)用。

搜索、廣告、Chrome和DuetAI等更多的產(chǎn)品和服務(wù)，也將注入Gemini的能力。Goole方透露，在搜索中試驗(yàn)Gemini，將享受更快的搜索生成體驗(yàn)（SGE），比如英語(yǔ)搜索延遲降低了 40%，同時(shí)在質(zhì)量方面也有所提高。

從 12 月 13 日開(kāi)始，開(kāi)發(fā)者和企業(yè)客戶可以通過(guò) Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 獲取 Gemini Pro。

而就 Gemini Ultra 而言，尚處于大規(guī)模的信任和安全檢查，包括由可信賴的外部團(tuán)隊(duì)進(jìn)行紅隊(duì)測(cè)試，并在其被廣泛使用前通過(guò)微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)（RLHF）進(jìn)一步完善模型。

OpenAI的GPTs驚艷全世界。

微軟的Copilot更是先一步滲透進(jìn)全線產(chǎn)品。

Gemini一出，號(hào)稱谷歌迄今為止功能最強(qiáng)大、最通用的大模型。

那么在這一波后，全球最強(qiáng)AI模型是否正式易主？我們靜待觀察。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：江海博覽 > 《國(guó)際》

舉報(bào)/認(rèn)領(lǐng)