在OpenAI 春季發(fā)布會的第二天,2024年谷歌 I/O大會正式召開。 或許出于反擊OpenAI的需要,谷歌為這個大會準(zhǔn)備了很多東西:從基座模型 Gemini 升級到新的AI語音助手 Astra、新的文生視頻模型Veo,以及更強大的文生圖模型Imagen3。 這個大會開了整整兩個小時,時長是OpenAI發(fā)布會的四倍。但從結(jié)果來說,似乎沒有任何令人驚艷的地方。就連最可能成為爆款的AI語音助手Astra,也在GPT-4o襯托下顯得“平平無奇”。 發(fā)布會效果比不過就算了,關(guān)注度也比不過。甚至在谷歌發(fā)布會召開的今天,OpenAI還主動釋放出首席科學(xué)家Ilya Sutskever離職的消息。 這兩場緊緊挨著的發(fā)布會,也很好詮釋了兩者當(dāng)下的處境:在OpenAI不斷阻擊下,谷歌始終是那個活在OpenAI陰影下的人。 / 01 / AI產(chǎn)品全面升級 在發(fā)布會上,最重要的自然是基座模型Gemini的升級,此次升級大致可以歸結(jié)為:更長上下文、輕量版本、個性化機器人。 升級后的Gemini 可以分析比以前更長的文檔、代碼庫、視頻和音頻記錄。據(jù)透露,它最多可以容納 200 萬 token。這是之前的兩倍,新版 Gemini 1.5 Pro支持所有商用型號中最大的輸入。 為了滿足不同場景的需求,谷歌還發(fā)布了新的輕量級模型:Gemini 1.5 Flash。據(jù)介紹,Gemini 1.5 Flash是 Gemini 1.5 Pro 的“精煉”版本,同樣擁有多達 200 萬個 token 上下文窗口,且和Gemini 1.5 Pro一樣,擁有多模態(tài)功能,適合處理摘要、聊天、圖片分析和視頻字幕、以及從長文本和表格中提取數(shù)據(jù)等。 在定價上,Gemini 1.5 Flash 的價格定為每 100 萬 tokens 35 美分,這比 GPT-4o 的每 100 萬 tokens 5 美元的價格要便宜得多。 對于 Gemini 的訂閱用戶,可以使用谷歌新推出的「Gems」功能,類似于 OpenAI 的 GPT 商店。用戶可以自行創(chuàng)建Gems,與其進行交流互動。 除了Gemini外,谷歌還對文生圖模型Imagen2進行了升級。DeepMind 負(fù)責(zé)人 Demis 聲稱,與 Imagen 2 相比,Imagen 3 能夠更準(zhǔn)確理解圖像的文本提示詞,并且生成的圖片更具創(chuàng)造性和細(xì)節(jié)。為了減輕人們對深度偽造的可能性的擔(dān)憂,Imagen3將使用SynthID,可將不可見的加密水印應(yīng)用于媒體。 在升級模型的同時,谷歌還發(fā)布了多款新品,包括新的AI語音助手Astra以及文生視頻模型 Veo。 Astra 能夠通過設(shè)備的攝像頭識別物體和場景,并用自然語言進行交互。官方介紹,Astra 使用了 Gemini Ultra 的高級版本。在演示視頻中,谷歌的 AI 助手能夠通過攝像頭視頻,識別 " 什么東西能發(fā)出聲音 "、" 現(xiàn)在身處何地 " 等指令。 DeepMind CEO Demis Hassabi表示,這樣的 AI 助手需要像人類一樣理解這個動態(tài)且復(fù)雜的世界。需要記得住它看到的東西,這樣才能理解對話并付諸于行動。同時它也得能積極主動接受教導(dǎo),以及自然、無延遲地進行交流。 而視頻生成模型Veo直接對標(biāo)OpenAI 的 Sora,可以根據(jù)文本提示創(chuàng)建大約一分鐘長的 1080p 視頻剪輯。Veo 可以捕捉不同的視覺和電影風(fēng)格,包括風(fēng)景和延時鏡頭,并對已生成的鏡頭進行編輯和調(diào)整。 與Sora類似,Veo展現(xiàn)了對物理規(guī)律的一定理解,比如流體動力學(xué)和重力等。這與其訓(xùn)練數(shù)據(jù)有關(guān),官方人員承認(rèn)有些數(shù)據(jù)來自 YouTube。 / 02 / 更強的AI搜索來了 AI搜索的升級,也是本次發(fā)布會的一大亮點。 在此次發(fā)布會上,谷歌推出了AI Overviews(AI 概覽),該功能將AI結(jié)果加入到搜索內(nèi)容呈現(xiàn),即當(dāng)用戶進行提問時,頁面頂部將提供 AI 生成的答案。 官方人員表示,AI 概覽不會出現(xiàn)在每個搜索結(jié)果中,目前主要針對于更復(fù)雜的問題。每次用戶進行搜索時,谷歌會在后臺進行算法價值判斷,以決定是否提供由 AI 生成的答案還是直接提供傳統(tǒng)的網(wǎng)頁鏈接。 去年以來,谷歌一直在通過其搜索生成體驗(SGE)測試 AI 驅(qū)動的可能性。谷歌搜索主管 Liz Reid 表示,在其 AI 概述功能的測試期間,谷歌觀察到人們點擊了更加多樣化的網(wǎng)站。據(jù)介紹,該功能面向全平臺推出,從 Web 網(wǎng)頁、App 到 Android 設(shè)備,預(yù)計將在本周內(nèi)全面開放,在年底推廣到更多國家。 除了提供答案外,搜索還新增了行程規(guī)劃功能,幫用戶制定更為詳細(xì)的規(guī)劃。比如,用戶可以輸入諸如“為四口之家計劃三天的膳食”之類的查詢,并獲取這三天的鏈接和食譜。 與此同時,谷歌也強化了多模態(tài)方面的搜索表現(xiàn)。比如,谷歌推出了AI 驅(qū)動的“圈搜索”功能,允許 Android 用戶使用轉(zhuǎn)圈等手勢立即獲得答案。這一設(shè)計的初衷是,讓用戶在手機上的任何地方都可以更自然地通過一些操作(例如圈選、突出顯示、涂鴉或點擊)來使用 Google 搜索。 此外,用戶還能通過結(jié)合視頻進行搜索。比如,用戶在舊貨店買了一臺唱片機,但打開時無法工作,帶有針頭的金屬部件在意外漂移。用視頻搜索能夠,更清晰、準(zhǔn)確地反饋這個問題。 此次谷歌推出AI搜索,是對Perplexity等AI搜索玩家崛起的直接回應(yīng)。自生成式AI崛起開始,搜索被認(rèn)為是AI應(yīng)用最成熟的場景。無論是流量數(shù)據(jù)還是估值,Perplexity都有著不錯的表現(xiàn)。 根據(jù)Similarweb數(shù)據(jù),Perplexity今年前三月的流量分別為4560萬、4954萬和6149萬,不斷增長。在估值方面,根據(jù) TechCrunch 最新報道,Perplexity 正在籌集至少 2.5 億美元資金融資,最新估值在 25~30 億美元之間。 盡管用戶體量依然差谷歌幾個量級,但Perplexity仍然在一個Google長期霸占的市場利用AI獲得了階段性顛覆成果。 從此次發(fā)布會看,與其他AI搜索相比,谷歌AI搜索的差異性有限,更多體現(xiàn)在多模態(tài)。換句話說,僅從功能上看,谷歌的AI搜索并未與Perplexity們拉開質(zhì)的差距。 / 03 / 被“壓制”的谷歌 谷歌的I/O大會僅比OpenAI的春季功能更新會晚一天,兩者很容易被人拿來進行對比。 要說重視程度,谷歌肯定完爆OpenAI。OpenAI的發(fā)布會開了僅僅半個小時,主要介紹了新模型GPT-4o和ChatGPT在語音和視覺功能上的升級。而谷歌則開了整整兩個小時,一口氣拿出來十來款新品及升級,所有武器庫傾巢而出,全面對標(biāo)OpenAI。 但努力并不意味著最后的結(jié)果。盡管谷歌發(fā)布產(chǎn)品很多,但沒有任何一款給人帶來GPT-4o那樣的驚艷感,顯得多少有些“雞肋”。 發(fā)布會效果比不過就算了,流量也比不過。就在谷歌發(fā)布會的同一時間,OpenAI首席科學(xué)家Ilya Sutskever在X發(fā)布了自己離開OpenAI消息,再次搶走了谷歌發(fā)布會的關(guān)注度。 一個無比殘酷的事實是,自2022年12月ChatGPT發(fā)布以來,曾經(jīng)AI領(lǐng)域的扛把子谷歌就一直被OpenAI壓制得死死的,毫無還手之力。 去年2月,OpenAI的ChatGPT風(fēng)靡全球,谷歌草草推出了聊天機器人Bard,產(chǎn)品卻不如預(yù)期。先是演示中出現(xiàn)事實錯誤,讓谷歌母公司一夜之間市值蒸發(fā)千億美元;而后也沒能以性能表現(xiàn)吸引足量用戶,據(jù)Similarweb的數(shù)據(jù),Bard全球月訪問量只有2.2億次,僅為ChatGPT的1/8。 2月16日大年初七,谷歌放出其大模型核彈——Gemini 1.5,并將上下文窗口長度擴展到100萬個tokens。Gemini 1.5 Pro可一次處理1小時的視頻、11小時的音頻、超過3萬行代碼或超過70萬字的代碼庫,向還沒發(fā)布的GPT-5發(fā)起挑戰(zhàn)。沒過幾天,OpenAI發(fā)布了文生視頻大模型Sora,后來的結(jié)果大家都知道了。 如今,這樣的故事還在延續(xù)。至少到目前為止,OpenAI的策略很成功,通過錨定谷歌的產(chǎn)品發(fā)布節(jié)奏,死死壓制住了谷歌。這也谷歌AI始終擺脫不了一個外界印象: 谷歌AI很強,但與OpenAI相比,還不夠。 |
|