【新智元導讀】據(jù)The Information爆料,谷歌已集結(jié)數(shù)百工程師團隊,全新大殺器Gemini結(jié)合了GPT-4、Midjourney、Stable Diffusion三大模型的能力,即將于今年秋天上線。谷歌的全新大殺器Gemini,即將和全世界見面了!據(jù)傳,Gemini不僅能像GPT-4一樣可以進行文本對話,還融合了Midjourney、Stable Diffusion的能力,能夠生成圖像。為了對抗OpenAI,谷歌CEO劈柴在今年4月邁出了絕非尋常的一步,將擁有完全不同文化和代碼的團隊——谷歌大腦和DeepMind合并。現(xiàn)在,集結(jié)了數(shù)百位工程師的谷歌復仇者聯(lián)盟已經(jīng)全軍待命,日夜趕工,只為狙擊OpenAI的GPT-4,一舉重奪AI領(lǐng)域的頭把交椅。谷歌創(chuàng)始人謝爾蓋·布林也已重回戰(zhàn)壕,親自操刀Gemini的訓練。據(jù)稱,今年秋天,Gemini就會面世,而谷歌的考驗也即將到來。根據(jù)知情人士的爆料,Gemini將LLM的文本能力與文生圖的能力相結(jié)合。也就是說,它相當于GPT-4和Midjourney/Stable Diffusion的合體版。這也是外界首次聽說,Gemini具有如此強大的繪圖能力。另外,它還能夠提供分析圖表、創(chuàng)建帶有文本描述的圖形、使用文本或語音命令控制軟件。在6月底,谷歌DeepMind CEO Hassabis也曾爆料,Gemini將結(jié)合進AlphaGo和大語言模型,而谷歌DeepMind已經(jīng)準備好砸進數(shù)千萬美元,甚至數(shù)億。可以說,谷歌把重注押在了Gemini身上,Gemini會為Bard聊天機器人提供動力,推動Google Docs、Slides等企業(yè)級應(yīng)用。另外,谷歌還希望通過云服務(wù)器租賃服務(wù),向開發(fā)者收取訪問Gemini的費用。目前,谷歌云通過Vertex AI產(chǎn)品售賣對谷歌AI模型的訪問如果這些新功能實現(xiàn),谷歌很有可能會趕上微軟。畢竟,微軟在AI產(chǎn)品上已經(jīng)領(lǐng)先不少,Office 365應(yīng)用中包含AI功能,其應(yīng)用程序也會對用戶出售對ChatGPT的訪問權(quán)限。彭博社風投分支Bloomberg Beta的AI初創(chuàng)企業(yè)投資人James Cham對彭博社表示,「過去9個月里,每個人都在問這樣一個問題:什么時候才能有一家公司,看起來有趕超OpenAI的可能?」「現(xiàn)在,終于似乎有一個模型,可以和GPT-4旗鼓相當了?!?/span>隨著OpenAI的崛起,谷歌也不得不在保證核心搜索業(yè)務(wù)的情況下,試著推出新的技術(shù)了。據(jù)內(nèi)部人士透露,在推出Gemini之前,谷歌很可能就會在某些產(chǎn)品中使用它。過去,谷歌會使比較簡單的模型來改進搜索,但是像Bard以及Gemini這樣的產(chǎn)品,需要通過分析大量圖像和文本,來生成更像人類的回答。如此海量數(shù)據(jù)所帶來的潛在巨額服務(wù)器成本,也是谷歌必須要控制的。手握YouTube的優(yōu)勢根據(jù)The Information報道,谷歌對Gemini進行了大量YouTube視頻的訓練。并且,Gemini還可以把音頻和視頻集成到模型自身,形成多模態(tài)能力,而后者,已經(jīng)被許多研究者認為是AI的下一個前沿。比如,根據(jù)YouTube視頻訓練的模型,可以幫助機械師根據(jù)視頻診斷汽車的維修問題。或者可以根據(jù)用戶想要創(chuàng)建網(wǎng)站或應(yīng)用程序的草圖,來生成軟件代碼。此前,OpenAI曾展示了GPT-4的這項功能,但目前尚未推出。OpenAI老板Greg Brockman曾演示GPT-4讀圖寫網(wǎng)頁代碼的能力,但似乎鴿了使用YouTube內(nèi)容,還可以幫助谷歌開發(fā)更先進的文本轉(zhuǎn)視頻軟件,根據(jù)用戶想看的內(nèi)容描述,自動生成詳細的視頻。這類似于谷歌支持的初創(chuàng)公司RunwayML正在開發(fā)的技術(shù),現(xiàn)在好萊塢的內(nèi)容創(chuàng)作者們都在密切關(guān)注這項技術(shù)的發(fā)展。Google DeepMind,發(fā)起全面反擊 2011年,谷歌創(chuàng)立了谷歌大腦(Google Brain),旨在構(gòu)建起谷歌自己的AI,來優(yōu)化搜索的結(jié)果、廣告精準投放,以及在Gmail中的自動填充等功能。而位于倫敦的DeepMind則更多地致力于學術(shù)研究——2016年Alpha Go以4比1的成績戰(zhàn)勝了李世石,這項工作被人們視為通向通用人工智能(AGI)道路上的重要里程碑。谷歌除了會用DeepMind開發(fā)的軟件提高數(shù)據(jù)中心的運行效率外,DeepMind的工作并沒有對其核心產(chǎn)品產(chǎn)生太大影響。2022年11月,OpenAI發(fā)布了ChatGPT,短短幾周內(nèi)用戶人數(shù)飆升到了數(shù)千萬,之后更是達成了用戶破億最短時間的成就。幾個月內(nèi),OpenAI的收入就達到數(shù)億美元,并且在這期間微軟新投資了100億美元、數(shù)不清的資本熱錢向著OpenA流去,OpenAI的市值、知名度都達到了一個前所未有的高度。這時,谷歌才意識到,自己在AI領(lǐng)域的領(lǐng)導地位已經(jīng)岌岌可危了。谷歌大腦 DeepMind=?今年4月,陷入被動的谷歌放出終極大招:谷歌大腦和DeepMind正式合并!「王不見王」的兩大部門居然合體了,這一舉動也是讓瓜眾們驚掉了下巴。合并后的Google DeepMind將由DeepMind首席執(zhí)行官Demis Hassabis領(lǐng)導,而前谷歌AI負責人Jeff Dean接任首席科學家一職。現(xiàn)在,至少有26名大佬正在負責Gemini的開發(fā),這些人包括曾在谷歌大腦和DeepMind工作的研究人員。知情人士稱, DeepMind的兩位高管Oriol Vinyals和Koray Kavukcuoglu,將和前谷歌大腦負責人Jeff Dean一起負責Gemini的開發(fā)。他們將監(jiān)督數(shù)百名參與Gemini開發(fā)的員工。他一直在對Gemini模型進行評估,并幫助員工訓練模型。據(jù)爆料,在團隊發(fā)現(xiàn)Gemini意外地接受了潛在攻擊性內(nèi)容的訓練后,布林也參與到了重新訓練模型的技術(shù)決策過程中。「意外聯(lián)姻」的陣痛隨著谷歌大腦和DeepMind的合并,新團隊很快就遇到了非常嚴峻的問題——代碼怎么合并,用誰家的軟件開發(fā)?雖然雙方在各讓一步之后達成了妥協(xié): - 在模型的預訓練階段,使用谷歌大腦用于訓練機器學習模型的軟件Pax - 在后期階段,使用DeepMind用于開發(fā)模型的軟件Core Model Strike但據(jù)內(nèi)部人士爆料,還是有不少員工因為不得不使用自己不熟悉的軟件而憤憤不平。除此之外,谷歌和DeepMind都針對ChatGPT開發(fā)了自己的模型。DeepMind著手開展了一個代號為Goodall的項目,旨在使用未公開模型Chipmunk的不同變體來開發(fā)一個與ChatGPT競爭的系統(tǒng)。而谷歌大腦則開發(fā)立項了Gemini。最終,DeepMind決定放棄自己原先的努力,選擇基于谷歌大腦的項目合作開發(fā)Gemini。有趣的是,在遠程工作的政策上,據(jù)說谷歌大腦的態(tài)度也要比DeepMind寬松得多。內(nèi)耗、狼狽、反攻比起OpenAI那邊的形勢一片大好,谷歌則陷入了一場精疲力盡的內(nèi)耗中。先是一連多個高級技術(shù)人才出走,如Liam Fedus、Barret Zoph和Luke Metz等在內(nèi)的研究人員,紛紛選擇加入OpenAI。雖然谷歌找回了一些人才:比如重新招回了Jacob Devlin和Jack Rae。Jacob Devlin批評Bard的開發(fā)后,在今年1月份去了OpenAI。而Jack Rae是前DeepMind的研究員,在2022年加入了OpenAI。此前,Devlin向劈柴、Dean等高管表達了對Bard團隊使用ChatGPT數(shù)據(jù)訓練的擔憂,隨后辭職接著,谷歌為了對抗一枝獨秀的ChatGPT,也為了重回人工智能賽道領(lǐng)航者的地位,在今年2月的時候匆忙發(fā)布了聊天機器人Bard。然而,發(fā)布會卻因一個低級的事實性錯誤慘遭翻車,導致公司的市值在一夜之間蒸發(fā)了千億美元。同時發(fā)布的,還有將生成式AI和自己傳統(tǒng)搜索服務(wù)結(jié)合起來的Search Generative Experience(SGE)。簡單來說,SGE是一個類似Bing Chat的AI搜索服務(wù),但并沒有直接使用新的聊天窗口,而是將AI生成的內(nèi)容集合在搜索結(jié)果中展示給用戶。也就是說,在搜索的同時,谷歌會利用AI為搜索的內(nèi)容提供說明,回答用戶提出的問題,幫用戶做旅行規(guī)劃等等。而用戶不再需要貨比三家般的在多個鏈接之間來回跳轉(zhuǎn),也不用花心力去判斷哪個鏈接背后的信息是真的,因為所有可用的內(nèi)容都被集中到了AI收集到的回復之中。在最近的更新中,谷歌添加了讓SGE在AI生成的回復內(nèi)容中附加圖片和視頻的功能,幫助用戶更加直觀的了解自己搜索的知識和信息。就像Bing Chat一樣,SGE的AI響應(yīng)中也會有標注了發(fā)布時間的鏈接,來支持由AI生成的回復內(nèi)容。如果用戶對于相關(guān)的信息感興趣,點擊鏈接就能更加全面地了解具體的內(nèi)容。在AI生成的回復中,對于很多知識性的信息和概念,用戶能夠直接通過鼠標的懸停,就能獲取到概念準確的定義。現(xiàn)在針對科學,歷史,經(jīng)濟等知識性問題的AI回復,都已經(jīng)上線這個功能。而對于需要瀏覽很冗長的網(wǎng)頁信息來學習或者了解信息的用戶,SGE還更新了一個網(wǎng)頁內(nèi)的AI概括功能——SGE while browsing。這個功能相當于給用戶提供了一個隨時聽候差遣的「大綱生成器」。對于任何篇幅比較長的網(wǎng)頁內(nèi)容,用戶都可以用它來生成大綱,快速掌握要點。在下方的Explore the Page部分,用戶還能看到和頁面內(nèi)容相關(guān)的問題。如果用戶對于問題感興趣,直接點擊,就能看到文章中內(nèi)容是如何解答這些問題的。然而,是由于谷歌保守的市場策略,SEG目前只允許美國本土的用戶采用Waiting List申請測試。所以可能大部分用戶甚至都不知道,谷歌已經(jīng)推出了這樣一個服務(wù)。總之,據(jù)悉兩部門合體后,至少測試了21項生成式AI工具,甚至還包含為用戶提供生活建議和心理輔導的工具。在去年緊急解雇了聲稱聊天AI有意識的工程師的谷歌,現(xiàn)在居然也開始探索這類「敏感」地帶,可見真的是決定放手一搏了。Gemini項目,目前形勢大好不過,兩個團隊的合并,對于一些正在負責Gemini項目的工程師來說,確實是個不小的驚喜。曾在DeepMind工作的James Molloy和Tom Hennigan與谷歌資深研究員Paul Barham一起負責基礎(chǔ)設(shè)施。Timothy Lillicrap曾在DeepMind從事國際象棋和圍棋方面的系統(tǒng)開發(fā)工作,而谷歌大腦的研究員Emily Pitler則領(lǐng)導一個團隊,專注于使LLM具備處理數(shù)學或網(wǎng)絡(luò)搜索等專門任務(wù)的能力。但除了合并組織中的人員安排問題,Gemini團隊在開發(fā)過程中還面臨著巨大的挑戰(zhàn),如確定可以用于模型訓練的數(shù)據(jù)等。在一個案例中,由于擔心版權(quán)持有者的反對意見,律師們要求研究人員刪除了來自教科書的訓練數(shù)據(jù)。而這些數(shù)據(jù)本可以幫助訓練模型回答有關(guān)天文學或生物學等領(lǐng)域的問題。不過,谷歌前高管、VC公司Felicis Ventures的創(chuàng)始人Aydin Senkut評價Gemini的發(fā)布讓他看到了「谷歌決心再次走在最前沿,而不是極度保守」。「這是正確的方向。最終,他們會火的?!?/span>https://www./articles/the-forced-marriage-at-the-heart-of-googles-ai-race
|