昨天晚上,谷歌毫無預兆地發(fā)布了開源模型Gemma,主打輕量級、高性能,劍指Meta的Llama。Gemma的發(fā)布意味著谷歌大模型策略的轉變:從過去押注閉源追趕OpenAI,到重返開源賽場,兼顧開源和閉源。 顯然,谷歌這一轉變是被迫的。自去年下定決心閉源后,谷歌明顯低估了追趕OpenAI的技術難度,持續(xù)被OpenAI壓制,甚至毫無還手之力。就連不久前發(fā)布的大模型核彈Gemini 1.5,風頭也全讓Sora搶走了。 不過相比閉源,谷歌在開源戰(zhàn)場也面臨著不小挑戰(zhàn)。盡管谷歌擁有著明顯的技術優(yōu)勢,而且在開源社區(qū)構建上也有豐富的經(jīng)驗。但在Meta、Mistral等玩家逐漸主導開源市場的情況下,不占天時的谷歌想要追趕,必須投入更多的資源。 回顧科技競爭史,每一個新時代的來臨,都意味著上個時代科技霸主的衰落。谷歌能否免于這種結局?從這個角度上說,開源就是谷歌在人工智能戰(zhàn)場的“斯大林格勒保衛(wèi)戰(zhàn)”。 / 01 / 最強開源大模型來了! Gemma在拉丁語中意為“寶石”, 是由谷歌DeepMind和其他團隊共同合作開發(fā),采用了與Gemini相同的研究和技術構建。 此次Gemma發(fā)布了20億和70億兩種參數(shù)規(guī)模的版本,每個規(guī)模又分預訓練和指令微調兩個版本。在Gemini的技術加持下,Gemma形成了對現(xiàn)有開源大模型的碾壓。Gemma在18個基準測評中平均成績擊敗目前的主流開源模型Llama 2和Mistral,特別是在數(shù)學、代碼能力上表現(xiàn)突出。 其中,Gemma-7B模型在涵蓋一般語言理解、推理、數(shù)學和編碼的8項基準測試中,性能已經(jīng)超越了Llama 2 7B和13B。安全性方面,經(jīng)過指令微調的Gemma-2B IT和 Gemma-7B IT模型,在人類偏好評估中都超過了Mistal-7B v0.2模型。 不過不同于支持多模態(tài)的Gemini,Gemma模型不是多模態(tài)的,也沒有針對多語言任務進行訓練。但根據(jù)谷歌發(fā)布的技術報告Gemma的分詞器詞表大小達到256k。 這個怎么理解?大模型理解用戶提問是將文本轉化為數(shù)字之后再進行推理的,詞匯表就類似它的字典,其規(guī)模越大,對于復雜句式和生僻字詞的理解就越強,同樣也就能夠更快理解其它語言。Gemma的分詞器詞表大小達到256k,意味著它可以很快學會使用其他語言。 除了模型本身,另一個值得關注的點是,Gemma從最開始的設計和訓練之時,就非常注重安全性,這意味著它非常適合部署在本地使用。例如,谷歌使用Google Cloud數(shù)據(jù)丟失防護 (DLP) 工具,從訓練集中自動過濾掉隱私信息和敏感數(shù)據(jù)。該工具根據(jù)隱私數(shù)據(jù)的類別(例如姓名、電子郵件等)輸出三個嚴重級別。據(jù)谷歌發(fā)布的技術報告顯示,最為敏感的信息幾乎完全不會被儲存,潛在隱私數(shù)據(jù)會有部分儲存。 在模型發(fā)布后,Gemma也第一時間上線了 HuggingFace 和 HuggingChat,用戶可以直接在這些平臺上進行下載和試用。發(fā)布才幾個小時,已有不少用戶分享了試用體驗,甚至部分用戶還對其做出了很高的評價,社交平臺X用戶@indigo11稱其“速度飛快”、“輸出很穩(wěn)定”。 / 02 / “擰巴”的谷歌壓力很大 算上此次發(fā)布的Gemma,已經(jīng)是谷歌在短短一個月內放出的第三次大招。 2月9日,谷歌宣布其最強大模型Gemini Ultra免費用,Gemini Ultra于2023年12月發(fā)布時在MMLU(大規(guī)模多任務語言理解)測評上超過人類專家,在32個多模態(tài)基準中取得30個SOTA(當前最優(yōu)效果),幾乎全方位超越GPT-4。 2月16日大年初七,谷歌放出其大模型核彈——Gemini 1.5,并將上下文窗口長度擴展到100萬個tokens。Gemini 1.5 Pro可一次處理1小時的視頻、11小時的音頻、超過3萬行代碼或超過70萬字的代碼庫,向還沒發(fā)布的GPT-5發(fā)起挑戰(zhàn)。 盡管谷歌動作頻頻,但風頭卻全讓OpenAI的的文生視頻大模型Sora搶走了。而此次谷歌之所以沒有預告地突然發(fā)布開源模型,恰恰不想重蹈覆轍。畢竟有消息稱,Meta將在本周內發(fā)布Llama的升級版。 從表面上看,谷歌搶先Llama發(fā)布開源模型是為了挽回近期“頹勢”。但更深層次的原因是,谷歌希望改變長期以來被OpenAI壓制的局面,探索更多“彎道超車”的可能性。 一個無比殘酷的事實是,自2022年12月ChatGPT發(fā)布以來,曾經(jīng)AI領域的扛把子谷歌就一直被OpenAI壓制得死死的,毫無還手之力。 去年2月,OpenAI的ChatGPT風靡全球,谷歌草草推出了聊天機器人Bard,產(chǎn)品卻不如預期。先是演示中出現(xiàn)事實錯誤,讓谷歌母公司一夜之間市值蒸發(fā)千億美元;而后也沒能以性能表現(xiàn)吸引足量用戶,據(jù)Similarweb的數(shù)據(jù),Bard全球月訪問量只有2.2億次,僅為ChatGPT的1/8。 去年12月7日,谷歌又發(fā)布了最強大模型Gemini,盡管效果驚艷卻令市場有些意興闌珊。2024年1月31日,谷歌最新財報顯示其收入亮眼,卻因AI方面進展不及預期市值一夜蒸發(fā)超1000億美元。 隨著Sora的發(fā)布,越來越多人意識到一個問題:在Scaling Law的推動下,OpenAI在閉源模型上的優(yōu)勢越來越大。也就是說,此次宣布進軍開源,更像是谷歌在人工智能競賽的被迫之舉。 一方面,相比Meta在去年年中進軍開源模型,谷歌進軍開源模型晚了整整半年,這意味著其需要花數(shù)倍的努力進行模型的差異化以及推廣的投入,才有可能在眾多開源模型中脫穎而出。另一方面,至少從披露的內容看,相較于其他開源模型,谷歌推出的開源模型也并沒有太多超預期的地方。 但即使如此,進軍開源模型仍然對谷歌意義重大。畢竟,在對陣OpenAI節(jié)節(jié)敗退的情況下,谷歌亟需一場勝利來扭轉頹勢。而開源模型可能成為谷歌在人工智能戰(zhàn)場的斯大林格勒戰(zhàn)役。 / 03 / 谷歌重回開源 從歷史上看,開源對谷歌來說并不陌生,甚至在相當長時間里,谷歌都是技術開源的堅定支持者。歷史上,Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode,都是谷歌為開源社區(qū)貢獻的創(chuàng)新。 2015年11月,谷歌公布了TensorFlow,一度成為最流行的開源深度學習框架之一。任何人只要擁有電腦和網(wǎng)絡連接(并且懂一點點深度學習算法)就能使用有史以來最強大的機器學習平臺。自 2015 年至今,成千上萬的開源貢獻者、開發(fā)人員、社區(qū)組織者、研究人員都投入到了這一開源軟件庫上。 2018年,谷歌宣布將BERT進行開源,這是一種基于神經(jīng)網(wǎng)絡的自然語言預訓練處理技術,其使用不僅限于搜索算法,任何人都可以在其他類型的問答系統(tǒng)中使用 Bert。更別說,在移動互聯(lián)網(wǎng)時代,谷歌還建立了足以匹敵蘋果的安卓開放生態(tài)。 與OpenAI不同,簡單粗暴的Scaling Law并不是谷歌唯一的路。此次開源Gemma,不僅意味著想要重塑自己在AI社區(qū)的影響力,也代表谷歌大模型策略的轉變:兼顧開源和閉源。 放在當下的AI行業(yè),發(fā)力開源模型也確實是谷歌一個不錯的選擇。 一方面,相比于閉源模型,開源模型的競爭相對較小,競爭主要來自Meta的 Llama。像谷歌在閉源模型的技術實力和開源社區(qū)方面的經(jīng)驗,使其更有可能形成碾壓的局面。 另一方面,在AI落地的故事里,開源模型仍然存在著不小的潛力。原因在于,開源模型的成本優(yōu)勢將更有利于模型的落地。在很多場景里,使用GPT就像是開蘭博基尼送外賣,成本過于高昂。有AI研究員做過一筆測算,GPT-3.5的API價格幾乎是開源模型Llama2推理成本的3-4倍,更別提GPT-4了。 在移動互聯(lián)網(wǎng)時代,接近衰落的微軟靠著云計算實現(xiàn)了最終的翻盤。如今,在人工智能故事里不如意的谷歌能否復制這一路徑,我們拭目以待。 |
|