路線變了！重返開源戰(zhàn)場，谷歌打響AI“斯大林格勒保衛(wèi)戰(zhàn)”

烏鴉智能說 2024-03-01 發(fā)布于北京

展開全文

昨天晚上，谷歌毫無預兆地發(fā)布了開源模型Gemma，主打輕量級、高性能，劍指Meta的Llama。Gemma的發(fā)布意味著谷歌大模型策略的轉變：從過去押注閉源追趕OpenAI，到重返開源賽場，兼顧開源和閉源。

顯然，谷歌這一轉變是被迫的。自去年下定決心閉源后，谷歌明顯低估了追趕OpenAI的技術難度，持續(xù)被OpenAI壓制，甚至毫無還手之力。就連不久前發(fā)布的大模型核彈Gemini 1.5，風頭也全讓Sora搶走了。

不過相比閉源，谷歌在開源戰(zhàn)場也面臨著不小挑戰(zhàn)。盡管谷歌擁有著明顯的技術優(yōu)勢，而且在開源社區(qū)構建上也有豐富的經(jīng)驗。但在Meta、Mistral等玩家逐漸主導開源市場的情況下，不占天時的谷歌想要追趕，必須投入更多的資源。

回顧科技競爭史，每一個新時代的來臨，都意味著上個時代科技霸主的衰落。谷歌能否免于這種結局？從這個角度上說，開源就是谷歌在人工智能戰(zhàn)場的“斯大林格勒保衛(wèi)戰(zhàn)”。

/ 01 / 最強開源大模型來了！

Gemma在拉丁語中意為“寶石”，是由谷歌DeepMind和其他團隊共同合作開發(fā)，采用了與Gemini相同的研究和技術構建。

此次Gemma發(fā)布了20億和70億兩種參數(shù)規(guī)模的版本，每個規(guī)模又分預訓練和指令微調兩個版本。在Gemini的技術加持下，Gemma形成了對現(xiàn)有開源大模型的碾壓。Gemma在18個基準測評中平均成績擊敗目前的主流開源模型Llama 2和Mistral，特別是在數(shù)學、代碼能力上表現(xiàn)突出。

其中，Gemma-7B模型在涵蓋一般語言理解、推理、數(shù)學和編碼的8項基準測試中，性能已經(jīng)超越了Llama 2 7B和13B。安全性方面，經(jīng)過指令微調的Gemma-2B IT和 Gemma-7B IT模型，在人類偏好評估中都超過了Mistal-7B v0.2模型。

不過不同于支持多模態(tài)的Gemini，Gemma模型不是多模態(tài)的，也沒有針對多語言任務進行訓練。但根據(jù)谷歌發(fā)布的技術報告Gemma的分詞器詞表大小達到256k。

這個怎么理解？大模型理解用戶提問是將文本轉化為數(shù)字之后再進行推理的，詞匯表就類似它的字典，其規(guī)模越大，對于復雜句式和生僻字詞的理解就越強，同樣也就能夠更快理解其它語言。Gemma的分詞器詞表大小達到256k，意味著它可以很快學會使用其他語言。

除了模型本身，另一個值得關注的點是，Gemma從最開始的設計和訓練之時，就非常注重安全性，這意味著它非常適合部署在本地使用。例如，谷歌使用Google Cloud數(shù)據(jù)丟失防護 (DLP) 工具，從訓練集中自動過濾掉隱私信息和敏感數(shù)據(jù)。該工具根據(jù)隱私數(shù)據(jù)的類別（例如姓名、電子郵件等）輸出三個嚴重級別。據(jù)谷歌發(fā)布的技術報告顯示，最為敏感的信息幾乎完全不會被儲存，潛在隱私數(shù)據(jù)會有部分儲存。

在模型發(fā)布后，Gemma也第一時間上線了 HuggingFace 和 HuggingChat，用戶可以直接在這些平臺上進行下載和試用。發(fā)布才幾個小時，已有不少用戶分享了試用體驗，甚至部分用戶還對其做出了很高的評價，社交平臺X用戶@indigo11稱其“速度飛快”、“輸出很穩(wěn)定”。

/ 02 / “擰巴”的谷歌壓力很大

算上此次發(fā)布的Gemma，已經(jīng)是谷歌在短短一個月內放出的第三次大招。

2月9日，谷歌宣布其最強大模型Gemini Ultra免費用，Gemini Ultra于2023年12月發(fā)布時在MMLU（大規(guī)模多任務語言理解）測評上超過人類專家，在32個多模態(tài)基準中取得30個SOTA（當前最優(yōu)效果），幾乎全方位超越GPT-4。

2月16日大年初七，谷歌放出其大模型核彈——Gemini 1.5，并將上下文窗口長度擴展到100萬個tokens。Gemini 1.5 Pro可一次處理1小時的視頻、11小時的音頻、超過3萬行代碼或超過70萬字的代碼庫，向還沒發(fā)布的GPT-5發(fā)起挑戰(zhàn)。

盡管谷歌動作頻頻，但風頭卻全讓OpenAI的的文生視頻大模型Sora搶走了。而此次谷歌之所以沒有預告地突然發(fā)布開源模型，恰恰不想重蹈覆轍。畢竟有消息稱，Meta將在本周內發(fā)布Llama的升級版。

從表面上看，谷歌搶先Llama發(fā)布開源模型是為了挽回近期“頹勢”。但更深層次的原因是，谷歌希望改變長期以來被OpenAI壓制的局面，探索更多“彎道超車”的可能性。

一個無比殘酷的事實是，自2022年12月ChatGPT發(fā)布以來，曾經(jīng)AI領域的扛把子谷歌就一直被OpenAI壓制得死死的，毫無還手之力。

去年2月，OpenAI的ChatGPT風靡全球，谷歌草草推出了聊天機器人Bard，產(chǎn)品卻不如預期。先是演示中出現(xiàn)事實錯誤，讓谷歌母公司一夜之間市值蒸發(fā)千億美元；而后也沒能以性能表現(xiàn)吸引足量用戶，據(jù)Similarweb的數(shù)據(jù)，Bard全球月訪問量只有2.2億次，僅為ChatGPT的1/8。

去年12月7日，谷歌又發(fā)布了最強大模型Gemini，盡管效果驚艷卻令市場有些意興闌珊。2024年1月31日，谷歌最新財報顯示其收入亮眼，卻因AI方面進展不及預期市值一夜蒸發(fā)超1000億美元。

隨著Sora的發(fā)布，越來越多人意識到一個問題：在Scaling Law的推動下，OpenAI在閉源模型上的優(yōu)勢越來越大。也就是說，此次宣布進軍開源，更像是谷歌在人工智能競賽的被迫之舉。

一方面，相比Meta在去年年中進軍開源模型，谷歌進軍開源模型晚了整整半年，這意味著其需要花數(shù)倍的努力進行模型的差異化以及推廣的投入，才有可能在眾多開源模型中脫穎而出。另一方面，至少從披露的內容看，相較于其他開源模型，谷歌推出的開源模型也并沒有太多超預期的地方。

但即使如此，進軍開源模型仍然對谷歌意義重大。畢竟，在對陣OpenAI節(jié)節(jié)敗退的情況下，谷歌亟需一場勝利來扭轉頹勢。而開源模型可能成為谷歌在人工智能戰(zhàn)場的斯大林格勒戰(zhàn)役。

/ 03 / 谷歌重回開源

從歷史上看，開源對谷歌來說并不陌生，甚至在相當長時間里，谷歌都是技術開源的堅定支持者。歷史上，Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode，都是谷歌為開源社區(qū)貢獻的創(chuàng)新。

2015年11月，谷歌公布了TensorFlow，一度成為最流行的開源深度學習框架之一。任何人只要擁有電腦和網(wǎng)絡連接（并且懂一點點深度學習算法）就能使用有史以來最強大的機器學習平臺。自 2015 年至今，成千上萬的開源貢獻者、開發(fā)人員、社區(qū)組織者、研究人員都投入到了這一開源軟件庫上。

2018年，谷歌宣布將BERT進行開源，這是一種基于神經(jīng)網(wǎng)絡的自然語言預訓練處理技術，其使用不僅限于搜索算法，任何人都可以在其他類型的問答系統(tǒng)中使用 Bert。更別說，在移動互聯(lián)網(wǎng)時代，谷歌還建立了足以匹敵蘋果的安卓開放生態(tài)。

與OpenAI不同，簡單粗暴的Scaling Law并不是谷歌唯一的路。此次開源Gemma，不僅意味著想要重塑自己在AI社區(qū)的影響力，也代表谷歌大模型策略的轉變：兼顧開源和閉源。

放在當下的AI行業(yè)，發(fā)力開源模型也確實是谷歌一個不錯的選擇。

一方面，相比于閉源模型，開源模型的競爭相對較小，競爭主要來自Meta的 Llama。像谷歌在閉源模型的技術實力和開源社區(qū)方面的經(jīng)驗，使其更有可能形成碾壓的局面。

另一方面，在AI落地的故事里，開源模型仍然存在著不小的潛力。原因在于，開源模型的成本優(yōu)勢將更有利于模型的落地。在很多場景里，使用GPT就像是開蘭博基尼送外賣，成本過于高昂。有AI研究員做過一筆測算，GPT-3.5的API價格幾乎是開源模型Llama2推理成本的3-4倍，更別提GPT-4了。

在移動互聯(lián)網(wǎng)時代，接近衰落的微軟靠著云計算實現(xiàn)了最終的翻盤。如今，在人工智能故事里不如意的谷歌能否復制這一路徑，我們拭目以待。