超詳超硬Jeff Dean萬字總結(jié)火熱出爐！圖解谷歌2022年AIGC、LLM、CV三大領(lǐng)域成就

小飛俠cawdbof0 2023-02-18 發(fā)布于北京

展開全文

來源：新智元

【導讀】2022年，谷歌在ML領(lǐng)域取得了哪些新進展？Jeff Dean發(fā)萬字長文總結(jié)。

2022年，谷歌在機器學習方面有什么進展？

Google Research高級研究員兼高級副總裁Jeff Dean一文幫你總結(jié)！

昨天，Jeff Dean代表Google Research社區(qū)發(fā)布一篇干貨滿滿的長文，總結(jié)了谷歌在2022年激動人心的新進展。

顯然，大佬花了很久（也許是一年），醞釀了一個大的。

在這次的第一篇中，Jeff Dean首先討論了語言、生成、視覺和多模態(tài)模型。

接下來，他還將討論負責任的人工智能、算法和計算機系統(tǒng)，以及科學、健康和機器人技術(shù)等研究主題的新進展。

話不多說，讓我們開始享受這場知識的盛宴！

語言模型

在過去十年中，機器學習最令人興奮的領(lǐng)域之一，無疑就是規(guī)模更大、功能更強的語言模型了。

一路走來，最矚目的進展就是新的方法，比如序列到序列學習（seq2seq），以及谷歌開發(fā)的Transformer模型。

這些方法，是過去幾年語言模型領(lǐng)域大部分進展的基礎(chǔ)。

雖然語言模型的訓練目標簡單得令人吃驚（比如根據(jù)前面的token，預測文本序列中的下一個token），但當大模型在足夠大、足夠多樣化的文本語料庫上進行訓練時，這些模型可以生成連貫的、有上下文的、聽起來自然的響應。

這些響應可以用于廣泛的任務，比如生成創(chuàng)意性的內(nèi)容、在不同語言之間進行翻譯、幫助完成編碼任務，以及以有用、信息豐富的方式回答問題。

谷歌正在研究的LaMDA，就探索了這些模型如何產(chǎn)生安全、接地氣和高質(zhì)量的對話，以實現(xiàn)有上下文語境的多輪對話。

項目地址：https://blog.google/technology/ai/lamda/

人該怎樣與計算機互動？以前，我們會去適應計算機，用它能接受的方式與它互動。

但現(xiàn)在，有了LaMDA這樣的模型，人類與計算機的互動就有了一種嶄新的方式——人類喜歡的自然對話模式。

Jeff Dean表示，谷歌已經(jīng)取得了很大進展，讓LaMDA變得有用，且符合事實（合理猜測，Dean這是拉踩了一波ChatGPT）。

隨著模型規(guī)模的增加，跨任務的性能會提高，同時還會解鎖新功能

2022年4月，谷歌提出了PaLM，這是一個擁有5400億參數(shù)的大型語言模型，使用Pathways軟件基礎(chǔ)設施構(gòu)建，并在多個TPU v4 Pod上進行訓練。

PaLM的工作表明，對于在大量多語言數(shù)據(jù)和源代碼上訓練的大規(guī)模語言模型，僅僅以預測下一個token為目標進行訓練，就能在各種自然語言、翻譯和編碼任務中達到SOTA，盡管它們從未被訓練為專門執(zhí)行這些任務。

這項工作表明，增加模型和訓練數(shù)據(jù)的規(guī)模，可以顯著提高模型能力。

PaLM 540B參數(shù)模型與之前的SOTA在Big-bench的58項任務上的性能比較

谷歌在大型語言模型（LLM）上取得了巨大的成功，這些模型是在源代碼（而不是自然語言文本數(shù)據(jù)）上進行訓練的。這些模型可以極大地幫助內(nèi)部開發(fā)人員，詳情可見「ML-Enhanced Code Completion Improves Developer Productivity」。

谷歌用了一個5億參數(shù)的語言模型，為10,000名在IDE中使用該模型的開發(fā)者提供了代碼建議，所有代碼的2.6%，都是來自于這個模型的建議，因此，這些開發(fā)者減少了6%的編碼迭代時間。

現(xiàn)在，谷歌正在研究這個模型的增強版本，希望推廣給更多開發(fā)者。

AI中經(jīng)常遇到的挑戰(zhàn)之一，就是建立能夠進行多步驟推理的系統(tǒng)，將復雜的問題分解成較小的任務，并結(jié)合這些任務的解決方案，解決更大的問題。

谷歌最近在思維鏈提示方面的工作，就鼓勵模型在解決新問題時「展示工作」，這樣就能幫助語言模型遵循邏輯思維鏈，并產(chǎn)生更有條理、有組織和準確的響應。

就像四年級的數(shù)學老師會鼓勵學生展示解決問題的步驟，而不是僅僅寫下答案一樣，這種方法不僅使解決問題的方法更具有可解釋性，而且對于需要多個推理步驟的復雜問題，也更有可能找到正確的答案。

這種多步驟推理最大的益處就是，可以提高模型解決復雜數(shù)學推理和科學問題的能力

關(guān)鍵問題在于，ML模型是否能夠?qū)W會使用多步驟推理來解決復雜問題？

對此，谷歌提出了Minerva模型，它以通用的PaLM語言模型為基礎(chǔ)，在來自arXiv的大量數(shù)學文檔和論文的語料庫中對其進行微調(diào)，然后使用思維鏈提示和自洽解碼。在各自數(shù)學推理和科學問題的基準套件上，Minerva都展示出了SOTA。

Minerva 540B顯著提高了STEM評估數(shù)據(jù)集的最新性能

思維鏈提示（chain of thought prompting）是一種向模型更好地表達自然語言提示和示例的方法，能夠顯著提高模型處理新任務的能力。

類似的提示微調(diào)（prompt tuning），即在問題領(lǐng)域特定文本的語料庫上對大型語言模型進行微調(diào)，也顯示出了巨大的前景。

論文地址：https:///abs/2212.13138

在「Large Language Models Encode Clinical Knowledge」一文中，研究者證明了通過提示微調(diào)，可以用較少的例子使通用語言模型適應醫(yī)學領(lǐng)域，所產(chǎn)生的模型可以在美國醫(yī)學執(zhí)照考試問題（MedQA）上達到67.6%的準確率，比之前的SOTA高出17%以上。

雖然與臨床醫(yī)生的能力相比仍有差距，但理解力、知識回憶能力和醫(yī)學推理能力都隨著模型規(guī)模和指令提示微調(diào)（instruction prompt tuning）的調(diào)整而得到改善，這表明LLM在醫(yī)學領(lǐng)域具備極大的潛在應用場景。

另外，在多種語言上訓練的大型語言模型，也可以幫忙把一種語言翻譯到另一種語言，即使它們從未被教導過要明確地翻譯文本。

傳統(tǒng)的機器翻譯系統(tǒng)，通常是依靠著并行（翻譯）文本，來學習從一種語言到另一種語言的翻譯。

然而，由于平行文本只存在于相對較少的語言中，許多語言往往不被機器翻譯系統(tǒng)所支持。

在「Unlocking Zero-Resource Machine Translation to Support New Languages in Google Translate」、「Building Machine Translation Systems for the Next Thousand Languages」、「Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning」這三篇文章中，谷歌研究員描述了一套技術(shù)，這些技術(shù)在使用在單語種（非平行）數(shù)據(jù)集上訓練出的大規(guī)模多語種語言模型，為谷歌翻譯增加了24種新語言，被3億人所使用。

每種語言的單語數(shù)據(jù)量與每種語言的并行（翻譯）數(shù)據(jù)量。少數(shù)語言有大量的平行數(shù)據(jù)，但有很長的語言只有單語數(shù)據(jù)

另一種方法是利用軟提示（learned soft prompt）進行表征。在這種情況下，不是構(gòu)建新的輸入token來表征提示，而是在每個任務中添加少量可調(diào)整的參數(shù)，這些參數(shù)可以從一些任務實例中學習。

采用軟提示的任務，通常都產(chǎn)生了高性能，同時還允許大型預訓練語言模型在成千上萬的不同任務中共享。

這是更普遍的任務適配器技術(shù)的一個具體示例，它允許很大一部分參數(shù)在不同的任務中共享，同時仍然允許特定任務上的適應和調(diào)整。

有趣的是，由于新功能的出現(xiàn)，語言模型的規(guī)模會隨著規(guī)模的增加而顯著增長。

在「Characterizing Emergent Phenomena in Large Language Models」中，研究者對一個奇怪的現(xiàn)象進行了調(diào)查——

這些模型在達到一定規(guī)模之前，無法非常有效地執(zhí)行特定的復雜任務。然而，一旦發(fā)生了關(guān)鍵的學習量（因任務而異），他們準確執(zhí)行復雜任務的能力就會突然大幅提升。

進行多步算術(shù)（左）、在大學水平考試中考高分（中）以及在上下文中識別單詞的預期含義（右）的能力，都只出現(xiàn)在足夠大的模型中，包括LaMDA、GPT-3、Gopher、Chinchilla和PaLM

這就提出了一個問題，即當這些模型得到進一步訓練時，哪些新任務會變得可行。

生成模型

2022年，圖像、視頻和音頻的生成模型的質(zhì)量和能力已經(jīng)顯示出真正令人驚嘆和非凡的進步。生成模型的方法多種多樣，但共同點是必須學會對復雜的數(shù)據(jù)集（如自然圖像）進行建模。

2014年開發(fā)的生成式對抗網(wǎng)絡（GAN），設置了兩個相互作用模型：

1. 生成器：用于生成一個看起來很真實的圖像。

2. 鑒別器：同時接收生成的和真實的圖像，并判斷兩者中哪個是生成的，哪個是真實的。

每個模型都試圖在與另一個模型的競爭中取得勝利，結(jié)果是兩個模型在各自任務上的表現(xiàn)都越來越好。最后，生成模型就可以單獨用于生成圖像了。

2015年，「Deep Unsupervised Learning using Nonequilibrium Thermodynamics」一文提出了擴散模型（Diffusion model）。

論文地址：https:///abs/1503.03585

模型首先通過一個迭代的前向擴散過程，系統(tǒng)地、緩慢地破壞數(shù)據(jù)分布中的結(jié)構(gòu)。然后，再通過學習一個反向擴散過程，從而恢復數(shù)據(jù)中已經(jīng)丟失的結(jié)構(gòu)，即使是在高水平的噪聲下。

其中，前向過程可以用來為反向擴散過程生成以各種有用的、可控制的模型輸入為條件的噪音起點，這樣反向擴散（生成）過程就變得可控了。

也就是說，我們現(xiàn)在可以要求模型「生成一個柚子的圖像」，這顯然要比單純地「生成一個圖像」有用得多。

之后，各種形式的自回歸模型也被應用于圖像生成的任務。

2016年，「Pixel Recurrent Neural Networks」提出了一種遞歸架構(gòu)PixelRNN，以及一種類似但更有效的卷積架構(gòu)PixelCNN。這兩個架構(gòu)幫助奠定了使用深度神經(jīng)網(wǎng)絡進行像素級生成的基礎(chǔ)。

論文地址：https:///abs/1601.06759

相關(guān)的研究還有「Conditional Image Generation with PixelCNN Decoders」這篇。

論文地址：https:///abs/1606.05328

緊隨其后的是，2017年在「Neural Discrete Representation Learning」中提出的VQ-VAE，一個矢量量化的自編碼器。通過將VQ-VAE與PixelCNN相結(jié)合，可以產(chǎn)生高質(zhì)量的圖像。

論文地址：https:///abs/1711.00937

2018年提出的Image Transformer，則使用自回歸Transformer模型來生成圖像。

論文地址：https:///abs/1802.05751

然而，所有這些技術(shù)所生成的圖像與現(xiàn)實世界相比，質(zhì)量都相對較低。直到最近，一些新研究才為更好的圖像生成打開了大門。

比如OpenAI的CLIP——一種聯(lián)合訓練圖像編碼器和文本解碼器以預測「圖像、文本」對的預訓練方法。

這種預測哪個描述與哪個圖像相配的預訓練任務，被證明是學習圖像表征的有效和可擴展的方式，并在ImageNet這樣的數(shù)據(jù)集上取得了出色的zero-shot性能。

論文地址：https:///abs/2103.00020

項目地址：https:///blog/clip/

除了CLIP之外，生成式圖像模型的工具也在不斷增加。

大型語言模型編碼器已經(jīng)被證明可以有效地將圖像生成的條件放在長的自然語言描述上，而不僅僅是數(shù)量有限的預先設定的圖像類別。大規(guī)模的圖像訓練數(shù)據(jù)集和附帶的描述（可以反過來作為文本→圖像的示例）提高了整體性能。

所有這些因素加在一起，產(chǎn)生了一系列能夠生成高分辨率圖像的模型，即便是非常詳細和奇妙的提示也可以。

在此，Jeff Dean重點介紹了谷歌研究團隊的兩項最新進展：Imagen和Parti。

左圖來自Imagen：「皇家城堡的一面墻。墻上有兩幅畫。左邊那幅是皇家浣熊國王充滿細節(jié)的油畫。右邊那幅是皇家浣熊王后充滿細節(jié)的油畫?！褂覉D來自Prti：「一只戴著摩托車頭盔和披風的泰迪熊在紐約市的出租車上沖浪。數(shù)碼照片。」

首先，Imagen是基于之前提到的擴散模型。

在2022年發(fā)表的「Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding」中，研究人員表明，一個通用的大型語言模型（如T5），通過在純文本語料庫上進行預訓練，可以在圖像合成的文本編碼方面有著出色的表現(xiàn)。

令人驚訝的是，在Imagen中增加語言模型的大小，比增加圖像擴散模型的大小更能提高樣本的保真度和圖像-文本的一致性。

論文地址：https:///abs/2205.11487

項目地址：https://search.google/

具體而言，Imagen通過在訓練期間偶爾「放棄」條件信息來提高性能，并為基于擴散的圖像生成帶來了一些進展，包括「Efficient U-Net」和「無分類器引導」的新型內(nèi)存效率架構(gòu)。

其中，無分類器引導迫使模型學會僅從輸入數(shù)據(jù)中生成，從而避免因過度依賴調(diào)節(jié)信息而產(chǎn)生的問題。

論文地址：https:///abs/2207.12598

對此，「Guidance: a cheat code for diffusion models」一文提供了更加直觀的解釋。

文章地址：https://benanne./2022/05/26/guidance.html

其次，Parti使用自回歸Transformer架構(gòu)來生成基于文本輸入的圖像像素。

在2021年發(fā)布的「Vector-quantized Image Modeling with Improved VQGAN」表明，基于Vision Transformer的編碼器能夠顯著改善矢量量化GAN模型VQGAN的輸出。

論文地址：https:///abs/2110.04627

這在2022年發(fā)布的「Scaling Autoregressive Models for Content-Rich Text-to-Image Generation」中得到了擴展，通過將Transformer編碼器-解碼器的參數(shù)增加到200億個，來獲得更好的結(jié)果。

論文地址：https:///abs/2206.10789

此外，Parti還善于捕捉提示中的微妙線索，并且采用了上文所述的無分類引導對生成的圖像進行銳化。

用戶的控制

上述進展使我們有可能根據(jù)文字描述生成逼真的靜態(tài)圖像。

然而，有時僅靠文字并不足以使你創(chuàng)造出你想要的東西。舉個例子，「一只狗在沙灘上被獨角獸追趕」與「我的狗在沙灘上被獨角獸追趕」。

因此，谷歌在為用戶提供控制生成過程的新方法上又做了后續(xù)的研究。

在「DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation」中，用戶能夠?qū)magen或Parti這樣的模型進行微調(diào)，進而根據(jù)文本和用戶提供的圖像的組合生成新的圖像。

比如，用戶可以將自己（或?qū)櫸铮┑膱D像放入生成的圖像當中。

論文地址：https:///abs/2208.12242

項目地址：https://dreambooth./

這一點在「Prompt-to-Prompt Image Editing with Cross Attention Control」中也得到了體現(xiàn)。

用戶可以通過文本提示讓模型去填充被mask的區(qū)域，從而反復編輯圖像，比如「將汽車變成自行車」這種。

論文地址：https:///abs/2208.01626

項目地址：https://search.google/editor/

生成式視頻

為視頻創(chuàng)建生成模型是一個非常具有挑戰(zhàn)性的領(lǐng)域，因為與圖像不同的是，圖像的挑戰(zhàn)是將圖像的理想屬性與生成的像素相匹配，而視頻則有一個額外的時間維度。

視頻中，每一幀的像素不僅必須與此刻應該發(fā)生的事相匹配，還必須與其他幀相一致——既要在非常精細的層面上（前后幾幀的范圍內(nèi)，使運動看起來平滑自然），也要在粗略的層面上（如果我們想做一個兩分鐘的飛機起飛、盤旋和降落的視頻，就必須制作成千上萬個符合這個需求的幀）。

今年，谷歌通過Imagen Video和Phenaki這兩項工作，在這個目標上取得了相當多令人振奮的進展。

在「Imagen Video: High Definition Video Generation from Diffusion Models」中，研究人員使用級聯(lián)擴散模型生成高分辨率的視頻。

論文地址：https:///abs/2210.02303

首先，輸入文本提示（一只戴著生日帽的快樂大象在海底行走），并用T5將其編碼為文本嵌入。

然后，一個基礎(chǔ)的視頻擴散模型以40×24的分辨率和每秒3幀的速度生成一個非常粗略的16幀視頻。

最后，由多個時間超分辨率（TSR）和空間超分辨率（SSR）模型進行上采樣，生成最終的128幀，分辨率為1280×768，每秒24幀，共計5.3s的高清視頻。

2022年發(fā)布的「Phenaki: Variable Length Video Generation From Open Domain Textual Description」，引入了一個新的基于Transformer的模型來學習視頻表征。

論文地址：https:///abs/2210.02399

其中，文本調(diào)節(jié)是通過訓練一個雙向的Transformer模型來實現(xiàn)的，可以根據(jù)文本描述生成視頻token。然后，再對這些生成的視頻token進行解碼來創(chuàng)建最終的視頻。

有了Imagen Video和Phenaki，我們還可以將兩個模型結(jié)合起來，從Imagen的高分辨率單幀和Phenaki的長視頻中獲益。

最直接的方法是使用Imagen Video來處理短視頻片段的超分辨率，同時依靠自回歸的Phenaki模型來生成長時標視頻信息。

生成式音頻

除了面向視覺的生成模型外，谷歌在音頻的生成模型方面也取得了重大進展。

在「AudioLM, a Language Modeling Approach to Audio Generation」中，研究人員描述了如何利用語言建模的進展來生成音頻，而不需要在注釋的數(shù)據(jù)上進行訓練。

論文地址：https:///abs/2209.03143

計算機視覺

計算機視覺領(lǐng)域的發(fā)展速度驚人。

2020年，在名為「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」的文章中，谷歌研究團隊開始使用Transformer架構(gòu)進行計算機視覺的研究，而非卷積神經(jīng)網(wǎng)絡（CNN）。

論文地址：https:///abs/2010.11929

雖然卷積的圖像局部特征提取是許多計算機視覺問題的有力解法，但Transformer的注意力機制在圖像處理方面顯得靈活。

圖像的處理

然而，由于完全注意力機制會隨著圖像大小進行二次縮放，很難將其應用于高分辨率的圖像處理中。為此，谷歌團隊提出了一種新的multi-axis方法，改進原有的ViT和MLP模型，更好地適應高分辨率、密集的預測任務、同時，模型可以自然地適應不同的輸入大小，具有高靈活性和低復雜度。為實現(xiàn)高級和低級視覺的不同任務，谷歌團隊推出了兩個模型：MaxViT和MAXIM。

在「MaxViT: Multi-Axis Vision Transformer」中，研究人員探索了一種在視覺模型的每個階段，結(jié)合定位和非定位信息的方法。

論文地址：https:///abs/2204.01697

這種方法在ImageNet-1k分類任務和各種對象檢測任務上的表現(xiàn)優(yōu)于其他最先進的模型，而且它的計算成本要低得多。

在MaxViT中，multi-axis注意力機制使其復雜度呈線性

實驗顯示，MaxViT顯著提高了圖像分類、目標檢測、分割、質(zhì)量評估等高級任務的最新技術(shù)水平。

在「MAXIM: Multi-Axis MLP for Image Processing」中，谷歌推出了圖像處理解決方案的第二個模型。

論文地址：https:///abs/2201.02973

基于類似UNet的架構(gòu)，MAXIM在低級成像任務（包括去噪、去模糊、去霧、去雨和弱光增強）上具有強勁的性能。

使用MAXIM去模糊

為了促進對高效Transformer和MLP模型的進一步研究，谷歌團隊開源了MaxViT和MAXIM的代碼和模型。

MaxViT代碼鏈接：https://github.com/google-research/maxvit

MAXIM代碼鏈接：https://github.com/google-research/maxim

除了數(shù)據(jù)提取，對象監(jiān)測也是圖像處理的重要一環(huán)。在「Pix2Seq: A New Language Interface for Object Detection」中，研究人員探索了一種簡單而通用的方法，從完全不同的角度處理對象檢測。

論文地址：https:///abs/2109.10852

與基于特定任務的現(xiàn)有方法不同，谷歌研究人員將對象檢測轉(zhuǎn)換為以觀察到的像素輸入為條件的語言建模任務。

Pix2Seq通過神經(jīng)網(wǎng)絡感知圖像，并為每個對象生成一系列token

與現(xiàn)有的高度專業(yè)化和優(yōu)化的檢測算法相比，Pix2Seq在大規(guī)模對象檢測COCO數(shù)據(jù)集方面取得了更好地結(jié)果，通過在更大的對象檢測數(shù)據(jù)集上預訓練模型，可以進一步提高其性能。

理解3D世界

計算機視覺的另一個挑戰(zhàn)，在于如何讓模型通過一張或幾張二維圖像，更好地理解物體在現(xiàn)實世界的三維結(jié)構(gòu)。

在「FILM: Frame Interpolation for Large Motion」一文中，研究人員演示了如何在相隔多秒的兩張照片之間，通過插值來創(chuàng)建慢動作短視頻。

論文地址：https:///abs/2202.04901

在「View Synthesis with Transformers」中，研究人員展示了如何結(jié)合兩種新的技術(shù)來合成場景的新視圖，也就是光場神經(jīng)渲染（Light Field Neural Rendering，LFNR）和可泛化的基于patch的神經(jīng)渲染（Generalizable Patch-Based Neural Rendering，GPNR）。

LFNR項目地址：https://light-field-neural-rendering./

GPNR項目地址：https:///gen_patch_neural_rendering/

LFNR使用學習組合參考像素顏色的Transformer，來準確重現(xiàn)與參考圖像相關(guān)的效果。

雖然LFNR在單個場景中效果很好，但它的新場景泛化能力有限。GPNR通過使用一系列具有規(guī)范化位置編碼的Transformer，可以很好地克服這一點。

這些Transformer可以在一組場景上進行訓練，以合成新場景的視圖。這些技術(shù)結(jié)合在一起，只需從場景的幾張圖像中就可以高質(zhì)量地合成新場景，如下所示：

在「LOLNerf: Learn from One Look」中，研究人員探索了僅從單個二維圖像中學習高質(zhì)量表征的能力。

論文地址：https:///abs/2111.09996

通過對特定類別對象的不同示例進行培訓，LOLNerf只憑一張圖片，就能充分了解對象的預期三維結(jié)構(gòu)。

通過這項技術(shù)，機器模型能更好地了解三維世界——這是計算機視覺人的長期夢想！

寫在最后：谷歌是負責的

Dean介紹的這些機器學習領(lǐng)域變革性的進展，在改變數(shù)十億谷歌產(chǎn)品的用戶，這些產(chǎn)品包括搜索、智能助理、廣告、云、Gmail、地圖、YouTube、Workspace、安卓、Pixel、Nest和翻譯。

這些最新的進展切實影響著谷歌用戶的體驗，改變著人類與計算機互動的方式。

語言模型讓人機可以進行自然的對話，并且從計算機那里得到令人驚訝的回應。由于計算機視覺的新方法，計算機可以幫助人們在三維（而不是二維）的環(huán)境中進行創(chuàng)作和互動。

由于生成式模型的新進展，計算機可以幫助人們創(chuàng)建圖像、視頻和音頻。而自然語言理解方面的進展，讓計算機可以理解你所要創(chuàng)造的東西，然后產(chǎn)生令你驚訝的結(jié)果！

改變?nèi)藱C互動的另一個轉(zhuǎn)變，是多模圖模型能力的不斷增強。谷歌正在努力創(chuàng)造一個能夠流暢理解不同模式的單一模型，它可以理解每一種模式在上下文中代表什么，然后生成不同模式。

比如，他們推出了一個統(tǒng)一的語言模型，他可以在100多種語言中執(zhí)行視覺、語言、問題回答和物體檢測任務，并且達到了SOTA。

在未來，人們可以調(diào)動更多的感官，讓計算機做他們想做的事情，比如，「用斯瓦希里語描述這張圖片」。還有一些模型，可以通過不同的組合，生成由自然語言、圖像和音頻控制的圖像、視頻和音頻。

在文章最后，Dean表示，谷歌對用戶和整個社會都負有責任，會竭盡全力保證這些AI技術(shù)的安全性。

P.S 因為時間原因，多模態(tài)模型的部分本次未寫入全文，敬請期待后續(xù)。

參考資料：

https://ai./2023/01/google-research-2022-beyond-language.html

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

超詳超硬Jeff Dean萬字總結(jié)火熱出爐！圖解谷歌2022年AIGC、LLM、CV三大領(lǐng)域成就

超詳超硬Jeff Dean萬字總結(jié)火熱出爐！圖解谷歌2022年AIGC、LLM、CV三大領(lǐng)域成就