語言模型
【導讀】2022年,谷歌在ML領(lǐng)域取得了哪些新進展?Jeff Dean發(fā)萬字長文總結(jié)。 2022年,谷歌在機器學習方面有什么進展? Google Research高級研究員兼高級副總裁Jeff Dean一文幫你總結(jié)! 昨天,Jeff Dean代表Google Research社區(qū)發(fā)布一篇干貨滿滿的長文,總結(jié)了谷歌在2022年激動人心的新進展。 顯然,大佬花了很久(也許是一年),醞釀了一個大的。 在這次的第一篇中,Jeff Dean首先討論了語言、生成、視覺和多模態(tài)模型。 接下來,他還將討論負責任的人工智能、算法和計算機系統(tǒng),以及科學、健康和機器人技術(shù)等研究主題的新進展。 話不多說,讓我們開始享受這場知識的盛宴! 語言模型
在過去十年中,機器學習最令人興奮的領(lǐng)域之一,無疑就是規(guī)模更大、功能更強的語言模型了。 一路走來,最矚目的進展就是新的方法,比如序列到序列學習(seq2seq),以及谷歌開發(fā)的Transformer模型。 這些方法,是過去幾年語言模型領(lǐng)域大部分進展的基礎(chǔ)。 雖然語言模型的訓練目標簡單得令人吃驚(比如根據(jù)前面的token,預測文本序列中的下一個token),但當大模型在足夠大、足夠多樣化的文本語料庫上進行訓練時,這些模型可以生成連貫的、有上下文的、聽起來自然的響應。 這些響應可以用于廣泛的任務,比如生成創(chuàng)意性的內(nèi)容、在不同語言之間進行翻譯、幫助完成編碼任務,以及以有用、信息豐富的方式回答問題。 谷歌正在研究的LaMDA,就探索了這些模型如何產(chǎn)生安全、接地氣和高質(zhì)量的對話,以實現(xiàn)有上下文語境的多輪對話。 項目地址:https://blog.google/technology/ai/lamda/ 人該怎樣與計算機互動?以前,我們會去適應計算機,用它能接受的方式與它互動。 但現(xiàn)在,有了LaMDA這樣的模型,人類與計算機的互動就有了一種嶄新的方式——人類喜歡的自然對話模式。 Jeff Dean表示,谷歌已經(jīng)取得了很大進展,讓LaMDA變得有用,且符合事實(合理猜測,Dean這是拉踩了一波ChatGPT)。 隨著模型規(guī)模的增加,跨任務的性能會提高,同時還會解鎖新功能 2022年4月,谷歌提出了PaLM,這是一個擁有5400億參數(shù)的大型語言模型,使用Pathways軟件基礎(chǔ)設施構(gòu)建,并在多個TPU v4 Pod上進行訓練。 PaLM的工作表明,對于在大量多語言數(shù)據(jù)和源代碼上訓練的大規(guī)模語言模型,僅僅以預測下一個token為目標進行訓練,就能在各種自然語言、翻譯和編碼任務中達到SOTA,盡管它們從未被訓練為專門執(zhí)行這些任務。 這項工作表明,增加模型和訓練數(shù)據(jù)的規(guī)模,可以顯著提高模型能力。 PaLM 540B參數(shù)模型與之前的SOTA在Big-bench的58項任務上的性能比較 谷歌在大型語言模型(LLM)上取得了巨大的成功,這些模型是在源代碼(而不是自然語言文本數(shù)據(jù))上進行訓練的。這些模型可以極大地幫助內(nèi)部開發(fā)人員,詳情可見「ML-Enhanced Code Completion Improves Developer Productivity」。 谷歌用了一個5億參數(shù)的語言模型,為10,000名在IDE中使用該模型的開發(fā)者提供了代碼建議,所有代碼的2.6%,都是來自于這個模型的建議,因此,這些開發(fā)者減少了6%的編碼迭代時間。 現(xiàn)在,谷歌正在研究這個模型的增強版本,希望推廣給更多開發(fā)者。 AI中經(jīng)常遇到的挑戰(zhàn)之一,就是建立能夠進行多步驟推理的系統(tǒng),將復雜的問題分解成較小的任務,并結(jié)合這些任務的解決方案,解決更大的問題。 谷歌最近在思維鏈提示方面的工作,就鼓勵模型在解決新問題時「展示工作」,這樣就能幫助語言模型遵循邏輯思維鏈,并產(chǎn)生更有條理、有組織和準確的響應。 就像四年級的數(shù)學老師會鼓勵學生展示解決問題的步驟,而不是僅僅寫下答案一樣,這種方法不僅使解決問題的方法更具有可解釋性,而且對于需要多個推理步驟的復雜問題,也更有可能找到正確的答案。 這種多步驟推理最大的益處就是,可以提高模型解決復雜數(shù)學推理和科學問題的能力 關(guān)鍵問題在于,ML模型是否能夠?qū)W會使用多步驟推理來解決復雜問題? 對此,谷歌提出了Minerva模型,它以通用的PaLM語言模型為基礎(chǔ),在來自arXiv的大量數(shù)學文檔和論文的語料庫中對其進行微調(diào),然后使用思維鏈提示和自洽解碼。在各自數(shù)學推理和科學問題的基準套件上,Minerva都展示出了SOTA。 Minerva 540B顯著提高了STEM評估數(shù)據(jù)集的最新性能 思維鏈提示(chain of thought prompting)是一種向模型更好地表達自然語言提示和示例的方法,能夠顯著提高模型處理新任務的能力。 類似的提示微調(diào)(prompt tuning),即在問題領(lǐng)域特定文本的語料庫上對大型語言模型進行微調(diào),也顯示出了巨大的前景。 論文地址:https:///abs/2212.13138 在「Large Language Models Encode Clinical Knowledge」一文中,研究者證明了通過提示微調(diào),可以用較少的例子使通用語言模型適應醫(yī)學領(lǐng)域,所產(chǎn)生的模型可以在美國醫(yī)學執(zhí)照考試問題(MedQA)上達到67.6%的準確率,比之前的SOTA高出17%以上。 雖然與臨床醫(yī)生的能力相比仍有差距,但理解力、知識回憶能力和醫(yī)學推理能力都隨著模型規(guī)模和指令提示微調(diào)(instruction prompt tuning)的調(diào)整而得到改善,這表明LLM在醫(yī)學領(lǐng)域具備極大的潛在應用場景。 另外,在多種語言上訓練的大型語言模型,也可以幫忙把一種語言翻譯到另一種語言,即使它們從未被教導過要明確地翻譯文本。 傳統(tǒng)的機器翻譯系統(tǒng),通常是依靠著并行(翻譯)文本,來學習從一種語言到另一種語言的翻譯。 然而,由于平行文本只存在于相對較少的語言中,許多語言往往不被機器翻譯系統(tǒng)所支持。 在「Unlocking Zero-Resource Machine Translation to Support New Languages in Google Translate」、「Building Machine Translation Systems for the Next Thousand Languages」、「Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning」這三篇文章中,谷歌研究員描述了一套技術(shù),這些技術(shù)在使用在單語種(非平行)數(shù)據(jù)集上訓練出的大規(guī)模多語種語言模型,為谷歌翻譯增加了24種新語言,被3億人所使用。 每種語言的單語數(shù)據(jù)量與每種語言的并行(翻譯)數(shù)據(jù)量。少數(shù)語言有大量的平行數(shù)據(jù),但有很長的語言只有單語數(shù)據(jù) 另一種方法是利用軟提示(learned soft prompt)進行表征。在這種情況下,不是構(gòu)建新的輸入token來表征提示,而是在每個任務中添加少量可調(diào)整的參數(shù),這些參數(shù)可以從一些任務實例中學習。 采用軟提示的任務,通常都產(chǎn)生了高性能,同時還允許大型預訓練語言模型在成千上萬的不同任務中共享。 這是更普遍的任務適配器技術(shù)的一個具體示例,它允許很大一部分參數(shù)在不同的任務中共享,同時仍然允許特定任務上的適應和調(diào)整。 有趣的是,由于新功能的出現(xiàn),語言模型的規(guī)模會隨著規(guī)模的增加而顯著增長。 在「Characterizing Emergent Phenomena in Large Language Models」中,研究者對一個奇怪的現(xiàn)象進行了調(diào)查—— 這些模型在達到一定規(guī)模之前,無法非常有效地執(zhí)行特定的復雜任務。然而,一旦發(fā)生了關(guān)鍵的學習量(因任務而異),他們準確執(zhí)行復雜任務的能力就會突然大幅提升。 進行多步算術(shù)(左)、在大學水平考試中考高分(中)以及在上下文中識別單詞的預期含義(右)的能力,都只出現(xiàn)在足夠大的模型中,包括LaMDA、GPT-3、Gopher、Chinchilla和PaLM 這就提出了一個問題,即當這些模型得到進一步訓練時,哪些新任務會變得可行。 生成模型
2022年,圖像、視頻和音頻的生成模型的質(zhì)量和能力已經(jīng)顯示出真正令人驚嘆和非凡的進步。生成模型的方法多種多樣,但共同點是必須學會對復雜的數(shù)據(jù)集(如自然圖像)進行建模。 2014年開發(fā)的生成式對抗網(wǎng)絡(GAN),設置了兩個相互作用模型: 1. 生成器:用于生成一個看起來很真實的圖像。 2. 鑒別器:同時接收生成的和真實的圖像,并判斷兩者中哪個是生成的,哪個是真實的。 每個模型都試圖在與另一個模型的競爭中取得勝利,結(jié)果是兩個模型在各自任務上的表現(xiàn)都越來越好。最后,生成模型就可以單獨用于生成圖像了。 2015年,「Deep Unsupervised Learning using Nonequilibrium Thermodynamics」一文提出了擴散模型(Diffusion model)。 論文地址:https:///abs/1503.03585 模型首先通過一個迭代的前向擴散過程,系統(tǒng)地、緩慢地破壞數(shù)據(jù)分布中的結(jié)構(gòu)。然后,再通過學習一個反向擴散過程,從而恢復數(shù)據(jù)中已經(jīng)丟失的結(jié)構(gòu),即使是在高水平的噪聲下。 其中,前向過程可以用來為反向擴散過程生成以各種有用的、可控制的模型輸入為條件的噪音起點,這樣反向擴散(生成)過程就變得可控了。 也就是說,我們現(xiàn)在可以要求模型「生成一個柚子的圖像」,這顯然要比單純地「生成一個圖像」有用得多。 之后,各種形式的自回歸模型也被應用于圖像生成的任務。 2016年,「Pixel Recurrent Neural Networks」提出了一種遞歸架構(gòu)PixelRNN,以及一種類似但更有效的卷積架構(gòu)PixelCNN。這兩個架構(gòu)幫助奠定了使用深度神經(jīng)網(wǎng)絡進行像素級生成的基礎(chǔ)。 論文地址:https:///abs/1601.06759 相關(guān)的研究還有「Conditional Image Generation with PixelCNN Decoders」這篇。 論文地址:https:///abs/1606.05328 緊隨其后的是,2017年在「Neural Discrete Representation Learning」中提出的VQ-VAE,一個矢量量化的自編碼器。通過將VQ-VAE與PixelCNN相結(jié)合,可以產(chǎn)生高質(zhì)量的圖像。 論文地址:https:///abs/1711.00937 2018年提出的Image Transformer,則使用自回歸Transformer模型來生成圖像。 論文地址:https:///abs/1802.05751 然而,所有這些技術(shù)所生成的圖像與現(xiàn)實世界相比,質(zhì)量都相對較低。直到最近,一些新研究才為更好的圖像生成打開了大門。 比如OpenAI的CLIP——一種聯(lián)合訓練圖像編碼器和文本解碼器以預測「圖像、文本」對的預訓練方法。 這種預測哪個描述與哪個圖像相配的預訓練任務,被證明是學習圖像表征的有效和可擴展的方式,并在ImageNet這樣的數(shù)據(jù)集上取得了出色的zero-shot性能。 論文地址:https:///abs/2103.00020 項目地址:https:///blog/clip/ 除了CLIP之外,生成式圖像模型的工具也在不斷增加。 大型語言模型編碼器已經(jīng)被證明可以有效地將圖像生成的條件放在長的自然語言描述上,而不僅僅是數(shù)量有限的預先設定的圖像類別。大規(guī)模的圖像訓練數(shù)據(jù)集和附帶的描述(可以反過來作為文本→圖像的示例)提高了整體性能。 所有這些因素加在一起,產(chǎn)生了一系列能夠生成高分辨率圖像的模型,即便是非常詳細和奇妙的提示也可以。 在此,Jeff Dean重點介紹了谷歌研究團隊的兩項最新進展:Imagen和Parti。 左圖來自Imagen:「皇家城堡的一面墻。墻上有兩幅畫。左邊那幅是皇家浣熊國王充滿細節(jié)的油畫。右邊那幅是皇家浣熊王后充滿細節(jié)的油畫?!褂覉D來自Prti:「一只戴著摩托車頭盔和披風的泰迪熊在紐約市的出租車上沖浪。數(shù)碼照片。」 首先,Imagen是基于之前提到的擴散模型。 在2022年發(fā)表的「Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding」中,研究人員表明,一個通用的大型語言模型(如T5),通過在純文本語料庫上進行預訓練,可以在圖像合成的文本編碼方面有著出色的表現(xiàn)。 令人驚訝的是,在Imagen中增加語言模型的大小,比增加圖像擴散模型的大小更能提高樣本的保真度和圖像-文本的一致性。 論文地址:https:///abs/2205.11487 項目地址:https://search.google/ 具體而言,Imagen通過在訓練期間偶爾「放棄」條件信息來提高性能,并為基于擴散的圖像生成帶來了一些進展,包括「Efficient U-Net」和「無分類器引導」的新型內(nèi)存效率架構(gòu)。 其中,無分類器引導迫使模型學會僅從輸入數(shù)據(jù)中生成,從而避免因過度依賴調(diào)節(jié)信息而產(chǎn)生的問題。 論文地址:https:///abs/2207.12598 對此,「Guidance: a cheat code for diffusion models」一文提供了更加直觀的解釋。 文章地址:https://benanne./2022/05/26/guidance.html 其次,Parti使用自回歸Transformer架構(gòu)來生成基于文本輸入的圖像像素。 在2021年發(fā)布的「Vector-quantized Image Modeling with Improved VQGAN」表明,基于Vision Transformer的編碼器能夠顯著改善矢量量化GAN模型VQGAN的輸出。 論文地址:https:///abs/2110.04627 這在2022年發(fā)布的「Scaling Autoregressive Models for Content-Rich Text-to-Image Generation」中得到了擴展,通過將Transformer編碼器-解碼器的參數(shù)增加到200億個,來獲得更好的結(jié)果。 論文地址:https:///abs/2206.10789 此外,Parti還善于捕捉提示中的微妙線索,并且采用了上文所述的無分類引導對生成的圖像進行銳化。 用戶的控制 上述進展使我們有可能根據(jù)文字描述生成逼真的靜態(tài)圖像。 然而,有時僅靠文字并不足以使你創(chuàng)造出你想要的東西。舉個例子,「一只狗在沙灘上被獨角獸追趕」與「我的狗在沙灘上被獨角獸追趕」。 因此,谷歌在為用戶提供控制生成過程的新方法上又做了后續(xù)的研究。 在「DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation」中,用戶能夠?qū)magen或Parti這樣的模型進行微調(diào),進而根據(jù)文本和用戶提供的圖像的組合生成新的圖像。 比如,用戶可以將自己(或?qū)櫸铮┑膱D像放入生成的圖像當中。 論文地址:https:///abs/2208.12242 項目地址:https://dreambooth./ 這一點在「Prompt-to-Prompt Image Editing with Cross Attention Control」中也得到了體現(xiàn)。 用戶可以通過文本提示讓模型去填充被mask的區(qū)域,從而反復編輯圖像,比如「將汽車變成自行車」這種。 論文地址:https:///abs/2208.01626 項目地址:https://search.google/editor/ 生成式視頻
為視頻創(chuàng)建生成模型是一個非常具有挑戰(zhàn)性的領(lǐng)域,因為與圖像不同的是,圖像的挑戰(zhàn)是將圖像的理想屬性與生成的像素相匹配,而視頻則有一個額外的時間維度。 視頻中,每一幀的像素不僅必須與此刻應該發(fā)生的事相匹配,還必須與其他幀相一致——既要在非常精細的層面上(前后幾幀的范圍內(nèi),使運動看起來平滑自然),也要在粗略的層面上(如果我們想做一個兩分鐘的飛機起飛、盤旋和降落的視頻,就必須制作成千上萬個符合這個需求的幀)。 今年,谷歌通過Imagen Video和Phenaki這兩項工作,在這個目標上取得了相當多令人振奮的進展。 在「Imagen Video: High Definition Video Generation from Diffusion Models」中,研究人員使用級聯(lián)擴散模型生成高分辨率的視頻。 論文地址:https:///abs/2210.02303 首先,輸入文本提示(一只戴著生日帽的快樂大象在海底行走),并用T5將其編碼為文本嵌入。 然后,一個基礎(chǔ)的視頻擴散模型以40×24的分辨率和每秒3幀的速度生成一個非常粗略的16幀視頻。 最后,由多個時間超分辨率(TSR)和空間超分辨率(SSR)模型進行上采樣,生成最終的128幀,分辨率為1280×768,每秒24幀,共計5.3s的高清視頻。 2022年發(fā)布的「Phenaki: Variable Length Video Generation From Open Domain Textual Description」,引入了一個新的基于Transformer的模型來學習視頻表征。 論文地址:https:///abs/2210.02399 其中,文本調(diào)節(jié)是通過訓練一個雙向的Transformer模型來實現(xiàn)的,可以根據(jù)文本描述生成視頻token。然后,再對這些生成的視頻token進行解碼來創(chuàng)建最終的視頻。 有了Imagen Video和Phenaki,我們還可以將兩個模型結(jié)合起來,從Imagen的高分辨率單幀和Phenaki的長視頻中獲益。 最直接的方法是使用Imagen Video來處理短視頻片段的超分辨率,同時依靠自回歸的Phenaki模型來生成長時標視頻信息。 生成式音頻
除了面向視覺的生成模型外,谷歌在音頻的生成模型方面也取得了重大進展。 在「AudioLM, a Language Modeling Approach to Audio Generation」中,研究人員描述了如何利用語言建模的進展來生成音頻,而不需要在注釋的數(shù)據(jù)上進行訓練。 論文地址:https:///abs/2209.03143 計算機視覺
計算機視覺領(lǐng)域的發(fā)展速度驚人。 2020年,在名為「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」的文章中,谷歌研究團隊開始使用Transformer架構(gòu)進行計算機視覺的研究,而非卷積神經(jīng)網(wǎng)絡(CNN)。 論文地址:https:///abs/2010.11929 雖然卷積的圖像局部特征提取是許多計算機視覺問題的有力解法,但Transformer的注意力機制在圖像處理方面顯得靈活。 圖像的處理
然而,由于完全注意力機制會隨著圖像大小進行二次縮放,很難將其應用于高分辨率的圖像處理中。為此,谷歌團隊提出了一種新的multi-axis方法,改進原有的ViT和MLP模型,更好地適應高分辨率、密集的預測任務、同時,模型可以自然地適應不同的輸入大小,具有高靈活性和低復雜度。為實現(xiàn)高級和低級視覺的不同任務,谷歌團隊推出了兩個模型:MaxViT和MAXIM。 在「MaxViT: Multi-Axis Vision Transformer」中,研究人員探索了一種在視覺模型的每個階段,結(jié)合定位和非定位信息的方法。 論文地址:https:///abs/2204.01697 這種方法在ImageNet-1k分類任務和各種對象檢測任務上的表現(xiàn)優(yōu)于其他最先進的模型,而且它的計算成本要低得多。 在MaxViT中,multi-axis注意力機制使其復雜度呈線性 實驗顯示,MaxViT顯著提高了圖像分類、目標檢測、分割、質(zhì)量評估等高級任務的最新技術(shù)水平。 在「MAXIM: Multi-Axis MLP for Image Processing」中,谷歌推出了圖像處理解決方案的第二個模型。 論文地址:https:///abs/2201.02973 基于類似UNet的架構(gòu),MAXIM在低級成像任務(包括去噪、去模糊、去霧、去雨和弱光增強)上具有強勁的性能。 使用MAXIM去模糊 為了促進對高效Transformer和MLP模型的進一步研究,谷歌團隊開源了MaxViT和MAXIM的代碼和模型。 MaxViT代碼鏈接:https://github.com/google-research/maxvit MAXIM代碼鏈接:https://github.com/google-research/maxim 除了數(shù)據(jù)提取,對象監(jiān)測也是圖像處理的重要一環(huán)。在「Pix2Seq: A New Language Interface for Object Detection」中,研究人員探索了一種簡單而通用的方法,從完全不同的角度處理對象檢測。 論文地址:https:///abs/2109.10852 與基于特定任務的現(xiàn)有方法不同,谷歌研究人員將對象檢測轉(zhuǎn)換為以觀察到的像素輸入為條件的語言建模任務。 Pix2Seq通過神經(jīng)網(wǎng)絡感知圖像,并為每個對象生成一系列token 與現(xiàn)有的高度專業(yè)化和優(yōu)化的檢測算法相比,Pix2Seq在大規(guī)模對象檢測COCO數(shù)據(jù)集方面取得了更好地結(jié)果,通過在更大的對象檢測數(shù)據(jù)集上預訓練模型,可以進一步提高其性能。 理解3D世界
計算機視覺的另一個挑戰(zhàn),在于如何讓模型通過一張或幾張二維圖像,更好地理解物體在現(xiàn)實世界的三維結(jié)構(gòu)。 在「FILM: Frame Interpolation for Large Motion」一文中,研究人員演示了如何在相隔多秒的兩張照片之間,通過插值來創(chuàng)建慢動作短視頻。 論文地址:https:///abs/2202.04901 在「View Synthesis with Transformers」中,研究人員展示了如何結(jié)合兩種新的技術(shù)來合成場景的新視圖,也就是光場神經(jīng)渲染(Light Field Neural Rendering,LFNR)和可泛化的基于patch的神經(jīng)渲染(Generalizable Patch-Based Neural Rendering,GPNR)。 LFNR項目地址:https://light-field-neural-rendering./ GPNR項目地址:https:///gen_patch_neural_rendering/ LFNR使用學習組合參考像素顏色的Transformer,來準確重現(xiàn)與參考圖像相關(guān)的效果。 雖然LFNR在單個場景中效果很好,但它的新場景泛化能力有限。GPNR通過使用一系列具有規(guī)范化位置編碼的Transformer,可以很好地克服這一點。 這些Transformer可以在一組場景上進行訓練,以合成新場景的視圖。這些技術(shù)結(jié)合在一起,只需從場景的幾張圖像中就可以高質(zhì)量地合成新場景,如下所示: 在「LOLNerf: Learn from One Look」中,研究人員探索了僅從單個二維圖像中學習高質(zhì)量表征的能力。 論文地址:https:///abs/2111.09996 通過對特定類別對象的不同示例進行培訓,LOLNerf只憑一張圖片,就能充分了解對象的預期三維結(jié)構(gòu)。 通過這項技術(shù),機器模型能更好地了解三維世界——這是計算機視覺人的長期夢想! 寫在最后:谷歌是負責的
Dean介紹的這些機器學習領(lǐng)域變革性的進展,在改變數(shù)十億谷歌產(chǎn)品的用戶,這些產(chǎn)品包括搜索、智能助理、廣告、云、Gmail、地圖、YouTube、Workspace、安卓、Pixel、Nest和翻譯。 這些最新的進展切實影響著谷歌用戶的體驗,改變著人類與計算機互動的方式。 語言模型讓人機可以進行自然的對話,并且從計算機那里得到令人驚訝的回應。由于計算機視覺的新方法,計算機可以幫助人們在三維(而不是二維)的環(huán)境中進行創(chuàng)作和互動。 由于生成式模型的新進展,計算機可以幫助人們創(chuàng)建圖像、視頻和音頻。而自然語言理解方面的進展,讓計算機可以理解你所要創(chuàng)造的東西,然后產(chǎn)生令你驚訝的結(jié)果! 改變?nèi)藱C互動的另一個轉(zhuǎn)變,是多模圖模型能力的不斷增強。谷歌正在努力創(chuàng)造一個能夠流暢理解不同模式的單一模型,它可以理解每一種模式在上下文中代表什么,然后生成不同模式。 比如,他們推出了一個統(tǒng)一的語言模型,他可以在100多種語言中執(zhí)行視覺、語言、問題回答和物體檢測任務,并且達到了SOTA。 在未來,人們可以調(diào)動更多的感官,讓計算機做他們想做的事情,比如,「用斯瓦希里語描述這張圖片」。還有一些模型,可以通過不同的組合,生成由自然語言、圖像和音頻控制的圖像、視頻和音頻。 在文章最后,Dean表示,谷歌對用戶和整個社會都負有責任,會竭盡全力保證這些AI技術(shù)的安全性。 P.S 因為時間原因,多模態(tài)模型的部分本次未寫入全文,敬請期待后續(xù)。 參考資料: https://ai./2023/01/google-research-2022-beyond-language.html |
|
來自: 小飛俠cawdbof0 > 《智能》