小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

超詳超硬Jeff Dean萬字總結(jié)火熱出爐!圖解谷歌2022年AIGC、LLM、CV三大領(lǐng)域成就

 小飛俠cawdbof0 2023-02-18 發(fā)布于北京


來源:新智元
圖片

【導讀】2022年,谷歌在ML領(lǐng)域取得了哪些新進展?Jeff Dean發(fā)萬字長文總結(jié)。

2022年,谷歌在機器學習方面有什么進展?

Google Research高級研究員兼高級副總裁Jeff Dean一文幫你總結(jié)!

昨天,Jeff Dean代表Google Research社區(qū)發(fā)布一篇干貨滿滿的長文,總結(jié)了谷歌在2022年激動人心的新進展。

顯然,大佬花了很久(也許是一年),醞釀了一個大的。

圖片

在這次的第一篇中,Jeff Dean首先討論了語言、生成、視覺和多模態(tài)模型。

接下來,他還將討論負責任的人工智能、算法和計算機系統(tǒng),以及科學、健康和機器人技術(shù)等研究主題的新進展。

話不多說,讓我們開始享受這場知識的盛宴!

語言模型


     


在過去十年中,機器學習最令人興奮的領(lǐng)域之一,無疑就是規(guī)模更大、功能更強的語言模型了。

一路走來,最矚目的進展就是新的方法,比如序列到序列學習(seq2seq),以及谷歌開發(fā)的Transformer模型。

這些方法,是過去幾年語言模型領(lǐng)域大部分進展的基礎(chǔ)。

雖然語言模型的訓練目標簡單得令人吃驚(比如根據(jù)前面的token,預測文本序列中的下一個token),但當大模型在足夠大、足夠多樣化的文本語料庫上進行訓練時,這些模型可以生成連貫的、有上下文的、聽起來自然的響應。

這些響應可以用于廣泛的任務,比如生成創(chuàng)意性的內(nèi)容、在不同語言之間進行翻譯、幫助完成編碼任務,以及以有用、信息豐富的方式回答問題。

谷歌正在研究的LaMDA,就探索了這些模型如何產(chǎn)生安全、接地氣和高質(zhì)量的對話,以實現(xiàn)有上下文語境的多輪對話。

圖片

項目地址:https://blog.google/technology/ai/lamda/

人該怎樣與計算機互動?以前,我們會去適應計算機,用它能接受的方式與它互動。

但現(xiàn)在,有了LaMDA這樣的模型,人類與計算機的互動就有了一種嶄新的方式——人類喜歡的自然對話模式。

Jeff Dean表示,谷歌已經(jīng)取得了很大進展,讓LaMDA變得有用,且符合事實(合理猜測,Dean這是拉踩了一波ChatGPT圖片)。

圖片

隨著模型規(guī)模的增加,跨任務的性能會提高,同時還會解鎖新功能

2022年4月,谷歌提出了PaLM,這是一個擁有5400億參數(shù)的大型語言模型,使用Pathways軟件基礎(chǔ)設施構(gòu)建,并在多個TPU v4 Pod上進行訓練。

PaLM的工作表明,對于在大量多語言數(shù)據(jù)和源代碼上訓練的大規(guī)模語言模型,僅僅以預測下一個token為目標進行訓練,就能在各種自然語言、翻譯和編碼任務中達到SOTA,盡管它們從未被訓練為專門執(zhí)行這些任務。

這項工作表明,增加模型和訓練數(shù)據(jù)的規(guī)模,可以顯著提高模型能力。

圖片

PaLM 540B參數(shù)模型與之前的SOTA在Big-bench的58項任務上的性能比較

谷歌在大型語言模型(LLM)上取得了巨大的成功,這些模型是在源代碼(而不是自然語言文本數(shù)據(jù))上進行訓練的。這些模型可以極大地幫助內(nèi)部開發(fā)人員,詳情可見「ML-Enhanced Code Completion Improves Developer Productivity」。

谷歌用了一個5億參數(shù)的語言模型,為10,000名在IDE中使用該模型的開發(fā)者提供了代碼建議,所有代碼的2.6%,都是來自于這個模型的建議,因此,這些開發(fā)者減少了6%的編碼迭代時間。

現(xiàn)在,谷歌正在研究這個模型的增強版本,希望推廣給更多開發(fā)者。

圖片

AI中經(jīng)常遇到的挑戰(zhàn)之一,就是建立能夠進行多步驟推理的系統(tǒng),將復雜的問題分解成較小的任務,并結(jié)合這些任務的解決方案,解決更大的問題。

谷歌最近在思維鏈提示方面的工作,就鼓勵模型在解決新問題時「展示工作」,這樣就能幫助語言模型遵循邏輯思維鏈,并產(chǎn)生更有條理、有組織和準確的響應。

就像四年級的數(shù)學老師會鼓勵學生展示解決問題的步驟,而不是僅僅寫下答案一樣,這種方法不僅使解決問題的方法更具有可解釋性,而且對于需要多個推理步驟的復雜問題,也更有可能找到正確的答案。

圖片

這種多步驟推理最大的益處就是,可以提高模型解決復雜數(shù)學推理和科學問題的能力

關(guān)鍵問題在于,ML模型是否能夠?qū)W會使用多步驟推理來解決復雜問題?

對此,谷歌提出了Minerva模型,它以通用的PaLM語言模型為基礎(chǔ),在來自arXiv的大量數(shù)學文檔和論文的語料庫中對其進行微調(diào),然后使用思維鏈提示和自洽解碼。在各自數(shù)學推理和科學問題的基準套件上,Minerva都展示出了SOTA。

圖片

Minerva 540B顯著提高了STEM評估數(shù)據(jù)集的最新性能

思維鏈提示(chain of thought prompting)是一種向模型更好地表達自然語言提示和示例的方法,能夠顯著提高模型處理新任務的能力。

類似的提示微調(diào)(prompt tuning),即在問題領(lǐng)域特定文本的語料庫上對大型語言模型進行微調(diào),也顯示出了巨大的前景。

圖片

論文地址:https:///abs/2212.13138

在「Large Language Models Encode Clinical Knowledge」一文中,研究者證明了通過提示微調(diào),可以用較少的例子使通用語言模型適應醫(yī)學領(lǐng)域,所產(chǎn)生的模型可以在美國醫(yī)學執(zhí)照考試問題(MedQA)上達到67.6%的準確率,比之前的SOTA高出17%以上。

雖然與臨床醫(yī)生的能力相比仍有差距,但理解力、知識回憶能力和醫(yī)學推理能力都隨著模型規(guī)模和指令提示微調(diào)(instruction prompt tuning)的調(diào)整而得到改善,這表明LLM在醫(yī)學領(lǐng)域具備極大的潛在應用場景。

另外,在多種語言上訓練的大型語言模型,也可以幫忙把一種語言翻譯到另一種語言,即使它們從未被教導過要明確地翻譯文本。

傳統(tǒng)的機器翻譯系統(tǒng),通常是依靠著并行(翻譯)文本,來學習從一種語言到另一種語言的翻譯。

然而,由于平行文本只存在于相對較少的語言中,許多語言往往不被機器翻譯系統(tǒng)所支持。

在「Unlocking Zero-Resource Machine Translation to Support New Languages in Google Translate」、「Building Machine Translation Systems for the Next Thousand Languages」、「Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning」這三篇文章中,谷歌研究員描述了一套技術(shù),這些技術(shù)在使用在單語種(非平行)數(shù)據(jù)集上訓練出的大規(guī)模多語種語言模型,為谷歌翻譯增加了24種新語言,被3億人所使用。

圖片

每種語言的單語數(shù)據(jù)量與每種語言的并行(翻譯)數(shù)據(jù)量。少數(shù)語言有大量的平行數(shù)據(jù),但有很長的語言只有單語數(shù)據(jù)

另一種方法是利用軟提示(learned soft prompt)進行表征。在這種情況下,不是構(gòu)建新的輸入token來表征提示,而是在每個任務中添加少量可調(diào)整的參數(shù),這些參數(shù)可以從一些任務實例中學習。

采用軟提示的任務,通常都產(chǎn)生了高性能,同時還允許大型預訓練語言模型在成千上萬的不同任務中共享。

這是更普遍的任務適配器技術(shù)的一個具體示例,它允許很大一部分參數(shù)在不同的任務中共享,同時仍然允許特定任務上的適應和調(diào)整。

圖片

有趣的是,由于新功能的出現(xiàn),語言模型的規(guī)模會隨著規(guī)模的增加而顯著增長。

在「Characterizing Emergent Phenomena in Large Language Models」中,研究者對一個奇怪的現(xiàn)象進行了調(diào)查——

這些模型在達到一定規(guī)模之前,無法非常有效地執(zhí)行特定的復雜任務。然而,一旦發(fā)生了關(guān)鍵的學習量(因任務而異),他們準確執(zhí)行復雜任務的能力就會突然大幅提升。

圖片

進行多步算術(shù)(左)、在大學水平考試中考高分(中)以及在上下文中識別單詞的預期含義(右)的能力,都只出現(xiàn)在足夠大的模型中,包括LaMDA、GPT-3、Gopher、Chinchilla和PaLM

這就提出了一個問題,即當這些模型得到進一步訓練時,哪些新任務會變得可行。

生成模型


     


2022年,圖像、視頻和音頻的生成模型的質(zhì)量和能力已經(jīng)顯示出真正令人驚嘆和非凡的進步。生成模型的方法多種多樣,但共同點是必須學會對復雜的數(shù)據(jù)集(如自然圖像)進行建模。

2014年開發(fā)的生成式對抗網(wǎng)絡(GAN),設置了兩個相互作用模型:

1. 生成器:用于生成一個看起來很真實的圖像。

2. 鑒別器:同時接收生成的和真實的圖像,并判斷兩者中哪個是生成的,哪個是真實的。

每個模型都試圖在與另一個模型的競爭中取得勝利,結(jié)果是兩個模型在各自任務上的表現(xiàn)都越來越好。最后,生成模型就可以單獨用于生成圖像了。

圖片

2015年,「Deep Unsupervised Learning using Nonequilibrium Thermodynamics」一文提出了擴散模型(Diffusion model)。

圖片

論文地址:https:///abs/1503.03585

模型首先通過一個迭代的前向擴散過程,系統(tǒng)地、緩慢地破壞數(shù)據(jù)分布中的結(jié)構(gòu)。然后,再通過學習一個反向擴散過程,從而恢復數(shù)據(jù)中已經(jīng)丟失的結(jié)構(gòu),即使是在高水平的噪聲下。

其中,前向過程可以用來為反向擴散過程生成以各種有用的、可控制的模型輸入為條件的噪音起點,這樣反向擴散(生成)過程就變得可控了。

也就是說,我們現(xiàn)在可以要求模型「生成一個柚子的圖像」,這顯然要比單純地「生成一個圖像」有用得多。

圖片

之后,各種形式的自回歸模型也被應用于圖像生成的任務。

2016年,「Pixel Recurrent Neural Networks」提出了一種遞歸架構(gòu)PixelRNN,以及一種類似但更有效的卷積架構(gòu)PixelCNN。這兩個架構(gòu)幫助奠定了使用深度神經(jīng)網(wǎng)絡進行像素級生成的基礎(chǔ)。

圖片

論文地址:https:///abs/1601.06759

相關(guān)的研究還有「Conditional Image Generation with PixelCNN Decoders」這篇。

論文地址:https:///abs/1606.05328

緊隨其后的是,2017年在「Neural Discrete Representation Learning」中提出的VQ-VAE,一個矢量量化的自編碼器。通過將VQ-VAE與PixelCNN相結(jié)合,可以產(chǎn)生高質(zhì)量的圖像。

圖片

論文地址:https:///abs/1711.00937

2018年提出的Image Transformer,則使用自回歸Transformer模型來生成圖像。

圖片

論文地址:https:///abs/1802.05751

然而,所有這些技術(shù)所生成的圖像與現(xiàn)實世界相比,質(zhì)量都相對較低。直到最近,一些新研究才為更好的圖像生成打開了大門。

比如OpenAI的CLIP——一種聯(lián)合訓練圖像編碼器和文本解碼器以預測「圖像、文本」對的預訓練方法。

這種預測哪個描述與哪個圖像相配的預訓練任務,被證明是學習圖像表征的有效和可擴展的方式,并在ImageNet這樣的數(shù)據(jù)集上取得了出色的zero-shot性能。

圖片

論文地址:https:///abs/2103.00020

項目地址:https:///blog/clip/

除了CLIP之外,生成式圖像模型的工具也在不斷增加。

大型語言模型編碼器已經(jīng)被證明可以有效地將圖像生成的條件放在長的自然語言描述上,而不僅僅是數(shù)量有限的預先設定的圖像類別。大規(guī)模的圖像訓練數(shù)據(jù)集和附帶的描述(可以反過來作為文本→圖像的示例)提高了整體性能。

所有這些因素加在一起,產(chǎn)生了一系列能夠生成高分辨率圖像的模型,即便是非常詳細和奇妙的提示也可以。

在此,Jeff Dean重點介紹了谷歌研究團隊的兩項最新進展:Imagen和Parti。

圖片
左圖來自Imagen:「皇家城堡的一面墻。墻上有兩幅畫。左邊那幅是皇家浣熊國王充滿細節(jié)的油畫。右邊那幅是皇家浣熊王后充滿細節(jié)的油畫?!褂覉D來自Prti:「一只戴著摩托車頭盔和披風的泰迪熊在紐約市的出租車上沖浪。數(shù)碼照片。」

首先,Imagen是基于之前提到的擴散模型。

在2022年發(fā)表的「Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding」中,研究人員表明,一個通用的大型語言模型(如T5),通過在純文本語料庫上進行預訓練,可以在圖像合成的文本編碼方面有著出色的表現(xiàn)。

令人驚訝的是,在Imagen中增加語言模型的大小,比增加圖像擴散模型的大小更能提高樣本的保真度和圖像-文本的一致性。

圖片

論文地址:https:///abs/2205.11487

項目地址:https://search.google/

具體而言,Imagen通過在訓練期間偶爾「放棄」條件信息來提高性能,并為基于擴散的圖像生成帶來了一些進展,包括「Efficient U-Net」和「無分類器引導」的新型內(nèi)存效率架構(gòu)。

其中,無分類器引導迫使模型學會僅從輸入數(shù)據(jù)中生成,從而避免因過度依賴調(diào)節(jié)信息而產(chǎn)生的問題。

圖片

論文地址:https:///abs/2207.12598

對此,「Guidance: a cheat code for diffusion models」一文提供了更加直觀的解釋。

文章地址:https://benanne./2022/05/26/guidance.html

其次,Parti使用自回歸Transformer架構(gòu)來生成基于文本輸入的圖像像素。

在2021年發(fā)布的「Vector-quantized Image Modeling with Improved VQGAN」表明,基于Vision Transformer的編碼器能夠顯著改善矢量量化GAN模型VQGAN的輸出。

圖片

論文地址:https:///abs/2110.04627

這在2022年發(fā)布的「Scaling Autoregressive Models for Content-Rich Text-to-Image Generation」中得到了擴展,通過將Transformer編碼器-解碼器的參數(shù)增加到200億個,來獲得更好的結(jié)果。

圖片

論文地址:https:///abs/2206.10789

此外,Parti還善于捕捉提示中的微妙線索,并且采用了上文所述的無分類引導對生成的圖像進行銳化。

用戶的控制

上述進展使我們有可能根據(jù)文字描述生成逼真的靜態(tài)圖像。

然而,有時僅靠文字并不足以使你創(chuàng)造出你想要的東西。舉個例子,「一只狗在沙灘上被獨角獸追趕」與「我的狗在沙灘上被獨角獸追趕」。

因此,谷歌在為用戶提供控制生成過程的新方法上又做了后續(xù)的研究。

在「DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation」中,用戶能夠?qū)magen或Parti這樣的模型進行微調(diào),進而根據(jù)文本和用戶提供的圖像的組合生成新的圖像。

比如,用戶可以將自己(或?qū)櫸铮┑膱D像放入生成的圖像當中。

論文地址:https:///abs/2208.12242

項目地址:https://dreambooth./

這一點在「Prompt-to-Prompt Image Editing with Cross Attention Control」中也得到了體現(xiàn)。

用戶可以通過文本提示讓模型去填充被mask的區(qū)域,從而反復編輯圖像,比如「將汽車變成自行車」這種。

圖片

論文地址:https:///abs/2208.01626

項目地址:https://search.google/editor/

生成式視頻


     


為視頻創(chuàng)建生成模型是一個非常具有挑戰(zhàn)性的領(lǐng)域,因為與圖像不同的是,圖像的挑戰(zhàn)是將圖像的理想屬性與生成的像素相匹配,而視頻則有一個額外的時間維度。

視頻中,每一幀的像素不僅必須與此刻應該發(fā)生的事相匹配,還必須與其他幀相一致——既要在非常精細的層面上(前后幾幀的范圍內(nèi),使運動看起來平滑自然),也要在粗略的層面上(如果我們想做一個兩分鐘的飛機起飛、盤旋和降落的視頻,就必須制作成千上萬個符合這個需求的幀)。

今年,谷歌通過Imagen Video和Phenaki這兩項工作,在這個目標上取得了相當多令人振奮的進展。

圖片

在「Imagen Video: High Definition Video Generation from Diffusion Models」中,研究人員使用級聯(lián)擴散模型生成高分辨率的視頻。

圖片

論文地址:https:///abs/2210.02303

首先,輸入文本提示(一只戴著生日帽的快樂大象在海底行走),并用T5將其編碼為文本嵌入。

然后,一個基礎(chǔ)的視頻擴散模型以40×24的分辨率和每秒3幀的速度生成一個非常粗略的16幀視頻。

最后,由多個時間超分辨率(TSR)和空間超分辨率(SSR)模型進行上采樣,生成最終的128幀,分辨率為1280×768,每秒24幀,共計5.3s的高清視頻。

圖片

2022年發(fā)布的「Phenaki: Variable Length Video Generation From Open Domain Textual Description」,引入了一個新的基于Transformer的模型來學習視頻表征。

圖片

論文地址:https:///abs/2210.02399

其中,文本調(diào)節(jié)是通過訓練一個雙向的Transformer模型來實現(xiàn)的,可以根據(jù)文本描述生成視頻token。然后,再對這些生成的視頻token進行解碼來創(chuàng)建最終的視頻。

圖片

有了Imagen Video和Phenaki,我們還可以將兩個模型結(jié)合起來,從Imagen的高分辨率單幀和Phenaki的長視頻中獲益。

最直接的方法是使用Imagen Video來處理短視頻片段的超分辨率,同時依靠自回歸的Phenaki模型來生成長時標視頻信息。

生成式音頻


     


除了面向視覺的生成模型外,谷歌在音頻的生成模型方面也取得了重大進展。

在「AudioLM, a Language Modeling Approach to Audio Generation」中,研究人員描述了如何利用語言建模的進展來生成音頻,而不需要在注釋的數(shù)據(jù)上進行訓練。

圖片

論文地址:https:///abs/2209.03143

計算機視覺


     


計算機視覺領(lǐng)域的發(fā)展速度驚人。

2020年,在名為「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」的文章中,谷歌研究團隊開始使用Transformer架構(gòu)進行計算機視覺的研究,而非卷積神經(jīng)網(wǎng)絡(CNN)。

圖片

論文地址:https:///abs/2010.11929

雖然卷積的圖像局部特征提取是許多計算機視覺問題的有力解法,但Transformer的注意力機制在圖像處理方面顯得靈活。

圖像的處理


     


然而,由于完全注意力機制會隨著圖像大小進行二次縮放,很難將其應用于高分辨率的圖像處理中。為此,谷歌團隊提出了一種新的multi-axis方法,改進原有的ViT和MLP模型,更好地適應高分辨率、密集的預測任務、同時,模型可以自然地適應不同的輸入大小,具有高靈活性和低復雜度。為實現(xiàn)高級和低級視覺的不同任務,谷歌團隊推出了兩個模型:MaxViT和MAXIM。

在「MaxViT: Multi-Axis Vision Transformer」中,研究人員探索了一種在視覺模型的每個階段,結(jié)合定位和非定位信息的方法。

圖片

論文地址:https:///abs/2204.01697

這種方法在ImageNet-1k分類任務和各種對象檢測任務上的表現(xiàn)優(yōu)于其他最先進的模型,而且它的計算成本要低得多。

圖片

在MaxViT中,multi-axis注意力機制使其復雜度呈線性

實驗顯示,MaxViT顯著提高了圖像分類、目標檢測、分割、質(zhì)量評估等高級任務的最新技術(shù)水平。

在「MAXIM: Multi-Axis MLP for Image Processing」中,谷歌推出了圖像處理解決方案的第二個模型。

圖片

論文地址:https:///abs/2201.02973

基于類似UNet的架構(gòu),MAXIM在低級成像任務(包括去噪、去模糊、去霧、去雨和弱光增強)上具有強勁的性能。

圖片

使用MAXIM去模糊

為了促進對高效Transformer和MLP模型的進一步研究,谷歌團隊開源了MaxViT和MAXIM的代碼和模型。

MaxViT代碼鏈接:https://github.com/google-research/maxvit

MAXIM代碼鏈接:https://github.com/google-research/maxim

除了數(shù)據(jù)提取,對象監(jiān)測也是圖像處理的重要一環(huán)。在「Pix2Seq: A New Language Interface for Object Detection」中,研究人員探索了一種簡單而通用的方法,從完全不同的角度處理對象檢測。

圖片

論文地址:https:///abs/2109.10852

與基于特定任務的現(xiàn)有方法不同,谷歌研究人員將對象檢測轉(zhuǎn)換為以觀察到的像素輸入為條件的語言建模任務。

圖片

Pix2Seq通過神經(jīng)網(wǎng)絡感知圖像,并為每個對象生成一系列token

與現(xiàn)有的高度專業(yè)化和優(yōu)化的檢測算法相比,Pix2Seq在大規(guī)模對象檢測COCO數(shù)據(jù)集方面取得了更好地結(jié)果,通過在更大的對象檢測數(shù)據(jù)集上預訓練模型,可以進一步提高其性能。

理解3D世界


     


計算機視覺的另一個挑戰(zhàn),在于如何讓模型通過一張或幾張二維圖像,更好地理解物體在現(xiàn)實世界的三維結(jié)構(gòu)。

在「FILM: Frame Interpolation for Large Motion」一文中,研究人員演示了如何在相隔多秒的兩張照片之間,通過插值來創(chuàng)建慢動作短視頻。

圖片

論文地址:https:///abs/2202.04901

在「View Synthesis with Transformers」中,研究人員展示了如何結(jié)合兩種新的技術(shù)來合成場景的新視圖,也就是光場神經(jīng)渲染(Light Field Neural Rendering,LFNR)和可泛化的基于patch的神經(jīng)渲染(Generalizable Patch-Based Neural Rendering,GPNR)。

LFNR項目地址:https://light-field-neural-rendering./

GPNR項目地址:https:///gen_patch_neural_rendering/

LFNR使用學習組合參考像素顏色的Transformer,來準確重現(xiàn)與參考圖像相關(guān)的效果。

雖然LFNR在單個場景中效果很好,但它的新場景泛化能力有限。GPNR通過使用一系列具有規(guī)范化位置編碼的Transformer,可以很好地克服這一點。

這些Transformer可以在一組場景上進行訓練,以合成新場景的視圖。這些技術(shù)結(jié)合在一起,只需從場景的幾張圖像中就可以高質(zhì)量地合成新場景,如下所示:

圖片

在「LOLNerf: Learn from One Look」中,研究人員探索了僅從單個二維圖像中學習高質(zhì)量表征的能力。

圖片

論文地址:https:///abs/2111.09996

通過對特定類別對象的不同示例進行培訓,LOLNerf只憑一張圖片,就能充分了解對象的預期三維結(jié)構(gòu)。

圖片

通過這項技術(shù),機器模型能更好地了解三維世界——這是計算機視覺人的長期夢想!

寫在最后:谷歌是負責的


     


Dean介紹的這些機器學習領(lǐng)域變革性的進展,在改變數(shù)十億谷歌產(chǎn)品的用戶,這些產(chǎn)品包括搜索、智能助理、廣告、云、Gmail、地圖、YouTube、Workspace、安卓、Pixel、Nest和翻譯。

這些最新的進展切實影響著谷歌用戶的體驗,改變著人類與計算機互動的方式。

語言模型讓人機可以進行自然的對話,并且從計算機那里得到令人驚訝的回應。由于計算機視覺的新方法,計算機可以幫助人們在三維(而不是二維)的環(huán)境中進行創(chuàng)作和互動。

由于生成式模型的新進展,計算機可以幫助人們創(chuàng)建圖像、視頻和音頻。而自然語言理解方面的進展,讓計算機可以理解你所要創(chuàng)造的東西,然后產(chǎn)生令你驚訝的結(jié)果!

改變?nèi)藱C互動的另一個轉(zhuǎn)變,是多模圖模型能力的不斷增強。谷歌正在努力創(chuàng)造一個能夠流暢理解不同模式的單一模型,它可以理解每一種模式在上下文中代表什么,然后生成不同模式。

比如,他們推出了一個統(tǒng)一的語言模型,他可以在100多種語言中執(zhí)行視覺、語言、問題回答和物體檢測任務,并且達到了SOTA。

在未來,人們可以調(diào)動更多的感官,讓計算機做他們想做的事情,比如,「用斯瓦希里語描述這張圖片」。還有一些模型,可以通過不同的組合,生成由自然語言、圖像和音頻控制的圖像、視頻和音頻。

在文章最后,Dean表示,谷歌對用戶和整個社會都負有責任,會竭盡全力保證這些AI技術(shù)的安全性。

P.S 因為時間原因,多模態(tài)模型的部分本次未寫入全文,敬請期待后續(xù)。

參考資料:

https://ai./2023/01/google-research-2022-beyond-language.html





圖片


    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多