小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

2022年最值得關(guān)注的十篇論文,你都看了嗎?來卷來學(xué)習(xí)

 黃爸爸好 2023-01-09 發(fā)布于上海

圖片

MLNLP社區(qū)是國內(nèi)外知名的機(jī)器學(xué)習(xí)與自然語言處理社區(qū),受眾覆蓋國內(nèi)外NLP碩博生、高校老師以及企業(yè)研究人員。
社區(qū)的愿景是促進(jìn)國內(nèi)外自然語言處理,機(jī)器學(xué)習(xí)學(xué)術(shù)界、產(chǎn)業(yè)界和廣大愛好者之間的交流和進(jìn)步,特別是初學(xué)者同學(xué)們的進(jìn)步。
轉(zhuǎn)載自 | 機(jī)器之心
作者 | Sebastian Raschka
編輯 | 王強(qiáng)、蛋醬
選自 | Ahead of AI

年關(guān)將至,威斯康星大學(xué)助理教授 Sebastian Raschka 盤點(diǎn)了 2022 年他最看好的十大論文。

2022 年 1 月,擴(kuò)散模型第一次吸引了我的眼球。當(dāng)時(shí)我判斷到將會有某些大事發(fā)生,然而卻未曾預(yù)料到幾個(gè)月后會出現(xiàn)什么:DALLE-2、Imagen、Stable Diffusion 以及其它許多模型。

對于大型語言模型來說,2022 也是非常重要的一年,最近面世的 ChatGPT 更是錦上添花,搶盡了風(fēng)頭。

在回顧今年發(fā)表的十篇值得關(guān)注的論文前,我們可以先看看 12 月的 AI 要聞以及麥肯錫的一份人工智能全景報(bào)告和行業(yè)調(diào)查綜述。

1

『昨天,今天,明天』

簡單來說,有兩篇論文引起了我的注意。

第一篇:視覺 Transformer(ViT)學(xué)習(xí)什么?

圖片

論文鏈接:https:///pdf/2212.06727.pdf

關(guān)于視覺的探索顯示,ViT 學(xué)習(xí)的歸納偏置或特征與卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)的那些相似。例如,ViT 的 early layers 捕捉邊緣和紋理,而 later layers 學(xué)習(xí)更復(fù)雜的表征以捕捉更廣泛的概念。

圖片

視覺 Transformer 從 early layers(左)到 deeper layers(右)的可視化特征過程。

關(guān)于生成建模,ViT 傾向于生成比 CNN 更高質(zhì)量的背景,這就提出了 ViT 如何處理預(yù)測任務(wù)中的背景和前景的這一問題。當(dāng)背景被消除時(shí),ViT 似乎比 CNN 更善于預(yù)測目標(biāo)類別,并且在前景被消除時(shí)它們也依然表現(xiàn)得更好。這表明,ViT 在依賴基于其存在的某些特征時(shí)可能更具選擇性,或者說,總體更為魯棒。

第二篇:一種生成蛋白質(zhì)的擴(kuò)散模型

圖片

論文鏈接:https://www./content/10.1101/2022.12.09.519842v1

在圖像生成領(lǐng)域,擴(kuò)散模型已經(jīng)帶來了突破性的性能,那么生成蛋白質(zhì)結(jié)構(gòu)呢?研究人員開發(fā)了一種新的蛋白質(zhì)合成擴(kuò)散模型,稱為 RoseTTAFold Diffusion(RFDiffusion),這種蛋白質(zhì)是從零開始創(chuàng)造的,而非來自于自然界中早已存在的蛋白質(zhì)。

圖片

區(qū)分 de novo 蛋白質(zhì)(在實(shí)驗(yàn)室中使用沒有進(jìn)化歷史的氨基酸序列合成)與諸如 AlphaFold、 AlphaFold2 等系統(tǒng)(使用現(xiàn)有氨基酸序列數(shù)據(jù)預(yù)測蛋白質(zhì) 3D 結(jié)構(gòu))十分重要。但值得注意的是,AlphaFold2 曾被用于驗(yàn)證 RDiffusion 研究的結(jié)果。

然后再談?wù)勛罱男袠I(yè)趨勢。今天,在產(chǎn)業(yè)中實(shí)際使用的技術(shù)是什么?根據(jù)麥肯錫最近的 AI 全景報(bào)告 —— 并不是大型語言模型(Transformer)。特別說明,由于樣本規(guī)模和代表性的限制,該報(bào)告中的調(diào)查結(jié)果可能無法準(zhǔn)確反映所有公司的經(jīng)驗(yàn)。

圖片

圖源:麥肯錫 2022 年全景報(bào)告。

自然語言處理在行業(yè)內(nèi)一直受到追捧,但其受歡迎程度經(jīng)常被計(jì)算機(jī)視覺應(yīng)用超越。但現(xiàn)在,我們第一次看到計(jì)算機(jī)視覺和自然語言處理幾乎總是緊密聯(lián)系在一起。

與此同時(shí),自然語言文本理解(可能指文本分類)的受歡迎程度幾乎是自然語言「生成」的兩倍。請注意,自然語言生成的新聞通常會占據(jù)熱點(diǎn)首頁:如 GPT-3、Galactica、ChatGPT 等。(文本理解可能包括摘要,摘要也是「生成」的,所以我假設(shè)它在這里主要指的是類似分類的任務(wù)。那么反過來說,類別(categories)也是可以重疊的。)

值得注意的是,Transformer 的排名墊底。

似乎許多公司尚未采用類似 BERT 的語言模型編碼器來進(jìn)行文本理解和分類。相反,他們可能仍在使用基于詞袋模型( bag-of-word-based)的分類器或遞歸神經(jīng)網(wǎng)絡(luò)。同樣,類似 GPT 的模型解碼器似乎還沒有廣泛應(yīng)用于語言生成,因而文本生成可能仍嚴(yán)重依賴循環(huán)神經(jīng)網(wǎng)絡(luò)和其他傳統(tǒng)方法。

基于下圖,我發(fā)現(xiàn)了一些有趣的其他見解:

圖片

圖片

圖源:2022 年麥肯錫 AI 全景報(bào)告。

  • 能夠利用「小數(shù)據(jù)」非常重要。當(dāng)數(shù)據(jù)不可用時(shí),生成合成數(shù)據(jù)的能力非常有用。

  • 盡快將數(shù)據(jù)集成到 AI 模型中的能力是在競爭中脫穎而出的關(guān)鍵。那么,良好的軟件框架和基礎(chǔ)設(shè)備設(shè)置可能起到舉足輕重的作用。

  • 不幸的是,大多數(shù)高績效公司迄今仍不關(guān)心模型的可解釋性。

2

『十大年度論文』

以下將介紹我在 2022 年閱讀到的排名前三的論文。當(dāng)然,今年發(fā)表的論文中還有很多其他主題是更令人興奮、永恒且具有影響力的。

2022 年,保持前三名的成績顯然具有挑戰(zhàn)性,因而下面還附了一個(gè)擴(kuò)展列表,列出了我排名前十榜單中的其余七篇論文。

一、ConvNeXt

圖片

論文鏈接:https:///pdf/2201.03545.pdf

《A ConvNet  for  the  2020s》這篇論文我愿稱之為全年最佳,因?yàn)樽髡邆兡軌蛟O(shè)計(jì)出一種純卷積架構(gòu),其性能優(yōu)于諸如 Swin Transformer 等流行的視覺 Transformer(當(dāng)然,也優(yōu)于在它之前出現(xiàn)的所有卷積神經(jīng)網(wǎng)絡(luò))。

圖片

當(dāng)卷積神經(jīng)網(wǎng)絡(luò)不僅應(yīng)用于分類,還用于目標(biāo)檢測和實(shí)例分割時(shí),這種所提到的 ConvNeXt 架構(gòu)很可能成為新的默認(rèn)架構(gòu) —— 例如,它可以用作 Mask R-CNN 的骨干網(wǎng)絡(luò)(backbone)。

正如作者們在論文中所述,他們受到了當(dāng)前視覺 Transformer 訓(xùn)練機(jī)制以及 Swin Transformer 混合架構(gòu)表明卷積層仍然相關(guān)的事實(shí)啟發(fā)。這均是因?yàn)榧円曈X Transformer 架構(gòu)缺乏有用的歸納偏置,例如平移同變性和參數(shù)共享(即卷積中的「滑動(dòng)窗口」)。

為了開發(fā) ConvNeXt,作者們從 ResNet-50 基礎(chǔ)架構(gòu)出發(fā),并采用了從現(xiàn)代 ViT 訓(xùn)練機(jī)制中運(yùn)用的架構(gòu)修改和訓(xùn)練機(jī)制。即使是賦予在卷積神經(jīng)網(wǎng)絡(luò)的背景,這些本來也沒什么新奇。然而,新穎之處卻在于作者們有效地使用、分析和組合了這些技術(shù)。

他們采用了哪些技術(shù)?這可以列一個(gè)很長的清單,包括深度卷積、反向瓶頸層設(shè)計(jì)、AdamW、LayerNorm 技術(shù)等等,具體的匯總你可以在下圖中找到。此外,作者還使用了數(shù)據(jù)增強(qiáng)技術(shù),如 Mixup、Cutmix 等。

圖片

二、MaxViT

盡管隨著上述的 ConvNext 出世,卷積神經(jīng)網(wǎng)絡(luò)再度受到歡迎,但目前來說 ViT 仍然搶盡風(fēng)頭(并非刻意雙關(guān))。

MaxViT:多軸視覺 Transformer 突出顯示了近年來視覺 Transformer 的發(fā)展。雖然早期的視覺 Transformer 具有二次復(fù)雜度,但已經(jīng)可以通過許多手段來將視覺 Transformer 應(yīng)用于具有線性縮放復(fù)雜度的更大圖像中。

圖片

2022 年 9 月發(fā)布的 MaxViT,目前是 ImageNet 基準(zhǔn)測試中的 SOTA 模型。

在 MaxViT 中,這是通過將注意力塊(attention block)分解為具有局部 - 全局交互的兩個(gè)部分來實(shí)現(xiàn)的:

  • 局部注意力(「塊注意力」);

  • 全局注意力(「網(wǎng)格注意力」)。

值得一提的是,MaxViT 是一種也具備卷積層特征的卷積 Transformer 混合模型。它可以用于預(yù)測建模(包括分類、目標(biāo)檢測和實(shí)例分割)以及生成建模。

圖片

順便提一句,在谷歌學(xué)術(shù)上搜索「視覺 Transformer」,僅 2022 年就產(chǎn)出了 5000 多個(gè)結(jié)果。這個(gè)結(jié)果雖然可能包括誤報(bào),但仍可表明人們對于視覺 Transformer 的廣泛歡迎程度和感興趣程度。

圖片

不過不用擔(dān)心,視覺 Transformer 不會完全取代我們喜愛的卷積神經(jīng)網(wǎng)絡(luò)。相反,正如 MaxViT 所強(qiáng)調(diào)的,當(dāng)前的趨勢是將視覺 Transformer 和卷積網(wǎng)絡(luò)一起整合到混合架構(gòu)中。

三、Stable Diffusion

在 ChatGPT 成為最先進(jìn)的模型之前,Stable Diffusion 早已在互聯(lián)網(wǎng)和社交媒體上普及。這個(gè)概念其實(shí)最早來源于 2021 年 12 月上傳的論文《High-Resolution Image Synthesis with Latent Diffusion Models》。

由于這篇論文在 2022 年 CVPR 會議上發(fā)表,并在 2022 年 8 月憑借 Stable Diffusion 受到高度關(guān)注,我認(rèn)為將其列入 2022 年的 TOP3 論文名單是公平合理的。

擴(kuò)散模型是一種概率模型,被設(shè)計(jì)用于通過逐漸對正態(tài)分布變量進(jìn)行去噪來學(xué)習(xí)數(shù)據(jù)集分布。這個(gè)過程對應(yīng)于學(xué)習(xí)長度為 T 的固定的馬爾可夫鏈(Markov Chain)的逆過程。

圖片

擴(kuò)散模型的圖示。

與使用生成器 (Generator) 和鑒別器 (Discriminator) 之間的極大極小博弈(minimax game)訓(xùn)練的 GAN 不同,擴(kuò)散模型是使用最大似然估計(jì)(MLE)訓(xùn)練的基于似然的模型。這有助于避免模式坍塌和其他訓(xùn)練不穩(wěn)定性。

擴(kuò)散模型已經(jīng)存在了一段時(shí)間,但眾所周知,在訓(xùn)練和推理過程中,從中取樣仍非常昂貴。上述 2022 年論文的作者提到過,5 天的運(yùn)行時(shí)間僅能采樣 50k 張圖像。

《High-Resolution Image Synthesis with Latent Diffusion Models》一文的新穎之處在于人們可以使用預(yù)訓(xùn)練的自編碼器在潛在空間中應(yīng)用擴(kuò)散,而非直接使用原始圖像的全分辨率原始像素輸入空間。

圖片

上文提到的訓(xùn)練過程可以分為兩個(gè)階段:首先,對自編碼器進(jìn)行預(yù)處理,將輸入圖像編碼到較低維度的潛在空間中,以降低復(fù)雜性。第二,在預(yù)訓(xùn)練的自動(dòng)編碼器隱層表征上訓(xùn)練擴(kuò)散模型。

在潛在空間中進(jìn)行運(yùn)算,降低了用于訓(xùn)練和推理的擴(kuò)散模型的計(jì)算成本和復(fù)雜性,并可以生成高質(zhì)量的結(jié)果。

本文的另一個(gè)貢獻(xiàn)是一般條件下的交叉注意力機(jī)制( cross-attention mechanism)。因此,除了無條件圖像生成之外,所提出的潛在擴(kuò)散模型還能夠進(jìn)行圖像修復(fù)、類條件圖像合成、超分辨率圖像重建以及文本到圖像合成 —— 后者正是 DALLE-2 和 Stable Diffusion 聞名的原因。

接下來介紹我的排名榜前十論文中后七篇論文的概述:

四、《「通才」智能體》(A Generalist Agent)。

在本文中,研究人員介紹了 Gato,它能夠執(zhí)行從玩游戲到控制機(jī)器人等 600 多種不同任務(wù)。

圖片

論文鏈接:https:///abs/2205.06175

五、《訓(xùn)練最優(yōu)計(jì)算的大型語言模型》(Training Compute-Optimal Large Language Models)。為了在訓(xùn)練期間實(shí)現(xiàn)最優(yōu)計(jì)算,研究人員認(rèn)為通過相同的因子來縮放模型大小和訓(xùn)練 token 的數(shù)量都很有必要。他們創(chuàng)建了一個(gè)名為 Chinchilla 的模型,例如,該模型的性能優(yōu)于 Gopher,可以使用比 Gopher 四分之一的參數(shù)輸出四倍之多的數(shù)據(jù)。

圖片

論文鏈接:https:///abs/2203.15556

六、《PaLM:使用 Pathways 縮放語言模型》(PaLM: Scaling Language Modeling with Pathways):文中提出的 PaLM 模型在各種 BIG-bench 任務(wù)上都展示了令人驚嘆的自然語言理解和生成能力。在某種程度上,它甚至能識別出因果關(guān)系。

圖片

論文鏈接:https:///abs/2204.02311

七、《基于大規(guī)模弱監(jiān)督方法的魯棒語音識別》(Robust Speech Recognition via Large-Scale Weak Supervision)。本文介紹了 Whisper 模型,該模型在多語言任務(wù)上接受了 68 萬小時(shí)的訓(xùn)練,并表現(xiàn)出了對各種基準(zhǔn)數(shù)據(jù)集(benchmarks)的魯棒泛化性。本文介紹的 Whisper 模型給我留下了深刻的印象。我用它來為我的兩門課程深度學(xué)習(xí)基礎(chǔ) —— 運(yùn)用現(xiàn)代開源棧學(xué)習(xí)深度學(xué)習(xí)以及深度學(xué)習(xí)引言(Deep Learning Fundamentals – Learning Deep Learning With a Modern Open Source Stack)生成字幕。

圖片

論文鏈接:https:///abs/2212.04356

八、《再論表格深度學(xué)習(xí)的預(yù)訓(xùn)練目標(biāo)》(Revisiting Pretraining Objectives for Tabular Deep Learning)。我喜歡閱讀大量有關(guān) Tabular 數(shù)據(jù)的深度學(xué)習(xí)論文。但我尤其鐘愛這篇論文,因?yàn)樗鼜?qiáng)調(diào)并提醒我們在附加(通常未標(biāo)記)數(shù)據(jù)上進(jìn)行模型預(yù)訓(xùn)練是多么重要。(使用如 XGBoost 等基于樹模型無法輕松做到這一點(diǎn)。)

圖片

論文鏈接:https:///abs/2207.03208

九、《為什么基于樹的模型在表格數(shù)據(jù)上的性能仍然優(yōu)于基于深度學(xué)習(xí)的模型?》 (Why do tree-based models still outperform deep learning on tabular data?)。該文的主要收獲是基于樹的模型(隨機(jī)森林和 XGBoost)的性能優(yōu)于在中型數(shù)據(jù)集(10k 訓(xùn)練示例)上應(yīng)用表格數(shù)據(jù)的深度學(xué)習(xí)方法。但是隨著數(shù)據(jù)集大小的增加(這里:10k → 50k),基于樹的模型和深度學(xué)習(xí)之間的差距變得越來越小。遺憾的是,這篇論文沒有包含特別多最先進(jìn)的深度表格網(wǎng)絡(luò),不過它進(jìn)行了魯棒性分析和有趣的討論,絕對值得一讀。

圖片

論文鏈接:https:///abs/2207.08815

十、《用語言模型預(yù)測原子級蛋白質(zhì)結(jié)構(gòu)的進(jìn)化程度》(Evolutionary-scale prediction of atomic level protein structure with a language model)。該論文提出了迄今為止預(yù)測蛋白質(zhì)三維結(jié)構(gòu)的最大語言模型,它也比以前的方法運(yùn)算更快,同時(shí)還保持著同樣的準(zhǔn)確性。該模型創(chuàng)建了 ESM 宏基因組圖譜,是宏基因組蛋白質(zhì)的第一個(gè)大規(guī)模結(jié)構(gòu)表征,具有超過 6.17 億個(gè)蛋白質(zhì)結(jié)構(gòu)。

圖片

論文鏈接:https://www./content/10.1101/2022.07.20.500902v3

原文鏈接:https://magazine./p/ahead-of-ai-4-a-big-year-for-ai

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多