【原】深度學(xué)習(xí)架構(gòu)的對比分析

DuerOS布道師 2023-05-14 發(fā)布于北京

展開全文

深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究，含有多個隱藏層的多層感知器是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示，以表征數(shù)據(jù)的類別或特征。它能夠發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種，而機(jī)器學(xué)習(xí)是實現(xiàn)人工智能的必經(jīng)之路。

那么，各種深度學(xué)習(xí)的系統(tǒng)架構(gòu)之間有哪些差別呢？

1. 全連接網(wǎng)絡(luò)（FCN）

完全連接網(wǎng)絡(luò)（FCN）由一系列完全連接的層組成，每個層中的每個神經(jīng)元都連接到另一層中的每個神經(jīng)元。其主要優(yōu)點是“結(jié)構(gòu)不可知”，即不需要對輸入做出特殊的假設(shè)。雖然這種結(jié)構(gòu)不可知使得完全連接網(wǎng)絡(luò)非常廣泛適用，但是這樣的網(wǎng)絡(luò)傾向于比專門針對問題空間結(jié)構(gòu)調(diào)整的特殊網(wǎng)絡(luò)表現(xiàn)更弱。

下圖顯示了一個多層深度的完全連接網(wǎng)絡(luò)：

2. 卷積神經(jīng)網(wǎng)絡(luò)（CNN）

卷積神經(jīng)網(wǎng)絡(luò)（CNN）是一種多層神經(jīng)網(wǎng)絡(luò)架構(gòu)，主要用于圖像處理應(yīng)用。CNN架構(gòu)明確假定輸入具有空間維度（以及可選的深度維度），例如圖像，這允許將某些屬性編碼到模型架構(gòu)中。Yann LeCun創(chuàng)建了第一個CNN，該架構(gòu)最初用于識別手寫字符。

2.1 CNN的架構(gòu)特點

分解一下使用CNN的計算機(jī)視覺模型的技術(shù)細(xì)節(jié)：

模型的輸入：CNN模型的輸入通常是圖像或文本。CNN也可用于文本，但通常不怎么使用。

圖像在這里被表示為像素網(wǎng)格，就是由正整數(shù)組成的網(wǎng)格，每個數(shù)字都被分配一種顏色。

模型的輸出：模型的輸出取決于它試圖預(yù)測什么，下面的示例表示一些常見的任務(wù)：

一個簡單的卷積神經(jīng)網(wǎng)絡(luò)由一系列層構(gòu)成，每一層通過可微分函數(shù)將一個激活的體積塊轉(zhuǎn)換為另一個表達(dá)。卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)主要使用三種類型的層：卷積層、池化層和全連接層。下圖展示了卷積神經(jīng)網(wǎng)絡(luò)層的不同部分：

卷積: 卷積過濾器掃描圖像，使用加法和乘法操作。CNN試圖學(xué)習(xí)卷積過濾器中的值以預(yù)測所需的輸出。
非線性: 這是應(yīng)用于卷積過濾器的方程，它允許CNN學(xué)習(xí)輸入和輸出圖像之間的復(fù)雜關(guān)系。
池化: 也稱為“最大池化”，它只選擇一系列數(shù)字中的最大數(shù)字。這有助于減小表達(dá)的大小并減少CNN必須進(jìn)行的計算量，用于提升效率。

這三種操作的結(jié)合組成了完全卷積網(wǎng)絡(luò)。

2.2 CNN的用例

CNN（卷積神經(jīng)網(wǎng)絡(luò)）是一種常用于解決與空間數(shù)據(jù)相關(guān)的問題的神經(jīng)網(wǎng)絡(luò)，通常用于圖像（2D CNN）和音頻（1D CNN）等領(lǐng)域。CNN的廣泛應(yīng)用包括人臉識別、醫(yī)學(xué)分析和分類等。通過CNN，可以在圖像或音頻數(shù)據(jù)中捕捉到更加細(xì)致的特征，從而實現(xiàn)更加精準(zhǔn)的識別和分析。此外，CNN也可以應(yīng)用于其他領(lǐng)域，如自然語言處理和時間序列數(shù)據(jù)等?？傊?，CNN是可以幫助我們更好地理解和分析各種類型的數(shù)據(jù)。

2.3 CNN對比FCN的優(yōu)勢

參數(shù)共享/計算可行性:

由于CNN使用參數(shù)共享，所以CNN與FCN架構(gòu)的權(quán)重數(shù)量通常相差幾個數(shù)量級。

對于全連接神經(jīng)網(wǎng)絡(luò)，有一個形狀為(Hin×Win×Cin)的輸入和一個形狀為(Hout×Wout×Cout)的輸出。這意味著輸出特征的每個像素顏色都與輸入特征的每個像素顏色連接。對于輸入圖像和輸出圖像的每個像素，都有一個獨立的可學(xué)習(xí)參數(shù)。因此，參數(shù)數(shù)量為(Hin×Hout×Win×Wout×Cin×Cout)。

在卷積層中，輸入是形狀為(Hin,Win,Cin)的圖像，權(quán)重考慮給定像素的鄰域大小為K×K。輸出是給定像素及其鄰域的加權(quán)和。輸入通道和輸出通道的每個對(Cin,Cout)都有一個單獨的內(nèi)核，但內(nèi)核的權(quán)重形狀為(K,K,Cin,Cout)的張量與位置無關(guān)。實際上，該層可以接受任何分辨率的圖像，而全連接層只能使用固定分辨率。最后，該層參數(shù)為(K,K,Cin,Cout)，對于內(nèi)核大小K遠(yuǎn)小于輸入分辨率的情況，變量數(shù)量會顯著減少。

自從AlexNet贏得ImageNet比賽以來，每個贏得比賽的神經(jīng)網(wǎng)絡(luò)都使用了CNN組件，這一事實證明CNN對于圖像數(shù)據(jù)更有效。很可能找不到任何有意義的比較，因為僅使用FC層處理圖像數(shù)據(jù)是不可行的，而CNN可以處理這些數(shù)據(jù)。為什么呢？

FC層中有1000個神經(jīng)元的權(quán)重數(shù)量對于圖像而言大約為1.5億。 這僅僅是一個層的權(quán)重數(shù)量。 而現(xiàn)代的CNN體系結(jié)構(gòu)具有50-100層，同時具有總共幾十萬個參數(shù)（例如，ResNet50具有23M個參數(shù)，Inception V3具有21M個參數(shù)）。

從數(shù)學(xué)角度來看，比較CNN和FCN（具有100個隱藏單元）之間的權(quán)重數(shù)量，輸入圖像為500×500×3的話：

FC layer 的 Wx = 100×(500×500×3)=100×750000=75M

CNN layer =

((shape of width of the filter * shape of height of the filter * number of filters in the previous layer+1)*number of filters)( +1 是為了偏置) = (Fw×Fh×D+1)×F=(5×5×3+1)?2=152

平移不變性

不變性指的是一個對象即使位置發(fā)生了改變，仍然能夠被正確地識別。這通常是一個積極的特性，因為它維護(hù)了對象的身份（或類別）。這里的“平移”是指在幾何學(xué)中的特定含義。下圖顯示了相同的對象在不同的位置上，由于平移不變性，CNN能夠正確地識別它們都是貓。

3. 循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）

RNN是構(gòu)建其他深度學(xué)習(xí)架構(gòu)的基礎(chǔ)網(wǎng)絡(luò)體系結(jié)構(gòu)之一。一個關(guān)鍵的不同之處在于，與正常的前饋網(wǎng)絡(luò)不同，RNN可以具有反饋到其先前或同一層的連接。從某種意義上說，RNN在先前的計算中具有“記憶”，并將這些信息用于當(dāng)前處理。

3.1 RNN 的架構(gòu)特點

“Recurrent”這個術(shù)語適用于網(wǎng)絡(luò)在每個序列實例上執(zhí)行相同的任務(wù)，因此輸出取決于先前的計算和結(jié)果。

RNN自然適用于許多NLP任務(wù)，如語言建模。它們能夠捕捉“狗”和“熱狗”之間的含義差異，因此RNN是為建模語言和類似序列建模任務(wù)中的這種上下文依賴而量身定制的，這成為在這些領(lǐng)域使用RNN而不是CNN的主要原因。RNN的另一個優(yōu)點是模型大小不隨輸入大小而增加，因此有可能處理任意長度的輸入。

此外，與CNN不同的是，RNN具有靈活的計算步驟，提供更好的建模能力，并創(chuàng)造了捕捉無限上下文的可能性，因為它考慮了歷史信息，并且其權(quán)重在時間上是共享的。然而，循環(huán)神經(jīng)網(wǎng)絡(luò)會面臨梯度消失問題。梯度變得很小，因此使得反向傳播的更新權(quán)重非常小。由于每個標(biāo)記需要順序處理以及存在梯度消失/爆炸，RNN訓(xùn)練速度慢并且有時很難收斂。

下圖斯坦福大學(xué)是RNN架構(gòu)示例。

另一個需要注意的是，CNN與RNN具有不同的架構(gòu)。CNN是一種前饋神經(jīng)網(wǎng)絡(luò)，它使用過濾器和池化層，而RNN則通過自回歸的方式將結(jié)果反饋到網(wǎng)絡(luò)中。

3.2 RNN的典型用例

RNN是一種專門用于分析時間序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。其中，時間序列數(shù)據(jù)是指按時間順序排列的數(shù)據(jù)，例如文本或視頻。RNN在文本翻譯、自然語言處理、情感分析和語音分析等方面具有廣泛的應(yīng)用。例如，它可以用于分析音頻記錄，以便識別說話人的語音并將其轉(zhuǎn)換為文本。另外，RNN還可以用于文本生成，例如為電子郵件或社交媒體發(fā)布創(chuàng)建文本。

3.3 RNN 與CNN 的對比優(yōu)勢

在CNN中，輸入和輸出的大小是固定的。這意味著CNN接收固定大小的圖像，并將其輸出到適當(dāng)?shù)募墑e，同時伴隨其預(yù)測的置信度。然而，在RNN中，輸入和輸出的大小可能會有所變化。這個特性適用于需要可變大小輸入和輸出的應(yīng)用，例如生成文本。

門控循環(huán)單元（GRU）和長短時記憶單元（LSTM）都提供了解決循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）遇到的梯度消失問題的解決方案。

4. 長短記憶神經(jīng)網(wǎng)絡(luò)(LSTM)

長短記憶神經(jīng)網(wǎng)絡(luò)（LSTM）是一種特殊的RNN。它通過學(xué)習(xí)長期依賴關(guān)系，使RNN更容易在許多時間戳上保留信息。下圖是LSTM架構(gòu)的可視化表示。

LSTM無處不在，可以在許多應(yīng)用程序或產(chǎn)品中找到，例如智能手機(jī)。其強(qiáng)大之處在于它擺脫了典型的基于神經(jīng)元的架構(gòu)，而是采用了記憶單元的概念。這個記憶單元根據(jù)其輸入的函數(shù)保留其值，可以短時間或長時間保持其值。這允許單元記住重要的內(nèi)容，而不僅僅是最后計算的值。

LSTM 記憶單元包含三個門，控制其單元內(nèi)的信息流入或流出。

輸入門：控制何時可以將信息流入內(nèi)存。

遺忘門：負(fù)責(zé)跟蹤哪些信息可以“遺忘”，為處理單元騰出空間記住新數(shù)據(jù)。

輸出門：決定處理單元內(nèi)存儲的信息何時可以用作細(xì)胞的輸出。

LSTM對比于GRU和RNN的優(yōu)缺點

相較于GRU和尤其是RNN，LSTM可以學(xué)習(xí)更長期的依賴關(guān)系。由于有三個門（GRU中為兩個，RNN中為零），因此與RNN和GRU相比，LSTM具有更多的參數(shù)。這些額外的參數(shù)允許LSTM模型更好地處理復(fù)雜的序列數(shù)據(jù)，如自然語言或時間序列數(shù)據(jù)。此外，LSTM還可以處理變長的輸入序列，因為它們的門結(jié)構(gòu)允許它們忽略不必要的輸入。因此，LSTM在許多應(yīng)用中都表現(xiàn)出色，包括語音識別、機(jī)器翻譯和股票市場預(yù)測等。

5. 門控循環(huán)單元 (GRU)

GRU有兩個門：更新門和重置門（本質(zhì)上是兩個向量），以決定應(yīng)該傳遞什么信息到輸出。

重置門（Reset gate）： 幫助模型決定可以忘記多少過去的信息。
更新門（Update gate）： 幫助模型確定過去信息（之前的時間步驟）中有多少需要傳遞到未來。

GRU對比 LSTM 和RNN的優(yōu)缺點

與RNN類似，GRU也是一種遞歸神經(jīng)網(wǎng)絡(luò)，它可以有效地長時間保留信息并捕捉比RNN更長的依賴關(guān)系。然而，GRU相比較于LSTM更為簡單，訓(xùn)練速度更快。

盡管GRU在實現(xiàn)上比RNN更為復(fù)雜，但由于其僅包含兩個門控機(jī)制，因此其參數(shù)數(shù)量較少，通常不能像LSTM那樣捕捉更長范圍的依賴關(guān)系。因此，GRU在某些情況下可能需要更多的訓(xùn)練數(shù)據(jù)以達(dá)到與LSTM相同的性能水平。

此外，由于GRU相對較為簡單，其計算成本也較低，因此在資源有限的環(huán)境下，如移動設(shè)備或嵌入式系統(tǒng)，使用GRU可能更為合適。另一方面，如果模型的準(zhǔn)確性對應(yīng)用至關(guān)重要，則LSTM可能是更好的選擇。

6.Transformer

有關(guān) Transformers 的論文 “Attention is All You Need” 幾乎是 Arxiv 上有史以來排名第一的論文。變形金剛是一種大型編碼器-解碼器模型，能夠使用復(fù)雜的注意力機(jī)制處理整個序列。

通常，在自然語言處理應(yīng)用中，首先使用嵌入算法將每個輸入單詞轉(zhuǎn)換為向量。嵌入只在最底層的編碼器中發(fā)生。所有編碼器共享的抽象是，它們接收一個大小為512的向量列表，這將是詞嵌入，但在其他編碼器中，它將是直接位于下面的編碼器輸出中。

注意力提供了解決瓶頸問題的方法。對于這些類型的模型，上下文向量成為了一個瓶頸，這使得模型難以處理長句子。注意力允許模型根據(jù)需要集中關(guān)注輸入序列的相關(guān)部分，并將每個單詞的表示視為一個查詢，以訪問和合并一組值中的信息。

6.1 Transformer的架構(gòu)特點

通常，在Transformer架構(gòu)中，編碼器能夠?qū)⑺须[藏狀態(tài)傳遞給解碼器。但是，在生成輸出之前，解碼器使用注意力進(jìn)行了額外的步驟。解碼器通過其softmax得分乘以每個隱藏狀態(tài)，從而放大得分更高的隱藏狀態(tài)并淹沒其他隱藏狀態(tài)。這使得模型能夠集中關(guān)注與輸出相關(guān)的輸入部分。

自我注意力位于編碼器中，第一步是從每個編碼器輸入向量（每個單詞的嵌入）創(chuàng)建3個向量：Key、Query和Value向量，這些向量是通過將嵌入乘以在訓(xùn)練過程中訓(xùn)練的3個矩陣來創(chuàng)建的。K、V、Q維度為64，而嵌入和編碼器輸入/輸出向量的維度為512。下圖來自Jay Alammar的 Illustrated Transformer，這可能是網(wǎng)上最好的可視化解讀。

這個列表的大小是可以設(shè)置的超參數(shù)，基本上將是訓(xùn)練數(shù)據(jù)集中最長句子的長度。

注意力：

什么是query、key和value向量？它們是在計算和思考注意力時有用的抽象概念。在解碼器中的交叉注意力除了輸入之外，計算與自注意力的計算相同。交叉注意力不對稱地組合了兩個維度相同的獨立嵌入序列，而自注意力的輸入是一個單獨的嵌入序列。

為了討論Transformer，還必須討論兩個預(yù)訓(xùn)練模型，即BERT和GPT，因為它們導(dǎo)致了Transformer的成功。

GPT 的預(yù)訓(xùn)練解碼器有12層，其中包括768維隱藏狀態(tài)，3072維前饋隱藏層，采用40,000個合并的字節(jié)對編碼。主要應(yīng)用在自然語言的推理中，將句子對標(biāo)記為蘊(yùn)含、矛盾或中性。

BERT是預(yù)訓(xùn)練編碼器，使用掩碼語言建模，將輸入中的一部分單詞替換為特殊的[MASK]標(biāo)記，然后嘗試預(yù)測這些單詞。因此，只需要在預(yù)測的掩碼單詞上計算損失。兩種BERT模型大小都有大量的編碼器層（該論文稱為Transformer塊）-Base版本有12個，Large版本有24個。這些也具有比初始論文中Transformer參考實現(xiàn)中的默認(rèn)配置（6個編碼器層，512個隱藏單元和8個注意頭）更大的前饋網(wǎng)絡(luò)（分別為768和1024個隱藏單元）和更多的注意頭（分別為12和16）。BERT模型很容易進(jìn)行微調(diào)，通常可以在單個GPU上完成。BERT可以用在NLP中進(jìn)行翻譯，特別是低資源語言翻譯。

Transformer的一個性能缺點是，它們在自我關(guān)注方面的計算時間是二次的，而RNN只是線性增長。

6.2 Transformer的用例

6.2.1 語言領(lǐng)域

在傳統(tǒng)的語言模型中，相鄰的單詞會首先被分組在一起，而Transformer則能夠并行處理，使得輸入數(shù)據(jù)中的每個元素都能夠連接或關(guān)注到每個其他元素。這被稱為“自我注意力”。這意味著Transformer一開始訓(xùn)練時就可以看到整個數(shù)據(jù)集的內(nèi)容。

在Transformer出現(xiàn)之前，AI語言任務(wù)的進(jìn)展在很大程度上落后于其他領(lǐng)域的發(fā)展。實際上，在過去的10年左右的深度學(xué)習(xí)革命中，自然語言處理是后來者，而NLP在某種程度上落后于計算機(jī)視覺。然而，隨著Transformers的出現(xiàn)，NLP領(lǐng)域得到了極大的推動，并且推出了一系列在各種NLP任務(wù)中取得佳績的模型。

例如，為了理解基于傳統(tǒng)語言模型（基于遞歸架構(gòu)，如RNN、LSTM或GRU）與Transformer之間的區(qū)別，我們可以舉個例子：“The owl spied a squirrel. It tried to grab it with its talons but only got the end of its tail.”第二個句子的結(jié)構(gòu)很令人困惑：那個“it”是指什么？僅關(guān)注“it”周圍單詞的傳統(tǒng)語言模型會遇到困難，但是將每個單詞與每個其他單詞相連的Transformer可以分辨出貓頭鷹抓住了松鼠，而松鼠失去了部分尾巴。

6.2.2 視覺領(lǐng)域

在CNN中，我們從局部開始，逐漸獲得全局視角。CNN通過從局部到全局的方式構(gòu)建特征，逐像素識別圖像，以識別例如角落或線條等特征。然而，在transformer中，通過自我注意力，即使在信息處理的第一層上，也會建立遠(yuǎn)程圖像位置之間的連接（就像語言一樣）。如果CNN的方法就像從單個像素開始縮放，那么transformer會逐漸將整個模糊的圖像聚焦。

CNN通過反復(fù)應(yīng)用輸入數(shù)據(jù)的局部補(bǔ)丁上的濾鏡，生成局部特征表示，并逐步增加它們的感受視野并構(gòu)建全局特征表示。正是因為卷積，照片應(yīng)用程序才能將梨與云彩區(qū)分開來。在transformer架構(gòu)之前，CNN被認(rèn)為是視覺任務(wù)不可或缺的。

Vision Transformer模型的架構(gòu)與2017年提出的第一個transformer幾乎相同，只有一些微小的變化使其能夠分析圖像而不是單詞。由于語言往往是離散的，因此需要將輸入圖像離散化，以使transformer能夠處理視覺輸入。在每個像素上完全模仿語言方法并執(zhí)行自我關(guān)注將計算時間變得極為昂貴。因此，ViT將更大的圖像分成方形單元或補(bǔ)?。愃朴贜LP中的令牌）。大小是任意的，因為根據(jù)原始圖像的分辨率，token可以變大或變?。J(rèn)為16x16像素）。但是通過處理組中的像素并對每個像素應(yīng)用自我注意力，ViT可以快速處理巨大的訓(xùn)練數(shù)據(jù)集，輸出越來越準(zhǔn)確的分類。

6.2.3 多模態(tài)任務(wù)

與 Transformer 相比，其他深度學(xué)習(xí)架構(gòu)只會一種技巧，而多模態(tài)學(xué)習(xí)需要在一個流暢的架構(gòu)中處理具有不同模式的模態(tài)，并具有相當(dāng)高的關(guān)系歸納偏差，才能達(dá)到人類智能的水平。換句話說，需要一個單一多用途的架構(gòu)，可以無縫地在閱讀/觀看、說話和聽取等感官之間轉(zhuǎn)換。

對于多模態(tài)任務(wù)，需要同時處理多種類型的數(shù)據(jù)，如原始圖像、視頻和語言等，而 Transformer 提供了通用架構(gòu)的潛力。

由于早期架構(gòu)中采用的分立方法，每種類型的數(shù)據(jù)都有自己特定的模型，因此這是一項難以完成的任務(wù)。然而，Transformer 提供了一種簡單的方法來組合多個輸入來源。例如，多模態(tài)網(wǎng)絡(luò)可以為系統(tǒng)提供動力，讀取人的嘴唇動作并同時使用語言和圖像信息的豐富表示來監(jiān)聽他們的聲音。通過交叉注意力，Transformer 能夠從不同來源派生查詢、鍵和值向量，成為多模態(tài)學(xué)習(xí)的有力工具。

因此，Transformer 是實現(xiàn)神經(jīng)網(wǎng)絡(luò)架構(gòu)“融合”的一大步，從而可以幫助實現(xiàn)對多種模態(tài)數(shù)據(jù)的通用處理。

6.3 Transformer對比RNN/GRU/LSTM的優(yōu)缺點

與RNN/GRU/LSTM相比，Transformer可以學(xué)習(xí)比RNN和其變體（如GRU和LSTM）更長的依賴關(guān)系。

然而，最大的好處來自于Transformer如何適用于并行化。與在每個時間步驟處理一個單詞的RNN不同，Transformer的一個關(guān)鍵屬性是每個位置上的單詞都通過自己的路徑流經(jīng)編碼器。在自我注意力層中，由于自我注意層計算每個輸入序列中的其他單詞對該單詞的重要性，這些路徑之間存在依賴關(guān)系。但是，一旦生成了自我注意力輸出，前饋層就沒有這些依賴關(guān)系，因此各個路徑可以在通過前饋層時并行執(zhí)行。這在Transformer編碼器的情況下是一個特別有用的特性，它可以在自我注意力層后與其他單詞并行處理每個輸入單詞。然而，這個特性對于解碼器并不是非常重要，因為它一次只生成一個單詞，不使用并行單詞路徑。

Transformer架構(gòu)的運(yùn)行時間與輸入序列的長度呈二次方關(guān)系，這意味著當(dāng)處理長文檔或?qū)⒆址鳛檩斎霑r，處理速度可能會很慢。換句話說，在進(jìn)行自我注意力形成期間，需要計算所有交互對，這意味著計算隨著序列長度呈二次增長，即O(T^2 d)，其中T序列長度，D是維度。例如，對應(yīng)一個簡單的句子d=1000，T≤30?T^2≤900?T^2d≈900K。而對于循環(huán)神經(jīng)，它僅以線性方式增長。

如果Transformer不需要在句子中的每一對單詞之間計算成對的交互作用，那豈不是很好？有研究表明可以在不計算所有單詞對之間的交互作用（例如通過近似成對關(guān)注）的情況下實現(xiàn)相當(dāng)高的性能水平。

與CNN相比，Transformer的數(shù)據(jù)需求極高。CNN仍然具有樣本效率，這使它們成為低資源任務(wù)的絕佳選擇。這對于圖像/視頻生成任務(wù)尤其如此，即使對于CNN架構(gòu)，需要大量數(shù)據(jù)（因此暗示Transformer架構(gòu)需要極高的數(shù)據(jù)需求）。例如，Radford等人最近提出的CLIP架構(gòu)是使用基于CNN的ResNets作為視覺骨干進(jìn)行訓(xùn)練的（而不是類似ViT的Transformer架構(gòu)）。雖然Transformer在滿足其數(shù)據(jù)需求后提供了準(zhǔn)確性提升，但CNN則提供了一種在可用數(shù)據(jù)量不是異常高的任務(wù)中提供良好準(zhǔn)確性表現(xiàn)的方式。因此，兩種架構(gòu)都有其用途。

由于Transformer 架構(gòu)的運(yùn)行時間與輸入序列的長度呈二次方關(guān)系。也就是說，在所有單詞對上計算注意力需要圖中邊的數(shù)量隨節(jié)點數(shù)呈二次方增長，即在一個 n 個單詞的句子中，Transformer 需要計算 n^2 個單詞對。這意味著參數(shù)數(shù)量巨大（即內(nèi)存占用高），從而導(dǎo)致計算復(fù)雜度高。高計算要求對電源和電池壽命都會產(chǎn)生負(fù)面影響，特別是對于可移動設(shè)備而言?？傮w而言，為了提供更好的性能（例如準(zhǔn)確性），Transformer需要更高的計算能力、更多的數(shù)據(jù)、電源/電池壽命和內(nèi)存占用。

7. 推理偏差

實踐中使用的每個機(jī)器學(xué)習(xí)算法，從最近鄰到梯度提升，都帶有自己關(guān)于哪些分類更容易學(xué)習(xí)的歸納偏差。幾乎所有學(xué)習(xí)算法都有一個偏差，即學(xué)習(xí)那些相似的項（在某些特征空間中“接近”彼此）更可能屬于同一類。線性模型，例如邏輯回歸，還假設(shè)類別可以通過線性邊界分離，這是一個“硬”偏差，因為模型無法學(xué)習(xí)其他內(nèi)容。即便對于正則化回歸，這幾乎是機(jī)器學(xué)習(xí)中經(jīng)常使用的類型，也還存在一種偏差，即傾向于學(xué)習(xí)涉及少數(shù)特征，具有低特征權(quán)重的邊界，這是“軟”偏差，因為模型可以學(xué)習(xí)涉及許多具有高權(quán)重功能的類別邊界，但這更困難/需要更多數(shù)據(jù)。

即使是深度學(xué)習(xí)模型也同樣具有推理偏差，例如，LSTM神經(jīng)網(wǎng)絡(luò)對自然語言處理任務(wù)非常有效，因為它偏向于在長序列上保留上下文信息。

了解領(lǐng)域知識和問題難度可以幫助我們選擇適當(dāng)?shù)乃惴☉?yīng)用。例如，從臨床記錄中提取相關(guān)術(shù)語以確定患者是否被診斷為癌癥的問題。在這種情況下，邏輯回歸表現(xiàn)良好，因為有很多獨立有信息量的術(shù)語。對于其他問題，例如從復(fù)雜的PDF報告中提取遺傳測試的結(jié)果，使用LSTM可以更好地處理每個單詞的長程上下文，從而獲得更好的性能。一旦選擇了基礎(chǔ)算法，了解其偏差也可以幫助我們執(zhí)行特征工程，即選擇要輸入到學(xué)習(xí)算法中的信息的過程。

每個模型結(jié)構(gòu)都有一種內(nèi)在的推理偏差，幫助理解數(shù)據(jù)中的模式，從而實現(xiàn)學(xué)習(xí)。例如，CNN表現(xiàn)出空間參數(shù)共享、平移/空間不變性，而RNN表現(xiàn)出時間參數(shù)共享。

8. 小結(jié)

老碼農(nóng)嘗試對比分析了深度學(xué)習(xí)架構(gòu)中的Transformer、CNN、RNN/GRU/LSTM，理解到Transformer可以學(xué)習(xí)更長的依賴關(guān)系，但需要更高的數(shù)據(jù)需求和計算能力；Transformer適用于多模態(tài)任務(wù)，可以無縫地在閱讀/觀看、說話和聽取等感官之間轉(zhuǎn)換；每個模型結(jié)構(gòu)都有一種內(nèi)在的推理偏差，幫助理解數(shù)據(jù)中的模式，從而實現(xiàn)學(xué)習(xí)。

贊賞

共11人贊賞

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看