【原】【NLP】深度學(xué)習(xí)NLP開篇-循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

有三AI 2020-11-27

展開全文

從這篇文章開始，有三AI-NLP專欄就要進入深度學(xué)習(xí)了。本文會介紹自然語言處理早期標(biāo)志性的特征提取工具-循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。首先，會介紹RNN提出的由來；然后，詳細(xì)介紹RNN的模型結(jié)構(gòu)，前向傳播和反向傳播的過程；最后，討論RNN的特點及其優(yōu)劣勢。

作者&編輯 | 小Dream哥

完整的NLP深度學(xué)習(xí)介紹，應(yīng)該從反向傳播(BP)開始，進而介紹深度神經(jīng)網(wǎng)絡(luò)(DNN)，卷積神經(jīng)網(wǎng)絡(luò)(CNN)也是必不可少的內(nèi)容。鑒于有三AI已經(jīng)發(fā)布了大量的CV相關(guān)的文章，其中必有相關(guān)的介紹。所以，在NLP專欄就暫不介紹相關(guān)的內(nèi)容了。如果有需要的同學(xué)，可以留言提出來。

1 引言：RNN

對于一些序列輸入的信息，例如語音、語言等，不同時刻之間的輸入存在相互的影響，需要一種模型能夠“記憶”歷史輸入的信息，進而對整個序列進行完整的特征提取和表征。

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)就是面對這樣的需求提出來的，它能夠“記憶”序列輸入的歷史信息，從而能夠較好的對整個序列進行語義建模。

目前，RNN及其變種在NLP領(lǐng)域有著廣泛的應(yīng)用。語音識別、對話系統(tǒng)、機器翻譯、情感分析等等領(lǐng)域，在產(chǎn)業(yè)界，RNN及其變種都是最主要的特征提取工具。

關(guān)于RNN的特性，這里先不做太多理論上的說明，等介紹完其結(jié)構(gòu)、前向傳播和反向傳播后我們再來討論。

基于篇幅的限制，本文會先介紹最基本的RNN模型結(jié)構(gòu)和原理，LSTM會在下一篇文章中做詳細(xì)的介紹。

2 RNN的結(jié)構(gòu)

如上圖所示，是RNN的結(jié)構(gòu)圖。相較于CNN繁雜的卷積運算過程和復(fù)雜的網(wǎng)絡(luò)層次，RNN的模型結(jié)構(gòu)看上去相當(dāng)?shù)暮啙?。同樣的，RNN模型的結(jié)構(gòu)也分為輸入層(Input Layer)、隱藏層(Hidden Layer)和輸出層(Output Layer)。圖中的箭頭表示數(shù)據(jù)的流動，需要注意的是在隱藏層，有一個回流的箭頭，這是這個箭頭的作用，使得RNN具有了“記憶”的能力。

這樣看，同學(xué)們可能還無法看清楚數(shù)據(jù)在RNN模型內(nèi)到底是如何流動的。我們將RNN模型的單元按時間展開，如下圖所示：

圖片來自：https://www./articles/nature14539

可以看到，不同時刻的數(shù)據(jù)x_t與上一時刻的狀態(tài)s_(t-1)，從輸入層輸入，經(jīng)過一系列運算(激活函數(shù))之后，得到該時刻的狀態(tài)s_t，s_t再經(jīng)過矩陣運算得到該時刻的輸出o_t，同時t時刻的狀態(tài)s_t會傳給下一時刻的輸入層。

通過這種方式，任意時刻的序列輸入都會包含前面所有時刻的狀態(tài)信息，就實現(xiàn)了“記憶”的目的，實際就是一種殘差的結(jié)構(gòu)。

需要注意的是，這里所有的RNN結(jié)構(gòu)單元是權(quán)重共享的，用大白話說，就是只有一個RNN單元。

下面我們來詳細(xì)看看數(shù)據(jù)的流動過程，也就是RNN的正向傳播與反向傳播過程。

3 RNN的正向傳播

RNN的正向傳播過程，就是通過輸入數(shù)據(jù)x_t，求該時刻的RNN單元狀態(tài)(Cell State)s_t以及輸出o_t的過程。

我們先來看s_t