親愛的讀者,你是否被各種千億、萬億模型的發(fā)布狂轟亂炸,應(yīng)接不暇,甚至有點(diǎn)產(chǎn)生對大模型的審美疲勞?出于這個(gè)目的,今天來分享一篇研究靜態(tài)詞向量的小清新文章。希望大家可以在理性追熱的同時(shí),小冶情操。并且能夠發(fā)現(xiàn)內(nèi)在共性,有所啟示。 論文標(biāo)題: 論文鏈接: 詞向量為什么要進(jìn)行視覺增強(qiáng)詞是自然語言表達(dá)語義的基本單元,從靜態(tài)詞向量word2vec[1],GloVe[2]到動(dòng)態(tài)詞向量ELMo[3],BERT[4],詞向量的演變進(jìn)化之路就是深度學(xué)習(xí)在NLP輝煌發(fā)展歷程的靈感源泉之一。在現(xiàn)有詞向量技術(shù)的分布式假設(shè)中,有一個(gè)非常重要的概念就是“文本上下文(Context)”,即在相似的文本上下文中出現(xiàn)的詞在語義表示空間中會更相似。這個(gè)理念非常成功,但是也有缺陷,它直接導(dǎo)致了詞向量的學(xué)習(xí)過分依賴于詞匯的共現(xiàn)關(guān)系(co-occurrences),缺乏更廣泛的、來源于真實(shí)世界的知識背景。一個(gè)經(jīng)典的例子是Good和Bad,與它們共現(xiàn)的上下文詞匯經(jīng)常是相似的,物理含義卻截然不同。 康德曾強(qiáng)調(diào)過類比在科學(xué)認(rèn)識活動(dòng)中的重要作用,尤其是在仿生設(shè)計(jì)上。模擬和類比人類啟發(fā)了神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí),看起來也是人工智能否通過圖靈測試的關(guān)鍵。我們知道人類在理解詞的基本概念的時(shí)候,會不由自主的和現(xiàn)實(shí)世界建立關(guān)聯(lián),所謂在閱讀和交談時(shí)身臨其境、浮想聯(lián)翩說的都是這種神奇的能力。自然語言處理中也有一種類似的技術(shù)叫做Grounding,它甚至有個(gè)更高大上的名字叫 Grounded Natural Language Processing (GNLP) ,研究目的是將自然語言和外部物理世界的豐富的感知連接在一起,從而解決各種多模態(tài)問題以及反過來加強(qiáng)自然語言理解能力。這種感知可以是視覺信號、聲音信號、運(yùn)動(dòng)信號等等,所以和計(jì)算機(jī)視覺、機(jī)器人技術(shù)、圖形學(xué)等學(xué)科都密不可分?!癎round(ed,ing)”這個(gè)詞不是很好翻譯成中文,我們可能最容易聯(lián)想到的就是Ground Truth(此處應(yīng)該有類比)。 既然人類很擅長將視覺和語言建立關(guān)聯(lián)(Visual-Lauguage Grounding),從而更好的理解語言。模型也可以借助視覺信息得到更好的詞向量么? 多任務(wù)視覺Grounding對于任意詞, 已經(jīng)在文本數(shù)據(jù)上預(yù)訓(xùn)練好的詞向量是,譬如word2vec,GloVe等。我們的目的是學(xué)習(xí)一個(gè)映射矩陣,將 Ground 到對應(yīng)視覺強(qiáng)化的語義空間上,獲得的Grounded詞向量記作。 為了達(dá)成這一目的,論文設(shè)計(jì)了三個(gè)部分: 語言模型設(shè)圖文描述數(shù)據(jù)集為,其中對應(yīng)文本部分,對應(yīng)圖像部分。我們使用 獲得對應(yīng)的詞向量表示,我們接著學(xué)習(xí)一個(gè)映射矩陣,將這些表示 Ground 到對應(yīng)的視覺強(qiáng)化的語義空間上。 獲得的Grounded詞向量記作,其中。為了達(dá)到這個(gè)目的,該文本對應(yīng)的圖像視覺信息融合到了語言模型的學(xué)習(xí)過程中。論文使用了GRU,這里比較巧妙地將視覺信息在線性映射后初始化第一個(gè)hidden state ,相當(dāng)于在語言模型的學(xué)習(xí)前有一個(gè)全局的視覺背景,我們希望GRU的門控機(jī)制可以學(xué)習(xí)到外部的視覺知識如何傳播到映射矩陣中。 同時(shí),映射矩陣的轉(zhuǎn)置也被用于進(jìn)行逆向操作,即從 Grounded 空間映射回純文本空間: 最終,前向語言模型基于圖像和之前的詞來逐個(gè)生成下一個(gè)詞。其中,代表詞匯表的大小,代表batch size大小, 和 分別表示預(yù)測概率和Ground Truth: 另外,論文增加了新的一個(gè)反向的GRU來加強(qiáng)學(xué)習(xí)能力,實(shí)現(xiàn)的時(shí)候?qū)⒃~序列逆序進(jìn)行GRU建模。除兩個(gè)GRU的參數(shù)不同外,其余參數(shù)都是共享的。這個(gè)設(shè)計(jì)類似于雙向GRU,但是后者用在語言模型中會有會有標(biāo)簽泄漏的問題,所以論文這里使用了兩個(gè)GRU來代替。 圖文匹配盡管基于上下文的詞表示方法是獲得高質(zhì)量的詞向量的有效途徑,但是從目標(biāo)設(shè)計(jì)的角度,卻不見得能同時(shí)給多種視覺-語言任務(wù)(visual-language task)都帶來增益,譬如圖文檢索任務(wù)需要模型具備兩種模態(tài)的強(qiáng)相關(guān)性建模。所以本文也增加了一個(gè)圖文匹配判定任務(wù),試圖讓Grounded Embedding進(jìn)一步增強(qiáng)圖像和文字相關(guān)性能力。 雖然這里模型選的簡單也很符合直覺,但是想法其實(shí)和多模預(yù)訓(xùn)練里使用對比學(xué)習(xí)對齊視覺和語言表示空間是類似的。這里使用了第三個(gè)GRU,同樣用視覺表示來初始化,這里用最后的hidden state 來建模整體,負(fù)樣例隨機(jī)采樣,優(yōu)化二元交叉熵: 其中, 和 分別表示預(yù)測概率和Ground Truth 正則化以上任務(wù)均共享預(yù)訓(xùn)練好的文本詞向量,一個(gè)容易想到的問題是,它究竟要不要finetune呢?如果要進(jìn)行更新,它們可能會極大的偏離原始向量,擾亂預(yù)先訓(xùn)練好的語義關(guān)系,特別是在有限的訓(xùn)練語料的情況下。如果完全不進(jìn)行更新,由于這些詞向量本身有偏,可能會很難映射到Grouded Embedding上去。為了兼容這兩種情況,論文這里對的學(xué)習(xí)進(jìn)行了正則約束: 其中,控制了正則約束整體的影響,控制調(diào)整后的詞向量和最初的詞向量被允許的差異程度。 最終,模型優(yōu)化的是多個(gè)任務(wù): 實(shí)驗(yàn)實(shí)驗(yàn)訓(xùn)練圖文訓(xùn)練數(shù)據(jù)選擇了MS-COCO,圖像的視覺信息使用訓(xùn)練好的Inception-V3加一層tanh非線性層來提取。預(yù)訓(xùn)練好的文本詞向量則選擇使用了經(jīng)典的GloVe[2] () 和 fastText[5] (),詞表大小設(shè)置為10k。 由于已經(jīng)學(xué)到了文本空間向Grounded空間的映射矩陣,對于一些不在image-text訓(xùn)練語料中的未登錄詞(Oov),也可以采取這樣的映射獲得對應(yīng)的Grounded空間,從而獲得zero-shot的能力,也是論文的賣點(diǎn)之一。這里設(shè)原始文本詞向量為GloVe和fastText,視覺增強(qiáng)后的Grounded 詞向量為V_GloVe和V_fastText。 如何評估詞向量的好壞至今也是一個(gè)開放性問題,論文選擇了intrinsic(內(nèi)在評價(jià))和 extrinsic(外在評價(jià))兩種評估方法。內(nèi)在評價(jià)度量的是詞向量本身的質(zhì)量,忽略了它的下游任務(wù)表現(xiàn)。外在評價(jià)度量的是詞向量在句子粒度的下游任務(wù)上的表現(xiàn)。 內(nèi)在評估內(nèi)在評估在多種詞匯相似度評估基準(zhǔn)集合(Benchmark)上進(jìn)行了測試?;€對比上,作者選擇了純文本訓(xùn)練的詞向量和一些其他的Grounded 詞向量模型。可以發(fā)現(xiàn)V_GloVe和V_fastText在各個(gè)benchmark上相對于純文本預(yù)訓(xùn)練詞向量GloVe和fastText均獲得了穩(wěn)定的效果提升,Spearman系數(shù)平均+6.5和+1.6。另外,實(shí)驗(yàn)也揭示了一些有趣的現(xiàn)象,SimLex999主要關(guān)注詞向量之間的語義相似度,WSim353主要關(guān)注于相關(guān)性。V_Word Embedding看起來在語義相似度度量上提升的更多。 細(xì)粒度內(nèi)在評估為了進(jìn)一步研究Grounded Embedding的貢獻(xiàn),論文在SimLex999的多個(gè)類別數(shù)據(jù)下進(jìn)行了實(shí)驗(yàn),分為形容詞、名詞、動(dòng)詞,以及詞的具像程度。譬如Apple(蘋果)這個(gè)詞是一個(gè)實(shí)體詞,非常具像。而Pressure(壓力)這個(gè)詞比較抽象,Conc-qx的分位數(shù)越高,代表詞越具體。論文這里對比了Google hinton組在早年發(fā)的一篇Grounded 詞向量的模型PictureBook[6]的結(jié)果,這個(gè)工作利用了大量圖文搜索引擎日志數(shù)據(jù)來訓(xùn)練Grounded詞向量。V_GloVe的表現(xiàn)并不落下風(fēng)。我們可以看到之前的方法對于具體詞的Grounding能力是做的比較好的,這也符合直覺,因?yàn)閳D文訓(xùn)練語料大多數(shù)都是在描述一個(gè)客觀的實(shí)體。而V_Glove在抽象詞的表現(xiàn)上要好于PictureBook,很大程度上歸功于Grounding映射矩陣在zero-shot上的設(shè)計(jì)。 外在評估外在評估是在數(shù)年的SentEval數(shù)據(jù)集上進(jìn)行測試,這種評估的優(yōu)勢在于不需要訓(xùn)練數(shù)據(jù),而是直接把詞向量進(jìn)行累加平均后得到句子表示,最大程度的評估詞向量空間的內(nèi)在結(jié)構(gòu),并且能夠發(fā)現(xiàn)其中存在的不規(guī)律性。我們看到V_Word Embedding大幅提升了效果,Spearman系數(shù)平均+10.0。 進(jìn)一步分析論文接著展示了多組詞向量的最近鄰結(jié)果。進(jìn)一步表明Grounded 詞向量可以優(yōu)化純文本向量空間,從而對齊到真實(shí)物理世界的概念上。譬如我們看bird(鳥)這個(gè)詞,GloVe展示的最近鄰詞是turtle(烏龜)、nest(鳥巢)和squirrel(松鼠)。而V_Glove的最近鄰是sparrow(麻雀)、Birds(鳥),avian(鳥類)。另一個(gè)例子是抽象程度更高的詞happy(高興),我們可以看到由于純文本預(yù)訓(xùn)練詞向量存在強(qiáng)的詞共現(xiàn)關(guān)系的假設(shè),會得到一些無價(jià)值的詞匯,譬如everyone(所有人),always(總是)。而V_Glove得到的詞更符合人類的認(rèn)知:pleased(高興),delighted(高興)。 結(jié)論論文提出了一種使用視覺Grounding來增強(qiáng)詞向量表示能力的方法。麻雀雖小,五臟俱全。論文在模型設(shè)計(jì)中使用了視覺-文本聯(lián)合上下文取代純文本上下文來進(jìn)行語言模型訓(xùn)練,同時(shí)具備一定的zero-shot能力,其背后闡釋的思想和目前火熱的多模態(tài)大模型是類似的,希望對大家有所啟發(fā)。
|
|