作者 | 琰琰 近幾年,多模態(tài)已經(jīng)成為自然語言處理(NLP)領(lǐng)域的熱點(diǎn)研究方向之一。得益于深度學(xué)習(xí)的興起,大數(shù)據(jù)+大模型的雙輪模式推動人工智能實(shí)現(xiàn)了跨越式發(fā)展。但大量實(shí)驗(yàn)證明,僅依靠“煉大模型”仍不足以解決通用人工智能(AGI)的常識問題。 此外,計(jì)算機(jī)視覺、自然語言處理、語音識別等技術(shù)日益成熟,使“多模態(tài)”信息融合的優(yōu)勢進(jìn)一步凸顯。去年年初,OpenAI發(fā)布多模態(tài)大規(guī)模預(yù)訓(xùn)練模型CLIP和DALL·E,在語言理解和圖像生成方面刷新SOTA,驗(yàn)證了多模態(tài)在處理NLP任務(wù)中潛力。 在國內(nèi),北京智源研究院近日發(fā)布全球最大規(guī)模預(yù)訓(xùn)練語言模型“悟道2.0”,其1.75萬億參數(shù)在業(yè)內(nèi)引起不小的震撼。延續(xù)GPT-3的“暴力美學(xué)”,悟道2.0的效率更高,性能更佳,一舉拿下了9項(xiàng)Benchmark。 其中,以多模態(tài)為核心的預(yù)訓(xùn)練模型悟道·文瀾,在語義理解、視覺-語言檢索方面的能力同樣令人驚艷。據(jù)官方介紹,文瀾2.0實(shí)現(xiàn)7種不同語言的生成和理解,創(chuàng)下多語言預(yù)訓(xùn)練模型的最高記錄,同時(shí),憑借更多的常識儲備,在圖文檢索、圖像問答等任務(wù)上達(dá)到了世界領(lǐng)先水平。
文瀾的定位是解決多模態(tài)之間的語義融合問題。“我們希望創(chuàng)造出世界上最大、性能最佳的通用多模態(tài)模型,為各種現(xiàn)實(shí)應(yīng)用場景賦能?!敝袊嗣翊髮W(xué)高瓴人工智能學(xué)院執(zhí)行院長、文瀾研發(fā)團(tuán)隊(duì)總負(fù)責(zé)人文繼榮教授告訴AI科技評論。 悟道·文瀾是中國人民大學(xué)高瓴人工智能學(xué)院與北京智源研究院合作,聯(lián)合中科院和清華大學(xué)共同開展的大規(guī)模預(yù)訓(xùn)練模型研究項(xiàng)目。目前有3位核心負(fù)責(zé)人、8位科研人員,27位高校學(xué)生參加整個(gè)項(xiàng)目的統(tǒng)籌與研發(fā)工作。 文繼榮教授與同為人大高瓴人工智能學(xué)院的宋睿華副教授和盧志武教授為團(tuán)隊(duì)的核心負(fù)責(zé)人。近日,AI科技評論有幸采訪到了三位專家,與他們聊了聊文瀾背后的技術(shù)與展望。 從左到右依次為:金琴、宋睿華、文繼榮、盧志武 1 仿人類認(rèn)知思維,多模態(tài)加速推進(jìn)AGI 2021年1月6日,OpenAI同時(shí)發(fā)布兩大多模態(tài)預(yù)訓(xùn)練模型DALL·E和CLIP——前者可基于文本生成圖像,后者能夠完成圖像與文本類別的匹配。殊不知,在人們驚呼自然語言與視覺的次元壁被打破時(shí),在中國同步開發(fā)并在多項(xiàng)指標(biāo)上超過OpenAI的預(yù)訓(xùn)練語言模型——悟道.文瀾已經(jīng)誕生。 2020年10月,智源研究院與各大科研院所的AI專家們召開內(nèi)部會議,商討人工智能下一階段的研發(fā)方向,其中,研發(fā)文本與圖像互通的“多模態(tài)”模型以高票數(shù)勝出。同月,文瀾項(xiàng)目正式啟動。三個(gè)月后,在智源研究院提供算力、數(shù)據(jù)等資源的支持下,文瀾模型研發(fā)成功。
自GPT-3問世之后,國內(nèi)眾多AI專家已經(jīng)敏銳地察覺到,OpenAI下一步的目標(biāo)一定是多模態(tài)。類似于大模型,多模態(tài)將成為業(yè)內(nèi)下一個(gè)熱點(diǎn)研究方向。那么,文瀾的研發(fā)初衷只是為了與OpenAI一爭高下,或者在學(xué)術(shù)界占據(jù)高地嗎? 究竟為何要研究多模態(tài),為何要研發(fā)文瀾模型? 自然語言處理是人工智能領(lǐng)域的基礎(chǔ)研究,也是實(shí)現(xiàn)通用人工智能的關(guān)鍵性挑戰(zhàn),之所以在文瀾中融入多模態(tài),實(shí)現(xiàn)文本與圖像的連接,文繼榮教授表示, 多模態(tài)不僅要解決NLP的問題。我們認(rèn)為,多模態(tài)更符合人類認(rèn)知世界的方式。人類通過視覺和聽覺感知物理世界的過程是多模態(tài)的,通過模仿這一過程有可能從根本上解決“AI學(xué)習(xí)智能行為,而非智能本身”的問題。 人工智能的終極目標(biāo)是:讓機(jī)器擁有和人一樣的理解與思考能力。要想達(dá)到這一目標(biāo),需要無限接近于人類的認(rèn)知方式。我們生活在一個(gè)多模態(tài)的交互環(huán)境中,聽到的聲音、看到的實(shí)物、聞到的味道等,不同的模態(tài)信息讓我們更全面和高效地了解周圍的世界。 模態(tài)(Modality)是一個(gè)廣泛的概念,它代表每一種信息的來源或者形式,上述提到的聽覺、視覺、嗅覺代表不同的模態(tài)感知方式;信息的媒介中的語音、視頻、圖像、文字等代表不同的模態(tài)數(shù)據(jù)。 在自然語言理解任務(wù)中,融入圖像模態(tài)有助于AI像人類一樣學(xué)習(xí)和理解文本信息,反之亦然。 文繼榮教授舉例說,我們經(jīng)常用一些抽象的詞語來形容人或物,比如慈祥、俊朗、活力。如果只有純文字,一個(gè)呀呀學(xué)語的小孩子可能很難理解什么是慈祥,但如果給她看一張老奶奶的圖片,她可能很快就能理解。AI模型就是這樣一個(gè)小孩。 更重要的是,有了視覺模態(tài)的加持,AI模型還能極大地?cái)U(kuò)展語義信息、增強(qiáng)圖文理解能力。 據(jù)悉,在文瀾1.0版時(shí),研發(fā)團(tuán)隊(duì)已經(jīng)對多模態(tài)模型進(jìn)行了測試,看看它到底比單模態(tài)多了哪些信息。下面是兩張測試圖:左邊是用BERT文本預(yù)訓(xùn)練模型得到的結(jié)果,右邊是用UNITER多模態(tài)預(yù)訓(xùn)練模型得到的結(jié)果。
如果輸入“自行車”一詞,通過文本數(shù)據(jù)訓(xùn)練的AI,周圍出現(xiàn)了類似于自行車,摩托車,汽車等強(qiáng)相關(guān)詞匯。 而利用多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練的AI,其周圍出現(xiàn)了一些,如“騎”、“男人、女人”、“頭盔”,“停車”一類更豐富的弱相關(guān)詞匯,甚至還出現(xiàn)了“on”表示“位于車上”的詞。 這里提到的強(qiáng)相關(guān)與弱相關(guān)的概念,是文瀾研發(fā)團(tuán)隊(duì)首次認(rèn)識到并明確提出的,也是文瀾2.0取得突破性進(jìn)展的本質(zhì)原因之一。 2 “弱相關(guān)”關(guān)系,文瀾模型的底層思維 多模態(tài)從2010年后開始進(jìn)入Deep Learning階段。 在此期間,業(yè)界和學(xué)術(shù)界推出的多模態(tài)預(yù)訓(xùn)練模型不在少數(shù),且多出自國內(nèi)外頂級科研機(jī)構(gòu)?,F(xiàn)階段,主流的多模態(tài)NLP模型,除了DALL·E和CLIP外,還有阿里與清華聯(lián)合研發(fā)的M6、百度研發(fā)的ERNIE-ViL等等。 眾多高性能模型中,后來居上的文瀾為何成了世界級“領(lǐng)跑者”? 文瀾模型結(jié)構(gòu)負(fù)責(zé)人盧志武教授對此介紹了三點(diǎn),第一,文瀾是首創(chuàng)雙塔結(jié)構(gòu)(Bridging Vision and Language ,BriVL-2)進(jìn)行預(yù)訓(xùn)練的模型,與傳統(tǒng)單塔相比,BriVL-2在圖像和文本之間建立了一種“弱相關(guān)”假設(shè)。
如上,給定一張“生日蛋糕”的圖片,強(qiáng)相關(guān)模型可能會輸出——生日蛋糕的蠟燭在燃燒,本文內(nèi)容基本與圖片保持一致,而弱相關(guān)則可能輸出——今天的減肥計(jì)劃又泡湯了,它嘗試從更高的內(nèi)涵層次上理解圖像信息。 換言之,弱相關(guān)使文瀾模型對文本/圖像信息的理解不僅局限于“等價(jià)”關(guān)聯(lián),而是進(jìn)一步擴(kuò)展到了“場景”關(guān)聯(lián)、“因果”關(guān)聯(lián)等。 事實(shí)上,多模態(tài)之間的語義融合問題一直是人工智能領(lǐng)域一項(xiàng)極具挑戰(zhàn)性的工作。2005年,《Nature》期刊曾發(fā)表一篇文章,表明人類對同一實(shí)體的圖像和文字兩種模態(tài)的認(rèn)知是在同一神經(jīng)元上激活的,二者會被映射到同一個(gè)空間。
類似地,為了模仿人腦的建模過程,AI模型在預(yù)訓(xùn)練過程中,通常會事先把數(shù)據(jù)集中的圖像編碼成一個(gè)高維向量,當(dāng)用戶輸入文字時(shí),再將文字向量映射到同一個(gè)空間,最后通過向量檢索,獲取相應(yīng)的圖片。 該過程的關(guān)鍵在于,文本和圖像的語義信息是否實(shí)現(xiàn)對齊、融合。 文繼榮教授介紹稱,這項(xiàng)任務(wù)看似簡單,實(shí)則難度極高。而文瀾成功將兩種模態(tài)的語義映射到了同一空間,并獲得相同的表達(dá)。這項(xiàng)突破性進(jìn)展,攻克了計(jì)算機(jī)視覺研究長期以來無法解決的難題。 第二,文瀾2.0所使用的訓(xùn)練圖文數(shù)據(jù)集從3000萬升級到了6.5億,且數(shù)據(jù)全部抓取自互聯(lián)網(wǎng)。 據(jù)悉,DALL·E采用的是Image數(shù)據(jù)集,其文本數(shù)據(jù)多為一些名詞概念,相對固化,而文瀾的6.5億圖文數(shù)據(jù)來自現(xiàn)實(shí)世界,自然而真實(shí)。更重要是,文瀾的弱相關(guān)性假設(shè),使數(shù)據(jù)無需標(biāo)注成為可能。 第三、文瀾支持整個(gè)句子的理解,而非關(guān)鍵詞。這是它與瀏覽器搜索最顯著的區(qū)別。比如,在《布靈的想象世界》中輸入“憂郁的蛋糕”,它會呈現(xiàn)一個(gè)以黑色調(diào)為背景的蛋糕圖片。宋睿華教授介紹稱,文瀾能夠通過抽象性文字呈現(xiàn)出一種氛圍,而不是僅focus一個(gè)關(guān)鍵詞。 基于以上核心能力,文瀾已經(jīng)具備文檢索圖、文生成圖、圖檢索文、圖生成文四種功能。目前研發(fā)團(tuán)隊(duì)利用圖檢索文、文檢索圖兩項(xiàng)核心功能開發(fā)了應(yīng)用小程序《AI心情電臺》和《布靈的想象世界》,首次實(shí)現(xiàn)了高效的跨模態(tài)檢索。
此外,中科院計(jì)算所團(tuán)隊(duì)還在文瀾多模態(tài)的基礎(chǔ)上開發(fā)了應(yīng)用《只言片語》,考察文瀾模型的語言理解能力與人類玩家的相似度。這個(gè)應(yīng)用包括“默契大考驗(yàn)”和“看看誰懂我”兩種模式,是首個(gè)AI加持的在線桌游,也是一種新模式的圖靈測試。
在游戲的過程中,一名玩家隨機(jī)挑選一張圖片,并給出與之相關(guān)的文字描述。另一位玩家根據(jù)出題人玩家的描述從文瀾給出的干擾項(xiàng)中挑選出正確的圖片。如果兩位玩家的圖片不一致,說明文瀾對文本的精準(zhǔn)理解對人類產(chǎn)生了干擾,即通過了圖靈測試。
以往的圖靈測試都是以數(shù)據(jù)標(biāo)注的形式進(jìn)行,過程通??菰锓ξ叮弧爸谎云Z“采用小游戲的形式,在給玩家?guī)順啡さ耐瑫r(shí),通過測試模型檢索到的圖片是否能夠迷惑人類,從而評估了圖文匹配模型的能力。 3 逼近圖靈測試,探秘AI“潛意識” 沒有常識的AI,永遠(yuǎn)無法實(shí)現(xiàn)真正的智能。 2021北京智源大會,宋睿華教授在題為《我們賴以生存的意義和超大規(guī)模多模態(tài)預(yù)訓(xùn)練》的主旨演講中,提出“僅通過文字,AI很難像人類那樣將語言理解成意義”,她大膽預(yù)言:對多模態(tài)的研究可能會帶來自然語言理解的重大突破, 多模態(tài)將是AI開啟常識之門的鑰匙。
在邁向通用人工智能的路上,常識是AI必須要解決的基本問題。然而,以GPT-3為代表的超大規(guī)模預(yù)訓(xùn)練模型,并不足以解決這一問題。盡管“大模型”帶來了超乎想象的性能表現(xiàn),但它與圖靈測試仍相距甚遠(yuǎn)。 其實(shí),GPT-3并非完全不具備常識,而是受限于單模態(tài)的信息獲取方式,導(dǎo)致其常識性不足。眾所周知,大部分常識是不言而喻的,我們并不會直接表達(dá)出來,比如太陽有幾只眼睛?鉛筆與烤面包機(jī)哪一個(gè)更重?換言之,凡是沒有采用文本方式進(jìn)行表達(dá)的常識,都不能為GPT-3所學(xué)習(xí)。
毫無疑問,相比于單模態(tài),文瀾能夠從圖文融合的多模態(tài)中獲取到更多的常識。文繼榮教授表示,常識是無窮無盡,文瀾從圖文模態(tài)學(xué)習(xí)到了哪些常識,不能學(xué)習(xí)哪些常識,目前仍在進(jìn)一步研究中。但可以確定的是,多模態(tài)為AI擁有常識提供了一條最富潛力的路徑。 區(qū)別于科學(xué)知識,常識主要來源于人們對一般日常生活的感性認(rèn)識和經(jīng)驗(yàn)總結(jié)。由于未通過圖靈測試,GPT-3被認(rèn)為不具備人類的感知思維,它無法超越數(shù)據(jù)本身,也無法擁有組合性推理的能力,其生成能力不過是統(tǒng)計(jì)層面的“復(fù)制粘貼”能力。 為了測試文瀾是否學(xué)到了語義信息,并擁有了真正的理解能力。研發(fā)團(tuán)隊(duì)對文瀾的“潛意識”過程進(jìn)行了可視化,即告訴文瀾一個(gè)概念,讓它以圖像的形式呈現(xiàn)出“大腦”對這一概念最原始的理解與想象。例如,輸入夢境、科學(xué)、自然。 如上圖,經(jīng)過多模態(tài)預(yù)訓(xùn)練后的文瀾,基本能夠“看到”抽象的人類概念,并且不同于CLIP模型,這些可視化結(jié)果未經(jīng)人為干預(yù)和手工挑選,是模型對輸入概念的第一反應(yīng)。這說明,文瀾的生成能力并非基于單純的數(shù)據(jù)統(tǒng)計(jì),而是對文字本身有了內(nèi)涵上的理解。 除了抽象概念,文瀾也能對句子、詩詞想象出意境。如輸入【大漠孤煙直,長河落日圓】,雖然沒有明顯的孤煙、長河、落日等意象,但整體棕黃色的氛圍確實(shí)體現(xiàn)了大漠的環(huán)境。
通過神經(jīng)元可視化,我們得以窺見文瀾的內(nèi)心世界,了解其最原始的、最真實(shí)的、在“潛意識”中對于輸入文本的獨(dú)特理解。文瀾團(tuán)隊(duì)介紹稱,不同于圖文檢索能力,神經(jīng)元可視化展現(xiàn)了文瀾在藝術(shù)生成方面的潛力,下一階段團(tuán)隊(duì)將重點(diǎn)培養(yǎng)其審美能力,使其創(chuàng)作出更好的藝術(shù)作品。 4 總結(jié) 遵循“煉大模型”的基本原則,文瀾使用6.5萬億真實(shí)的圖文對進(jìn)行預(yù)訓(xùn)練,參數(shù)量達(dá)到了10億。在此基礎(chǔ)上,它嘗試從多模態(tài)場景出發(fā),模擬人類的認(rèn)知思維,獨(dú)創(chuàng)性地提出了基于跨模態(tài)對比學(xué)習(xí)的雙塔結(jié)構(gòu)。 該結(jié)構(gòu)利用圖-文的弱相關(guān)性假設(shè),為文瀾提供了更豐富的語義信息和更強(qiáng)大的理解能力,并通過神經(jīng)元可視化得到了最佳驗(yàn)證。此外,在公開VQA數(shù)據(jù)集Visual7W的視覺問答測試任務(wù)中,文瀾能額外帶來8%的增長,展示了多模態(tài)預(yù)訓(xùn)練的常識學(xué)習(xí)能力。 總結(jié)來看,悟道·文瀾在研發(fā)過程中重點(diǎn)關(guān)注三個(gè)方面,一是如何利用現(xiàn)有的單模態(tài)預(yù)訓(xùn)練大模型的研究成果;二是如何更好地刻畫互聯(lián)網(wǎng)上圖文弱相關(guān)的關(guān)系;三是如何讓模型學(xué)習(xí)到更多常識;針對以上問題,文瀾已經(jīng)揭開了答案的一角。 《布靈的想象世界》 《AI心情電臺》 《只言片語》 悟道·文瀾API地址: 只言片語應(yīng)用地址: 【單人可分享測試版】:http://120.92.50.21:6177/ 【雙人默契度測試版】:http://120.92.50.21:6177/double 由于微信公眾號試行亂序推送,您可能不再能準(zhǔn)時(shí)收到AI科技評論的推送。為了第一時(shí)間收到AI科技評論的報(bào)道, 請將“AI科技評論”設(shè)為星標(biāo)賬號,以及常點(diǎn)文末右下角的“在看”。 |
|