近日,國際計(jì)算語言學(xué)協(xié)會年會ACL在官網(wǎng)(https://www.)公布了2020年度的論文收錄名單,其中騰訊共有30篇論文入選,入選論文數(shù)刷新國內(nèi)企業(yè)記錄,領(lǐng)跑國內(nèi)業(yè)界AI研究第一梯隊(duì)。
國際計(jì)算語言學(xué)協(xié)會(The Association for Computational Linguistics),于1962年成立,在AI領(lǐng)域已經(jīng)發(fā)展成為影響力最大、最具活力的國際學(xué)術(shù)組織之一,其會員遍布世界各地。而且尤其值得一提的是,隨著國內(nèi)企業(yè)在AI領(lǐng)域不斷取得突破,百度基礎(chǔ)技術(shù)首席科學(xué)家王海峰曾經(jīng)擔(dān)任在2013年-2018年擔(dān)任ACL的主席,也成為該組織歷史上第一位華人主席。而且騰訊最近在AI領(lǐng)域突破不斷,先是王者榮耀的“絕悟”吊打了一眾玩家,而本次又在自然語言處理方面取得突破,充分展示了其全棧AI的實(shí)力。與“絕悟”的強(qiáng)化學(xué)習(xí)不同,自然語言處理方面主要的AI模型還是神經(jīng)網(wǎng)絡(luò)。從目前騰訊ACL入選論文清單來看,有20篇來自騰訊AI Lab團(tuán)隊(duì),7篇來自微信AI團(tuán)隊(duì),CSIG智能平臺部和QQ研究團(tuán)隊(duì)也分別有論文入選,研究方向涵蓋對話及文本生成、機(jī)器翻譯及對話、多模信息抽取多個(gè)自然語言處理的重點(diǎn)領(lǐng)域。如果將數(shù)據(jù)比作這個(gè)數(shù)字時(shí)代的石油,那么騰訊豐富的業(yè)務(wù)場景與龐大的用戶基數(shù),就為其AI團(tuán)隊(duì)提供了世界上最大的原油儲存基地,這些都為前沿的AI研究成果提供了令整個(gè)業(yè)界都非常羨慕的絕佳“訓(xùn)練場”,而擁有了這樣高的訓(xùn)練水平,騰訊在AI方面能夠取得頂級成果也就不足為奇了。下面筆者就帶大家來深度解讀一下這30篇論文背后豐富的技術(shù)內(nèi)涵。正如前文所述騰訊本次的論文主要集中文本生成、機(jī)器翻譯及對話、多模信息等領(lǐng)域,先帶大家來解讀一下這個(gè)幾領(lǐng)域的基本情況:文本生成:這個(gè)領(lǐng)域之所以會抱得大名,主要還是因?yàn)椤稒?quán)力的游戲》第八季崩盤,在一片“爛尾結(jié)局”的評價(jià)聲中落下帷幕。而隨后,便有極客便用 OpenAI 提出的 GPT-2 文本生成模型進(jìn)行了實(shí)踐。模型學(xué)習(xí)的是《冰與火之歌》原著,最終輸出了一個(gè)大結(jié)局,結(jié)果得到很多網(wǎng)友的好評,這也讓人們不禁驚呼,原來AI還能寫小說。多模態(tài)特征提取與翻譯:目前尤其是90后,在對話當(dāng)中經(jīng)常使用表情圖、動態(tài)圖等方式來表達(dá)情感,而將這些非語言信息的語義提取并翻譯出來,就是多模態(tài)提取的任務(wù)了。對話系統(tǒng):其實(shí)筆者在經(jīng)歷異地戀的時(shí)候也曾經(jīng)做過一款基于Windows Mobile MSN的對話機(jī)器人(https://blog.csdn.net/BEYONDMA/article/details/99690305),不過現(xiàn)在微信基于海量對話信息制作的聊天機(jī)器人,已經(jīng)真假難辯了。而對話系統(tǒng)與文本生成最大的不同之處在于,對話系統(tǒng)一般只生成短句,語義群較少,而文本生成系統(tǒng)則恰恰相反。騰訊在自然語言處理領(lǐng)域有天量數(shù)據(jù)的加持,比如微信智聆每天處理超過 4 億條語音,識別準(zhǔn)確率為 97%,服務(wù)于騰訊內(nèi)外超過 100 項(xiàng)業(yè)務(wù)。而且微信AI團(tuán)隊(duì),還提供語音輸入轉(zhuǎn)文字、掃一掃的掃碼 / 封面和翻譯、聊天機(jī)器人、搖一搖 - 音樂 / 電視、聲紋鎖等功能,每項(xiàng)業(yè)務(wù)的日均使用次數(shù)都近十億的量級,這也造就了騰訊在多模態(tài)和對話系統(tǒng)等方面的領(lǐng)先地位。 自回歸與自編碼-自然語言處理的少林與武當(dāng)自然語言處理分為兩大門派一個(gè)是以O(shè)penAI的GPT為代表自回歸(AR)另一個(gè)是以谷歌BERT為代表的自編碼(AD),在我們正式解讀代表論文之前,我們先對這兩大流派進(jìn)行一下介紹。自回歸模型:通俗的講自回歸就是使用自身做回歸變量的過程,一般說來記為以下的形式。也就是說自回歸模型假定t時(shí)刻的序列(Xt)可以利用前期若干時(shí)刻的隨機(jī)變量的線性組合來描述。 因式分解:我們來說一下什么是自然語言處理中的因式分解,先復(fù)習(xí)一下貝葉斯公式,它描述隨機(jī)事件 A 和 B 的條件概率,其中P(A|B)是在 B 發(fā)生的情況下 A 發(fā)生的可能性。假設(shè)我們I、love、you三個(gè)單詞分別對應(yīng)向量:X_1、X_2、X_3,那么如果我們要建?!盜 love you”這句話,其實(shí)就要通過貝葉斯公式解出,在自然數(shù)據(jù)這個(gè)序列出現(xiàn)的聯(lián)合概率分布 P(X_1,X_2,X_3)。根據(jù)詞語之間的相互聯(lián)系,我們除需要統(tǒng)計(jì)P(X_1)、P(X_2)、P(X_3)三個(gè)概率是不夠的。因?yàn)閄_1還依賴于其它變量存在條件分布 P(X_2|X_1) 和 P(X_3|X_1)。對于X_2和X_3也是一樣,我們可以將這三個(gè)模型組合起來獲得期望聯(lián)合分布 P(X_1,X_2,X_3)=P(X_1)P(X_2|X_1)P(X_3|X_1,X_2) 一般來說,變量的每個(gè)可能的排序都存在自回歸因式分解。在有N個(gè)變量的問題中,就存在 N! 個(gè)因式分解。在上面提到的三個(gè)變量的例子中,我們可以列舉出六個(gè)自回歸因式分解,當(dāng)然在AR模型中都考慮了順序信息,不會計(jì)算所有的因式分解,讀到這里可能讀者也就明白了,AR模型其實(shí)就是通過貝葉斯因式分解的方式來計(jì)算輸入序列的概率密度。那么其劣勢也就比較明顯了,由于輸入序列有方向性,所以AR模式只能拉收正向或者反向單向信息。而后面我們后面解讀到的論文中也會提到,對這方面的改進(jìn),也是騰訊的一個(gè)創(chuàng)新點(diǎn)。自編碼模型:自編碼思想是利用被人為損壞的輸入序列重建原始數(shù)據(jù)。比如BERT,它利用一個(gè)特殊符號[MASK]替換特定部分,并訓(xùn)練模型從損壞的版本中恢復(fù)原始的信息,如果以圖像處理類比,自編碼就是先用計(jì)算機(jī)為圖像打上馬賽克,然后再通過訓(xùn)練使計(jì)算機(jī)掌握去掉馬賽克的算法。那么自編碼的優(yōu)勢就是他完全可以利用雙向的信息,來建構(gòu)模型,不過劣勢也非常明顯,就是在真實(shí)環(huán)境下是不存在MASK部分的,這讓自編碼模型的訓(xùn)練集與預(yù)測數(shù)據(jù)集存在差異,而且自編碼模型也無法計(jì)算概率密度。比如在騰訊微信AI團(tuán)隊(duì)的《Learning to Recover from Multi-Modality Errors for Non-Autoregressive Neural Machine Translation》論文中,就提出了非自回歸神經(jīng)機(jī)器翻譯的模型,不但能預(yù)測目標(biāo)句子中的所有詞,還能夠顯著加速預(yù)測過程。正如我們上文介紹的那樣,非自回歸神經(jīng)機(jī)器翻譯模型往往會忽略輸出結(jié)果中詞與詞之間的依賴信息,以致存在多峰問題,經(jīng)常表現(xiàn)出重復(fù)詞和缺詞的情況。因此騰訊微信AI團(tuán)隊(duì)提出一種半自回歸模型,該模型將目標(biāo)句子分成多個(gè)段,在進(jìn)行預(yù)測測時(shí),同時(shí)生成這些段,而每個(gè)段則是逐詞生成。通過動態(tài)控制每個(gè)段的長度和刪除重復(fù)段,該模型能夠從重復(fù)詞和缺詞錯(cuò)誤中恢復(fù)。實(shí)驗(yàn)結(jié)果表明,這種方法在取得至少4倍加速效果,為進(jìn)一步縮小非自回歸/半自回歸模型與自回歸模型的效果差異提供了一種有益的解決方法。大概是今天這篇文章寫作時(shí)間正值“521”期間,而且是有關(guān)聊天機(jī)器人的,因此我家領(lǐng)導(dǎo)強(qiáng)烈要求,我在文章結(jié)尾,加上如何分辨男友是否正在使用機(jī)器人的攻略。這個(gè)問題無獨(dú)有偶,其實(shí)隨著多模態(tài)和對話系統(tǒng)的發(fā)展,互聯(lián)網(wǎng)上由AI創(chuàng)造的虛擬人物越來越多,比如一位在頂級智庫工作的女政治家Katie Jones,她擁有由一批專家和權(quán)威人士組成的關(guān)系網(wǎng)。她與一名助理國務(wù)卿、一名參議員的高級助理以及經(jīng)濟(jì)學(xué)家 Paul Winfree 都有聯(lián)系,而且搜索引擎上也能查到相應(yīng)的新聞報(bào)道,不過這位女士其實(shí)并不存在,對此美聯(lián)社已經(jīng)作出確認(rèn),其面部信息是合成的,其相關(guān)新聞都是AI捉刀寫的,而令人恐怖的是,這樣的人造人在臉書上還有幾萬個(gè)。 不過與上述靜態(tài)的虛擬人物不同,聊天機(jī)器人是需要實(shí)時(shí)互動的,那么在互動中就必然會露出一定的破綻,而且聊天機(jī)器人學(xué)習(xí)了那么多的聊天套路,肯定會比絕大多數(shù)男性的嘴更甜,更會照顧他人的情緒,所以當(dāng)妹子們感覺到程序員老公的話突然不那么直男,變得順耳了,可能反而要提高警覺了,下面把一些原則分享給大家。一、求生題:在求生題中比較經(jīng)典的如“媽媽和女友都跳河里了,先救誰”等等類似的題目,可是根本就難不倒機(jī)器人的,或者說機(jī)器人長期接受這種求生題的訓(xùn)練,所以這種題就是機(jī)器人最擅長的,所以如果男友對于這種題都特別輕松的給出答案,那么其使用機(jī)器人的概率恐怕不低于80%。二、話外音:一般男性的思維方式比較直接,而女性相對比較含蓄,所以絕大多數(shù)的男人都不太聽得出女友的話外音,不過正如我們前文所述,聊天機(jī)器人對于多模信息的提取是吊打絕大多數(shù)男性的,可以輕松得從表情圖、動態(tài)圖中提取到說話者的意思,因此如果男友能接得住你的話外音,那么其使用機(jī)器人的概念就不低于90%了。三、事實(shí)題:機(jī)器人畢竟是機(jī)器人,對于一些事實(shí)的問題,還是不在機(jī)器訓(xùn)練集中的,比如生日、紀(jì)念日、工作地點(diǎn)等信息問題,機(jī)器還是無法直接告訴你正確答案的,因此在談到這些有準(zhǔn)確答案的事實(shí)問題時(shí),如果男友都是回避掉事實(shí)答案,轉(zhuǎn)而維護(hù)你的情緒,那么基本上可以肯定他是使用了機(jī)器人了。 在AI領(lǐng)域,騰訊已開源Angel、NCNN等數(shù)十個(gè)優(yōu)質(zhì)項(xiàng)目。針對業(yè)界現(xiàn)有的中文詞向量公開數(shù)據(jù)的稀缺和不足,騰訊也開源了大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù),也期待騰訊未來開源更多的AI項(xiàng)目,為整個(gè)行業(yè)的發(fā)展做出更大的貢獻(xiàn)!本文為作者原創(chuàng)投稿,轉(zhuǎn)載請經(jīng)授權(quán)!
|