絕悟之后再超神，騰訊30篇論文入選AI頂會ACL

kaller_cui 2020-05-25

展開全文

近日，國際計(jì)算語言學(xué)協(xié)會年會ACL在官網(wǎng)(https://www.)公布了2020年度的論文收錄名單，其中騰訊共有30篇論文入選，入選論文數(shù)刷新國內(nèi)企業(yè)記錄，領(lǐng)跑國內(nèi)業(yè)界AI研究第一梯隊(duì)。

國際計(jì)算語言學(xué)協(xié)會(The Association for Computational Linguistics)，于1962年成立，在AI領(lǐng)域已經(jīng)發(fā)展成為影響力最大、最具活力的國際學(xué)術(shù)組織之一，其會員遍布世界各地。而且尤其值得一提的是，隨著國內(nèi)企業(yè)在AI領(lǐng)域不斷取得突破，百度基礎(chǔ)技術(shù)首席科學(xué)家王海峰曾經(jīng)擔(dān)任在2013年-2018年擔(dān)任ACL的主席，也成為該組織歷史上第一位華人主席。

而且騰訊最近在AI領(lǐng)域突破不斷，先是王者榮耀的“絕悟”吊打了一眾玩家，而本次又在自然語言處理方面取得突破，充分展示了其全棧AI的實(shí)力。與“絕悟”的強(qiáng)化學(xué)習(xí)不同，自然語言處理方面主要的AI模型還是神經(jīng)網(wǎng)絡(luò)。從目前騰訊ACL入選論文清單來看，有20篇來自騰訊AI Lab團(tuán)隊(duì)，7篇來自微信AI團(tuán)隊(duì)，CSIG智能平臺部和QQ研究團(tuán)隊(duì)也分別有論文入選，研究方向涵蓋對話及文本生成、機(jī)器翻譯及對話、多模信息抽取多個(gè)自然語言處理的重點(diǎn)領(lǐng)域。

如果將數(shù)據(jù)比作這個(gè)數(shù)字時(shí)代的石油，那么騰訊豐富的業(yè)務(wù)場景與龐大的用戶基數(shù)，就為其AI團(tuán)隊(duì)提供了世界上最大的原油儲存基地，這些都為前沿的AI研究成果提供了令整個(gè)業(yè)界都非常羨慕的絕佳“訓(xùn)練場”，而擁有了這樣高的訓(xùn)練水平，騰訊在AI方面能夠取得頂級成果也就不足為奇了。下面筆者就帶大家來深度解讀一下這30篇論文背后豐富的技術(shù)內(nèi)涵。

多模與對話-騰訊的主戰(zhàn)場

正如前文所述騰訊本次的論文主要集中文本生成、機(jī)器翻譯及對話、多模信息等領(lǐng)域，先帶大家來解讀一下這個(gè)幾領(lǐng)域的基本情況：

文本生成：這個(gè)領(lǐng)域之所以會抱得大名，主要還是因?yàn)椤稒?quán)力的游戲》第八季崩盤，在一片“爛尾結(jié)局”的評價(jià)聲中落下帷幕。而隨后，便有極客便用 OpenAI 提出的 GPT-2 文本生成模型進(jìn)行了實(shí)踐。模型學(xué)習(xí)的是《冰與火之歌》原著，最終輸出了一個(gè)大結(jié)局，結(jié)果得到很多網(wǎng)友的好評，這也讓人們不禁驚呼，原來AI還能寫小說。

多模態(tài)特征提取與翻譯：目前尤其是90后，在對話當(dāng)中經(jīng)常使用表情圖、動態(tài)圖等方式來表達(dá)情感，而將這些非語言信息的語義提取并翻譯出來，就是多模態(tài)提取的任務(wù)了。

對話系統(tǒng)：其實(shí)筆者在經(jīng)歷異地戀的時(shí)候也曾經(jīng)做過一款基于Windows Mobile MSN的對話機(jī)器人（https://blog.csdn.net/BEYONDMA/article/details/99690305），不過現(xiàn)在微信基于海量對話信息制作的聊天機(jī)器人，已經(jīng)真假難辯了。而對話系統(tǒng)與文本生成最大的不同之處在于，對話系統(tǒng)一般只生成短句，語義群較少，而文本生成系統(tǒng)則恰恰相反。

騰訊在自然語言處理領(lǐng)域有天量數(shù)據(jù)的加持，比如微信智聆每天處理超過 4 億條語音，識別準(zhǔn)確率為 97%，服務(wù)于騰訊內(nèi)外超過 100 項(xiàng)業(yè)務(wù)。而且微信AI團(tuán)隊(duì)，還提供語音輸入轉(zhuǎn)文字、掃一掃的掃碼 / 封面和翻譯、聊天機(jī)器人、搖一搖 - 音樂 / 電視、聲紋鎖等功能，每項(xiàng)業(yè)務(wù)的日均使用次數(shù)都近十億的量級，這也造就了騰訊在多模態(tài)和對話系統(tǒng)等方面的領(lǐng)先地位。

自回歸與自編碼-自然語言處理的少林與武當(dāng)

自然語言處理分為兩大門派一個(gè)是以O(shè)penAI的GPT為代表自回歸（AR)另一個(gè)是以谷歌BERT為代表的自編碼（AD)，在我們正式解讀代表論文之前，我們先對這兩大流派進(jìn)行一下介紹。

自回歸模型：通俗的講自回歸就是使用自身做回歸變量的過程，一般說來記為以下的形式。

也就是說自回歸模型假定t時(shí)刻的序列（Xt）可以利用前期若干時(shí)刻的隨機(jī)變量的線性組合來描述。

因式分解：我們來說一下什么是自然語言處理中的因式分解，先復(fù)習(xí)一下貝葉斯公式，它描述隨機(jī)事件 A 和 B 的條件概率,其中P(A|B)是在 B 發(fā)生的情況下 A 發(fā)生的可能性。

假設(shè)我們I、love、you三個(gè)單詞分別對應(yīng)向量：X_1、X_2、X_3，那么如果我們要建?！盜 love you”這句話，其實(shí)就要通過貝葉斯公式解出，在自然數(shù)據(jù)這個(gè)序列出現(xiàn)的聯(lián)合概率分布 P(X_1,X_2,X_3)。

根據(jù)詞語之間的相互聯(lián)系，我們除需要統(tǒng)計(jì)P(X_1)、P(X_2)、P(X_3)三個(gè)概率是不夠的。因?yàn)閄_1還依賴于其它變量存在條件分布 P(X_2|X_1) 和 P(X_3|X_1)。對于X_2和X_3也是一樣，我們可以將這三個(gè)模型組合起來獲得期望聯(lián)合分布 P(X_1,X_2,X_3)=P(X_1)P(X_2|X_1)P(X_3|X_1,X_2)

一般來說，變量的每個(gè)可能的排序都存在自回歸因式分解。在有N個(gè)變量的問題中，就存在 N! 個(gè)因式分解。在上面提到的三個(gè)變量的例子中，我們可以列舉出六個(gè)自回歸因式分解，當(dāng)然在AR模型中都考慮了順序信息，不會計(jì)算所有的因式分解，讀到這里可能讀者也就明白了，AR模型其實(shí)就是通過貝葉斯因式分解的方式來計(jì)算輸入序列的概率密度。那么其劣勢也就比較明顯了，由于輸入序列有方向性，所以AR模式只能拉收正向或者反向單向信息。而后面我們后面解讀到的論文中也會提到，對這方面的改進(jìn)，也是騰訊的一個(gè)創(chuàng)新點(diǎn)。

自編碼模型：自編碼思想是利用被人為損壞的輸入序列重建原始數(shù)據(jù)。比如BERT，它利用一個(gè)特殊符號[MASK]替換特定部分，并訓(xùn)練模型從損壞的版本中恢復(fù)原始的信息，如果以圖像處理類比，自編碼就是先用計(jì)算機(jī)為圖像打上馬賽克，然后再通過訓(xùn)練使計(jì)算機(jī)掌握去掉馬賽克的算法。那么自編碼的優(yōu)勢就是他完全可以利用雙向的信息，來建構(gòu)模型，不過劣勢也非常明顯，就是在真實(shí)環(huán)境下是不存在MASK部分的，這讓自編碼模型的訓(xùn)練集與預(yù)測數(shù)據(jù)集存在差異，而且自編碼模型也無法計(jì)算概率密度。

比如在騰訊微信AI團(tuán)隊(duì)的《Learning to Recover from Multi-Modality Errors for Non-Autoregressive Neural Machine Translation》論文中，就提出了非自回歸神經(jīng)機(jī)器翻譯的模型，不但能預(yù)測目標(biāo)句子中的所有詞，還能夠顯著加速預(yù)測過程。

正如我們上文介紹的那樣，非自回歸神經(jīng)機(jī)器翻譯模型往往會忽略輸出結(jié)果中詞與詞之間的依賴信息，以致存在多峰問題，經(jīng)常表現(xiàn)出重復(fù)詞和缺詞的情況。

因此騰訊微信AI團(tuán)隊(duì)提出一種半自回歸模型，該模型將目標(biāo)句子分成多個(gè)段，在進(jìn)行預(yù)測測時(shí)，同時(shí)生成這些段，而每個(gè)段則是逐詞生成。通過動態(tài)控制每個(gè)段的長度和刪除重復(fù)段，該模型能夠從重復(fù)詞和缺詞錯(cuò)誤中恢復(fù)。實(shí)驗(yàn)結(jié)果表明，這種方法在取得至少4倍加速效果，為進(jìn)一步縮小非自回歸/半自回歸模型與自回歸模型的效果差異提供了一種有益的解決方法。

到底是聊天機(jī)器人還是男友本尊

大概是今天這篇文章寫作時(shí)間正值“521”期間，而且是有關(guān)聊天機(jī)器人的，因此我家領(lǐng)導(dǎo)強(qiáng)烈要求，我在文章結(jié)尾，加上如何分辨男友是否正在使用機(jī)器人的攻略。

這個(gè)問題無獨(dú)有偶，其實(shí)隨著多模態(tài)和對話系統(tǒng)的發(fā)展，互聯(lián)網(wǎng)上由AI創(chuàng)造的虛擬人物越來越多，比如一位在頂級智庫工作的女政治家Katie Jones，她擁有由一批專家和權(quán)威人士組成的關(guān)系網(wǎng)。她與一名助理國務(wù)卿、一名參議員的高級助理以及經(jīng)濟(jì)學(xué)家 Paul Winfree 都有聯(lián)系，而且搜索引擎上也能查到相應(yīng)的新聞報(bào)道，不過這位女士其實(shí)并不存在，對此美聯(lián)社已經(jīng)作出確認(rèn)，其面部信息是合成的，其相關(guān)新聞都是AI捉刀寫的，而令人恐怖的是，這樣的人造人在臉書上還有幾萬個(gè)。

不過與上述靜態(tài)的虛擬人物不同，聊天機(jī)器人是需要實(shí)時(shí)互動的，那么在互動中就必然會露出一定的破綻，而且聊天機(jī)器人學(xué)習(xí)了那么多的聊天套路，肯定會比絕大多數(shù)男性的嘴更甜，更會照顧他人的情緒，所以當(dāng)妹子們感覺到程序員老公的話突然不那么直男，變得順耳了，可能反而要提高警覺了，下面把一些原則分享給大家。

一、求生題：在求生題中比較經(jīng)典的如“媽媽和女友都跳河里了，先救誰”等等類似的題目，可是根本就難不倒機(jī)器人的，或者說機(jī)器人長期接受這種求生題的訓(xùn)練，所以這種題就是機(jī)器人最擅長的，所以如果男友對于這種題都特別輕松的給出答案，那么其使用機(jī)器人的概率恐怕不低于80%。

二、話外音：一般男性的思維方式比較直接，而女性相對比較含蓄，所以絕大多數(shù)的男人都不太聽得出女友的話外音，不過正如我們前文所述，聊天機(jī)器人對于多模信息的提取是吊打絕大多數(shù)男性的，可以輕松得從表情圖、動態(tài)圖中提取到說話者的意思，因此如果男友能接得住你的話外音，那么其使用機(jī)器人的概念就不低于90%了。

三、事實(shí)題：機(jī)器人畢竟是機(jī)器人，對于一些事實(shí)的問題，還是不在機(jī)器訓(xùn)練集中的，比如生日、紀(jì)念日、工作地點(diǎn)等信息問題，機(jī)器還是無法直接告訴你正確答案的，因此在談到這些有準(zhǔn)確答案的事實(shí)問題時(shí)，如果男友都是回避掉事實(shí)答案，轉(zhuǎn)而維護(hù)你的情緒，那么基本上可以肯定他是使用了機(jī)器人了。

在AI領(lǐng)域，騰訊已開源Angel、NCNN等數(shù)十個(gè)優(yōu)質(zhì)項(xiàng)目。針對業(yè)界現(xiàn)有的中文詞向量公開數(shù)據(jù)的稀缺和不足，騰訊也開源了大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù)，也期待騰訊未來開源更多的AI項(xiàng)目，為整個(gè)行業(yè)的發(fā)展做出更大的貢獻(xiàn)！

本文為作者原創(chuàng)投稿，轉(zhuǎn)載請經(jīng)授權(quán)！

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： kaller_cui > 《大數(shù)據(jù)》

舉報(bào)/認(rèn)領(lǐng)