【原】GPT-2：OpenAI的NLP商業(yè)化野望

腦極體 2020-10-30

展開(kāi)全文

自然語(yǔ)言處理（NLP）技術(shù)正在生活的方方面面改變著我們的生活。

客廳的智能音箱在跟你每天的對(duì)話中飛速進(jìn)步，甚至開(kāi)始跟你“插科打諢”來(lái)適應(yīng)你的愛(ài)好習(xí)慣。

電商客服總是能在第一時(shí)間回復(fù)，可能處理完你的問(wèn)題，你也并未發(fā)覺(jué)TA可能只是一個(gè)智能客服?，F(xiàn)實(shí)版的“圖靈測(cè)試”每天都在發(fā)生。

經(jīng)常查閱外文資料的你也許早已習(xí)慣網(wǎng)頁(yè)或幾家搜索引擎的一鍵翻譯，譯文的質(zhì)量好到讓你覺(jué)得學(xué)外語(yǔ)的時(shí)間純屬浪費(fèi)。

閑來(lái)無(wú)聊當(dāng)你刷信息流或者短視頻，總是事后發(fā)現(xiàn)沉迷其中的時(shí)間越來(lái)越多，其實(shí)背后正是自然語(yǔ)言算法平臺(tái)在根據(jù)你的瀏覽習(xí)慣、注意力時(shí)長(zhǎng)來(lái)進(jìn)行的優(yōu)化推薦。

由果溯因，我們希望簡(jiǎn)單回顧近幾年NLP的躍遷升級(jí)，沿著這條技術(shù)洪流一直溯源?；氐剿闯渑?、水系林立的技術(shù)源頭，來(lái)理解NLP演進(jìn)的脈絡(luò)。

NLP兩強(qiáng)爭(zhēng)霸：

OpenAI與GPT-2 的“倔強(qiáng)”進(jìn)擊

關(guān)注NLP的人們一定知道，2018年是NLP領(lǐng)域發(fā)展的大年。

2018年6月，OpenAI發(fā)表了題為《Improving Language Understanding by Generative Pre-Training》的論文，提出基于“預(yù)訓(xùn)練語(yǔ)言模型”的GPT，它首先利用了Transformer網(wǎng)絡(luò)代替了LSTM作為語(yǔ)言模型，并在12個(gè)NLP任務(wù)中的9個(gè)任務(wù)獲得了SOTA的表現(xiàn)。但種種原因GPT并未獲得更大關(guān)注。

GPT的基本處理方式是在大規(guī)模語(yǔ)料上進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練，再在小得多的有監(jiān)督數(shù)據(jù)集上為具體任務(wù)進(jìn)行精細(xì)調(diào)節(jié)（fine-tune）的方式，不依賴針對(duì)單獨(dú)任務(wù)的模型設(shè)計(jì)技巧，可以一次性在多個(gè)任務(wù)中取得很好的表現(xiàn)。

直到10月，谷歌的BERT（Bidirectional Encoder Representation from Transformers)問(wèn)世，一經(jīng)發(fā)布便得到各界廣泛關(guān)注。BERT模型在11項(xiàng)NLP任務(wù)中奪得SOTA的表現(xiàn)，更是令谷歌技術(shù)人員宣告“BERT開(kāi)啟了NLP新時(shí)代”的宣言。而B(niǎo)ERT其實(shí)采用了和GPT完全相同的兩階段模型，首先是無(wú)監(jiān)督的語(yǔ)言模型預(yù)訓(xùn)練；其次是使用Fine-Tuning模式解決下游任務(wù)。其不同之處在于BERT在預(yù)訓(xùn)練階段采用了類似ELMO的雙向語(yǔ)言模型，且使用了更大數(shù)據(jù)規(guī)模用于預(yù)訓(xùn)練。

BERT在改造NLP下游任務(wù)（包括序列標(biāo)注，比如中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、語(yǔ)義角色標(biāo)注等；第二類是分類任務(wù)，比如文本分類、情感計(jì)算等；句子關(guān)系判斷，比如Entailment，QA，語(yǔ)義改寫(xiě)，自然語(yǔ)言推理等；生成式任務(wù)，比如機(jī)器翻譯、文本摘要、寫(xiě)詩(shī)造句、看圖說(shuō)話等）上面，強(qiáng)大的普適性和亮眼的任務(wù)表現(xiàn)，成為它爆紅NLP的底氣。

僅僅四個(gè)月后，OpenAI發(fā)布GPT-2。這一大規(guī)模無(wú)監(jiān)督NLP模型，可以生成連貫的文本段落，刷新了7大數(shù)據(jù)集SOTA表現(xiàn)，并且能在未經(jīng)預(yù)訓(xùn)練的情況下，完成閱讀理解、問(wèn)答、機(jī)器翻譯等多項(xiàng)不同的語(yǔ)言建模任務(wù)。

首先，CPT-2、BERT與GPT一樣，延續(xù)Transformer的Self-Attention（自注意）作為底層結(jié)構(gòu)。OpenAI研究人員對(duì)無(wú)監(jiān)督數(shù)據(jù)訓(xùn)練的堅(jiān)持也許來(lái)自于這樣一個(gè)思路：監(jiān)督學(xué)習(xí)會(huì)造成語(yǔ)言模型僅能處理特定任務(wù)表現(xiàn)很好，而在泛化能力表現(xiàn)很差；而單純依靠訓(xùn)練樣本的增加，很難有效實(shí)現(xiàn)任務(wù)擴(kuò)展。因此，他們選擇在更通用的數(shù)據(jù)集基礎(chǔ)上使用自注意力模塊遷移學(xué)習(xí)，構(gòu)建在 zero-shot 情況下能夠執(zhí)行多項(xiàng)不同NLP任務(wù)的模型。

與BERT的不同在于，CPT-2模型結(jié)構(gòu)仍然延續(xù)了GPT1.0的“單向語(yǔ)言模型”。GPT-2似乎只有一個(gè)目標(biāo)：給定一個(gè)文本中前面的所有單詞，預(yù)測(cè)下一個(gè)單詞。這一點(diǎn)倔強(qiáng)堅(jiān)持，可以看出OpenAI的解決思路。它選擇把Transformer模型參數(shù)擴(kuò)容到48層，包含15億參數(shù)的Transformer模型，找到一個(gè)800 萬(wàn)網(wǎng)頁(yè)（WebText）數(shù)據(jù)集作為無(wú)監(jiān)督訓(xùn)練數(shù)據(jù)。簡(jiǎn)單說(shuō)，GPT-2 就是對(duì) GPT 模型的直接擴(kuò)展，在超出 10 倍的數(shù)據(jù)量上進(jìn)行訓(xùn)練，參數(shù)量也多出了 10 倍。這讓GPT-2采用更加直接“暴力”的方式，單靠提升模型參數(shù)容量和增加訓(xùn)練數(shù)據(jù)的數(shù)量來(lái)超過(guò)BERT。

GPT-2作為一個(gè)文本生成器，只要在開(kāi)始輸入只言片語(yǔ)，這個(gè)程序會(huì)根據(jù)自己的判斷，決定接下來(lái)應(yīng)該如何寫(xiě)作。簡(jiǎn)言之，GPT-2作為通用語(yǔ)言模型，可以用于創(chuàng)建AI 寫(xiě)作助手、更強(qiáng)大的對(duì)話機(jī)器人、無(wú)監(jiān)督語(yǔ)言翻譯以及更好的語(yǔ)音識(shí)別系統(tǒng)。OpenAI 設(shè)想，人們可能出于惡意目的利用GPT-2來(lái)生成誤導(dǎo)性新聞、網(wǎng)上假扮他人欺詐、在社交媒體自動(dòng)生產(chǎn)惡意或偽造內(nèi)容、自動(dòng)生產(chǎn)垃圾或釣魚(yú)郵件等內(nèi)容。所以，OpenAI在發(fā)布GPT2的同時(shí)就宣稱“這種強(qiáng)力的模型有遭到惡意濫用的風(fēng)險(xiǎn)”，選擇不對(duì)訓(xùn)練模型做完整開(kāi)源，這一舉動(dòng)引來(lái)機(jī)器學(xué)習(xí)&自然語(yǔ)言處理界研究人員的激烈討論。

無(wú)論是被外界嘲諷為對(duì)自家產(chǎn)品的“過(guò)分自負(fù)”，還是OpenAI出于PR目的的“故意炒作”，GPT-2 “刻意制造假新聞”的實(shí)力確實(shí)驚艷到了業(yè)內(nèi)眾人。各位吃瓜群眾一邊實(shí)力吐槽，一邊又迫不及待想探究GPT-2的強(qiáng)大生成能力。

經(jīng)過(guò)將近一年時(shí)間， GPT-2在謹(jǐn)慎開(kāi)源和開(kāi)發(fā)者的“嘗鮮”參與中，進(jìn)行著眼花繚亂的更新演進(jìn)。

GPT-2階段開(kāi)源：帶給開(kāi)發(fā)者的土味狂歡

伴隨爭(zhēng)議和開(kāi)發(fā)者高漲的呼聲，OpenAI仍然出于謹(jǐn)慎考慮，選擇了分階段開(kāi)源。8月以后，它分階段發(fā)布了“小型的”1.24 億參數(shù)模型（有 500MB 在磁盤(pán)上），“中型的”3.55 億參數(shù)模型（有 1.5GB 在磁盤(pán)上），以及 7.74 億參數(shù)模型（有 3GB 在磁盤(pán)上）。直到11月6日，它正式放出GPT-2最后一個(gè)部分的包含15億參數(shù)的最大版本的完整代碼。

一直到完整版本公布，OpenAI并未發(fā)現(xiàn)任何明確的代碼、文檔或者其他濫用實(shí)證，也就是說(shuō)一直擔(dān)心的“GPT-2遭到濫用”的結(jié)果并沒(méi)有發(fā)生，但OpenAI仍然認(rèn)為，全面版本發(fā)布同時(shí)也會(huì)讓惡意人士有機(jī)會(huì)進(jìn)一步提高檢測(cè)逃避能力。

所以，伴隨著GPT-2不同版本的陸續(xù)公布，OpenAI自身與多家復(fù)現(xiàn)GPT-2模型的團(tuán)隊(duì)進(jìn)行交流，驗(yàn)證GPT-2的使用效果，同時(shí)也在避免濫用語(yǔ)言模型的風(fēng)險(xiǎn)，完善檢測(cè)文本生成的檢測(cè)器。同時(shí)，OpenAI也還在與多家研究機(jī)構(gòu)合作，比如對(duì)人類對(duì)語(yǔ)言模型產(chǎn)生的數(shù)字信息的敏感性的研究，對(duì)惡意利用GPT-2的可能性的研究，對(duì)GPT-2生成文本的統(tǒng)計(jì)可檢測(cè)性的研究。

無(wú)論OpenAI出于怎樣的謹(jǐn)慎，隨著不同容量參數(shù)模型的發(fā)布，外界開(kāi)發(fā)人員已經(jīng)迫不及待進(jìn)行各種方向的探索了。

2019年4月，Buzzfeed 數(shù)據(jù)科學(xué)家 Max Woolf使用Python封裝了具有 1.17 億超參數(shù)的“較小”版本的 OpenAI GPT-2 文本生成模型進(jìn)行微調(diào)和生成腳本，開(kāi)源了一個(gè)“GPT-2 精簡(jiǎn)版”，從而更好地幫助人們生成一段文本，里面可以給出很多出人意料的內(nèi)容。

在OpenAI逐步開(kāi)源的過(guò)程里，來(lái)自布朗大學(xué)的兩位研究生就率先自己動(dòng)手復(fù)制出一個(gè) 15 億參數(shù)量的 GPT-2，并將其命名為 OpenGPT-2。過(guò)程中，他們使用自己的代碼從零開(kāi)始訓(xùn)練 GPT-2 模型大約只花費(fèi)了 5 萬(wàn)美元。所用的數(shù)據(jù)集也盡可能參照OpenAI論文里公開(kāi)的方法。有很多熱心網(wǎng)友的測(cè)試后表示，OpenGPT-2 的輸出文本效果優(yōu)于 OpenAI 的 GPT-2 7.74 億參數(shù)版本。當(dāng)然，也有人認(rèn)為，并沒(méi)有比GPT-2模型生成的文本效果更好。

同時(shí)在國(guó)內(nèi)，一個(gè)位于南京名叫“Zeyao Du”的開(kāi)發(fā)者，在GitHub上開(kāi)源了的GPT-2 Chinese，可以用來(lái)寫(xiě)詩(shī)、新聞、小說(shuō)和劇本，或是訓(xùn)練通用語(yǔ)言模型。這一能夠?qū)崿F(xiàn)逆天效果GPT-2模型，用到了15億個(gè)參數(shù)。目前他開(kāi)源了預(yù)訓(xùn)練結(jié)果與 Colab Demo 演示，只需要單擊三次，人們就可以生成定制的中文故事。

GPT-2模型還有更多嘗試。一個(gè)新加坡高中生Rishabh Anand開(kāi)源了一個(gè)輕量級(jí)GPT-2“客戶端”——gpt2-client，它是一個(gè)GPT-2 原始倉(cāng)庫(kù)的包裝器，只需5行代碼就可以實(shí)現(xiàn)文本生成。

來(lái)自中國(guó)的幾個(gè)研究者正在用GPT模型生成高質(zhì)量的中國(guó)古典詩(shī)歌。比如論文里提到的一首《七律·一路平安》：“一聲天際雁橫秋，忽夢(mèng)青城舊友游。路入青林無(wú)去馬，手?jǐn)y黃牒有歸舟。平生志業(yè)商山老，何日公卿漢署留。安得相從話疇昔，一樽同醉萬(wàn)山頭”。一場(chǎng)平平淡淡的送別，寫(xiě)得就飽含滄桑、充滿離愁。不難讓人懷疑：這個(gè)語(yǔ)言模型是否真的有了感情？

GPT-2模型還可以用在音樂(lè)創(chuàng)作上。OpenAI推出一種用于生成音樂(lè)作品的深層神經(jīng)網(wǎng)絡(luò)——MuseNet，正是GPT-2語(yǔ)言模型Sparse Transformer相同的通用無(wú)監(jiān)督技術(shù)，允許MuseNet根據(jù)給定的音符組預(yù)測(cè)下一個(gè)音符。該模型能夠用10種不同的樂(lè)器制作4分鐘的音樂(lè)作品，并且能夠從巴赫，莫扎特，披頭士樂(lè)隊(duì)等作曲家那里了解不同的音樂(lè)風(fēng)格。它還可以令人信服地融合不同的音樂(lè)風(fēng)格，以創(chuàng)造一個(gè)全新的音樂(lè)作品。

最讓筆者感興趣的是一位開(kāi)發(fā)者通過(guò)GPT-2做出的一款A(yù)I文字冒險(xiǎn)游戲——“AI地牢”。通過(guò)多輪文本對(duì)話， AI就可以幫你展開(kāi)一段意想不到的“騎士屠龍”征途或者“都市偵探”之旅。在未來(lái)的游戲產(chǎn)業(yè)中，AI創(chuàng)造的故事腳本，也許可能更具想象力？

GPT-2發(fā)布的一年里，以上開(kāi)源帶來(lái)的應(yīng)用足以稱之為眼花繚亂。喧鬧與繁榮背后，除了在在開(kāi)源風(fēng)險(xiǎn)上的小心謹(jǐn)慎，OpenAI還面臨著哪些難題？

NLP的土豪賽：

OpenAI聯(lián)姻微軟后的 GPT-2商業(yè)化

其實(shí)，我們從BERT和GPT-2的演進(jìn)趨勢(shì)，可以看出人類利用更大容量的模型、無(wú)監(jiān)督的無(wú)限訓(xùn)練，可以去創(chuàng)造更多更好的合乎人類語(yǔ)言知識(shí)的內(nèi)容。但這也同樣意味著要依靠超級(jí)昂貴的GPU計(jì)算時(shí)間、超大規(guī)模GPU機(jī)器學(xué)習(xí)集群、超長(zhǎng)的模型訓(xùn)練過(guò)程。這意味著這種“燒錢(qián)”模式，使得NLP的玩家最終會(huì)更加向頭部公司聚集，成為少數(shù)土豪玩家的賽場(chǎng)。

可以預(yù)見(jiàn)，如果今年OpenAI再推出GPT-3.0，大概率還是會(huì)選擇單向語(yǔ)言模型，但會(huì)采取更大規(guī)模的訓(xùn)練數(shù)據(jù)和擴(kuò)充模型，來(lái)與BERT硬剛。NLP應(yīng)用領(lǐng)域的成績(jī)也會(huì)再次刷新。

但從另一個(gè)側(cè)面看到，如此“燒錢(qián)”的語(yǔ)言訓(xùn)練模型的研發(fā)，尚無(wú)清晰的商業(yè)化應(yīng)用前景。OpenAI也不得不面臨著“遵循技術(shù)情懷的初衷”還是“為五斗米折腰”的商業(yè)化的艱難選擇。

答案應(yīng)該已然明了。就在2019年7月，OpenAI接受了微軟的10億美元投資。根據(jù)官方說(shuō)法，OpenAI將與微軟合作，共同為微軟Azure云平臺(tái)開(kāi)發(fā)新的人工智能技術(shù)，并將與微軟達(dá)成一項(xiàng)排他性協(xié)議，進(jìn)一步擴(kuò)展大規(guī)模人工智能能力，“兌現(xiàn)通用人工智能(AGI)的承諾”。其實(shí)質(zhì)正是OpenAI在人工智能研究上的“燒錢(qián)”與其商業(yè)化的尷尬，使得它更需要這樣一筆來(lái)自微軟的“贊助”。就以擁有15億參數(shù)的GPT-2模型為例，它使用256塊TPU v3訓(xùn)練，每小時(shí)都要花費(fèi)2048美元?？梢灶A(yù)見(jiàn)，如果我們還想期待GPT-3.0的發(fā)布，其費(fèi)用將主要就花在云端的計(jì)算資源上面。

微軟將成為OpenAI獨(dú)家云計(jì)算供應(yīng)商。OpenAI的人工智能技術(shù)也要通過(guò)Azure云輸出。未來(lái)，OpenAI將把部分技術(shù)授權(quán)給微軟，然后由微軟把這些技術(shù)商業(yè)化，并將其出售給合作伙伴。

這筆巨額費(fèi)用的支持，讓OpenAI有了更充足的底氣。如上面所總結(jié)的，GPT-2在8月份后繼續(xù)開(kāi)始分步驟發(fā)布不同量級(jí)的參數(shù)模型，并在11月全部開(kāi)源。顯然GPT-2未來(lái)在商業(yè)化方向上，可以更多的借助微軟Azure的加持。比如可以未來(lái)更好的與Office365協(xié)作，參與到辦公協(xié)助的自動(dòng)化文本寫(xiě)作當(dāng)中，參與語(yǔ)法錯(cuò)誤修復(fù)，也可以建立更自然真實(shí)的問(wèn)答系統(tǒng)。

曾經(jīng)年少愛(ài)追夢(mèng)，一心只想往前飛。AGI的理想也需要在商業(yè)實(shí)踐中照進(jìn)現(xiàn)實(shí)?？梢灶A(yù)見(jiàn)，2020年，谷歌面對(duì)微軟&OpenAI的組合，將給NLP商業(yè)化帶來(lái)更多波瀾。