小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

GPT-2:OpenAI的NLP商業(yè)化野望

 腦極體 2020-10-30

自然語(yǔ)言處理(NLP)技術(shù)正在生活的方方面面改變著我們的生活。

客廳的智能音箱在跟你每天的對(duì)話中飛速進(jìn)步,甚至開(kāi)始跟你“插科打諢”來(lái)適應(yīng)你的愛(ài)好習(xí)慣。

電商客服總是能在第一時(shí)間回復(fù),可能處理完你的問(wèn)題,你也并未發(fā)覺(jué)TA可能只是一個(gè)智能客服?,F(xiàn)實(shí)版的“圖靈測(cè)試”每天都在發(fā)生。

經(jīng)常查閱外文資料的你也許早已習(xí)慣網(wǎng)頁(yè)或幾家搜索引擎的一鍵翻譯,譯文的質(zhì)量好到讓你覺(jué)得學(xué)外語(yǔ)的時(shí)間純屬浪費(fèi)。

閑來(lái)無(wú)聊當(dāng)你刷信息流或者短視頻,總是事后發(fā)現(xiàn)沉迷其中的時(shí)間越來(lái)越多,其實(shí)背后正是自然語(yǔ)言算法平臺(tái)在根據(jù)你的瀏覽習(xí)慣、注意力時(shí)長(zhǎng)來(lái)進(jìn)行的優(yōu)化推薦。

由果溯因,我們希望簡(jiǎn)單回顧近幾年NLP的躍遷升級(jí),沿著這條技術(shù)洪流一直溯源?;氐剿闯渑?、水系林立的技術(shù)源頭,來(lái)理解NLP演進(jìn)的脈絡(luò)。


NLP兩強(qiáng)爭(zhēng)霸: 

OpenAI與GPT-2 的“倔強(qiáng)”進(jìn)擊

關(guān)注NLP的人們一定知道,2018年是NLP領(lǐng)域發(fā)展的大年。

2018年6月,OpenAI發(fā)表了題為《Improving Language Understanding by Generative Pre-Training》的論文,提出基于“預(yù)訓(xùn)練語(yǔ)言模型”的GPT,它首先利用了Transformer網(wǎng)絡(luò)代替了LSTM作為語(yǔ)言模型,并在12個(gè)NLP任務(wù)中的9個(gè)任務(wù)獲得了SOTA的表現(xiàn)。但種種原因GPT并未獲得更大關(guān)注。

GPT的基本處理方式是在大規(guī)模語(yǔ)料上進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,再在小得多的有監(jiān)督數(shù)據(jù)集上為具體任務(wù)進(jìn)行精細(xì)調(diào)節(jié)(fine-tune)的方式,不依賴針對(duì)單獨(dú)任務(wù)的模型設(shè)計(jì)技巧,可以一次性在多個(gè)任務(wù)中取得很好的表現(xiàn)。

直到10月,谷歌的BERT(Bidirectional Encoder Representation from Transformers)問(wèn)世,一經(jīng)發(fā)布便得到各界廣泛關(guān)注。BERT模型在11項(xiàng)NLP任務(wù)中奪得SOTA的表現(xiàn),更是令谷歌技術(shù)人員宣告“BERT開(kāi)啟了NLP新時(shí)代”的宣言。而B(niǎo)ERT其實(shí)采用了和GPT完全相同的兩階段模型,首先是無(wú)監(jiān)督的語(yǔ)言模型預(yù)訓(xùn)練;其次是使用Fine-Tuning模式解決下游任務(wù)。其不同之處在于BERT在預(yù)訓(xùn)練階段采用了類似ELMO的雙向語(yǔ)言模型,且使用了更大數(shù)據(jù)規(guī)模用于預(yù)訓(xùn)練。

BERT在改造NLP下游任務(wù)(包括序列標(biāo)注,比如中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、語(yǔ)義角色標(biāo)注等;第二類是分類任務(wù),比如文本分類、情感計(jì)算等;句子關(guān)系判斷,比如Entailment,QA,語(yǔ)義改寫(xiě),自然語(yǔ)言推理等;生成式任務(wù),比如機(jī)器翻譯、文本摘要、寫(xiě)詩(shī)造句、看圖說(shuō)話等)上面,強(qiáng)大的普適性和亮眼的任務(wù)表現(xiàn),成為它爆紅NLP的底氣。

僅僅四個(gè)月后,OpenAI發(fā)布GPT-2。這一大規(guī)模無(wú)監(jiān)督NLP模型,可以生成連貫的文本段落,刷新了7大數(shù)據(jù)集SOTA表現(xiàn),并且能在未經(jīng)預(yù)訓(xùn)練的情況下,完成閱讀理解、問(wèn)答、機(jī)器翻譯等多項(xiàng)不同的語(yǔ)言建模任務(wù)。

首先,CPT-2、BERT與GPT一樣,延續(xù)Transformer的Self-Attention(自注意)作為底層結(jié)構(gòu)。OpenAI研究人員對(duì)無(wú)監(jiān)督數(shù)據(jù)訓(xùn)練的堅(jiān)持也許來(lái)自于這樣一個(gè)思路:監(jiān)督學(xué)習(xí)會(huì)造成語(yǔ)言模型僅能處理特定任務(wù)表現(xiàn)很好,而在泛化能力表現(xiàn)很差;而單純依靠訓(xùn)練樣本的增加,很難有效實(shí)現(xiàn)任務(wù)擴(kuò)展。因此,他們選擇在更通用的數(shù)據(jù)集基礎(chǔ)上使用自注意力模塊遷移學(xué)習(xí),構(gòu)建在 zero-shot 情況下能夠執(zhí)行多項(xiàng)不同NLP任務(wù)的模型。

與BERT的不同在于,CPT-2模型結(jié)構(gòu)仍然延續(xù)了GPT1.0的“單向語(yǔ)言模型”。GPT-2似乎只有一個(gè)目標(biāo):給定一個(gè)文本中前面的所有單詞,預(yù)測(cè)下一個(gè)單詞。這一點(diǎn)倔強(qiáng)堅(jiān)持,可以看出OpenAI的解決思路。它選擇把Transformer模型參數(shù)擴(kuò)容到48層,包含15億參數(shù)的Transformer模型,找到一個(gè)800 萬(wàn)網(wǎng)頁(yè)(WebText)數(shù)據(jù)集作為無(wú)監(jiān)督訓(xùn)練數(shù)據(jù)。簡(jiǎn)單說(shuō),GPT-2 就是對(duì) GPT 模型的直接擴(kuò)展,在超出 10 倍的數(shù)據(jù)量上進(jìn)行訓(xùn)練,參數(shù)量也多出了 10 倍。這讓GPT-2采用更加直接“暴力”的方式,單靠提升模型參數(shù)容量和增加訓(xùn)練數(shù)據(jù)的數(shù)量來(lái)超過(guò)BERT。

GPT-2作為一個(gè)文本生成器,只要在開(kāi)始輸入只言片語(yǔ),這個(gè)程序會(huì)根據(jù)自己的判斷,決定接下來(lái)應(yīng)該如何寫(xiě)作。簡(jiǎn)言之,GPT-2作為通用語(yǔ)言模型,可以用于創(chuàng)建AI 寫(xiě)作助手、更強(qiáng)大的對(duì)話機(jī)器人、無(wú)監(jiān)督語(yǔ)言翻譯以及更好的語(yǔ)音識(shí)別系統(tǒng)。OpenAI 設(shè)想,人們可能出于惡意目的利用GPT-2來(lái)生成誤導(dǎo)性新聞、網(wǎng)上假扮他人欺詐、在社交媒體自動(dòng)生產(chǎn)惡意或偽造內(nèi)容、自動(dòng)生產(chǎn)垃圾或釣魚(yú)郵件等內(nèi)容。所以,OpenAI在發(fā)布GPT2的同時(shí)就宣稱“這種強(qiáng)力的模型有遭到惡意濫用的風(fēng)險(xiǎn)”,選擇不對(duì)訓(xùn)練模型做完整開(kāi)源,這一舉動(dòng)引來(lái)機(jī)器學(xué)習(xí)&自然語(yǔ)言處理界研究人員的激烈討論。

無(wú)論是被外界嘲諷為對(duì)自家產(chǎn)品的“過(guò)分自負(fù)”,還是OpenAI出于PR目的的“故意炒作”,GPT-2 “刻意制造假新聞”的實(shí)力確實(shí)驚艷到了業(yè)內(nèi)眾人。各位吃瓜群眾一邊實(shí)力吐槽,一邊又迫不及待想探究GPT-2的強(qiáng)大生成能力。

經(jīng)過(guò)將近一年時(shí)間, GPT-2在謹(jǐn)慎開(kāi)源和開(kāi)發(fā)者的“嘗鮮”參與中,進(jìn)行著眼花繚亂的更新演進(jìn)。


GPT-2階段開(kāi)源:帶給開(kāi)發(fā)者的土味狂歡

伴隨爭(zhēng)議和開(kāi)發(fā)者高漲的呼聲,OpenAI仍然出于謹(jǐn)慎考慮,選擇了分階段開(kāi)源。8月以后,它分階段發(fā)布了“小型的”1.24 億參數(shù)模型(有 500MB 在磁盤(pán)上),“中型的”3.55 億參數(shù)模型(有 1.5GB 在磁盤(pán)上 ),以及 7.74 億參數(shù)模型(有 3GB 在磁盤(pán)上 )。直到11月6日,它正式放出GPT-2最后一個(gè)部分的包含15億參數(shù)的最大版本的完整代碼。

一直到完整版本公布,OpenAI并未發(fā)現(xiàn)任何明確的代碼、文檔或者其他濫用實(shí)證,也就是說(shuō)一直擔(dān)心的“GPT-2遭到濫用”的結(jié)果并沒(méi)有發(fā)生,但OpenAI仍然認(rèn)為,全面版本發(fā)布同時(shí)也會(huì)讓惡意人士有機(jī)會(huì)進(jìn)一步提高檢測(cè)逃避能力。

所以,伴隨著GPT-2不同版本的陸續(xù)公布,OpenAI自身與多家復(fù)現(xiàn)GPT-2模型的團(tuán)隊(duì)進(jìn)行交流,驗(yàn)證GPT-2的使用效果,同時(shí)也在避免濫用語(yǔ)言模型的風(fēng)險(xiǎn),完善檢測(cè)文本生成的檢測(cè)器。同時(shí),OpenAI也還在與多家研究機(jī)構(gòu)合作,比如對(duì)人類對(duì)語(yǔ)言模型產(chǎn)生的數(shù)字信息的敏感性的研究,對(duì)惡意利用GPT-2的可能性的研究,對(duì)GPT-2生成文本的統(tǒng)計(jì)可檢測(cè)性的研究。

無(wú)論OpenAI出于怎樣的謹(jǐn)慎,隨著不同容量參數(shù)模型的發(fā)布,外界開(kāi)發(fā)人員已經(jīng)迫不及待進(jìn)行各種方向的探索了。

2019年4月,Buzzfeed 數(shù)據(jù)科學(xué)家 Max Woolf使用Python封裝了具有 1.17 億超參數(shù)的“較小”版本的 OpenAI GPT-2 文本生成模型進(jìn)行微調(diào)和生成腳本,開(kāi)源了一個(gè)“GPT-2 精簡(jiǎn)版”,從而更好地幫助人們生成一段文本,里面可以給出很多出人意料的內(nèi)容。

在OpenAI逐步開(kāi)源的過(guò)程里,來(lái)自布朗大學(xué)的兩位研究生就率先自己動(dòng)手復(fù)制出一個(gè) 15 億參數(shù)量的 GPT-2,并將其命名為 OpenGPT-2。過(guò)程中,他們使用自己的代碼從零開(kāi)始訓(xùn)練 GPT-2 模型大約只花費(fèi)了 5 萬(wàn)美元。所用的數(shù)據(jù)集也盡可能參照OpenAI論文里公開(kāi)的方法。有很多熱心網(wǎng)友的測(cè)試后表示,OpenGPT-2 的輸出文本效果優(yōu)于 OpenAI 的 GPT-2 7.74 億參數(shù)版本。當(dāng)然,也有人認(rèn)為,并沒(méi)有比GPT-2模型生成的文本效果更好。

同時(shí)在國(guó)內(nèi),一個(gè)位于南京名叫“Zeyao Du”的開(kāi)發(fā)者,在GitHub上開(kāi)源了的GPT-2 Chinese,可以用來(lái)寫(xiě)詩(shī)、新聞、小說(shuō)和劇本,或是訓(xùn)練通用語(yǔ)言模型。這一能夠?qū)崿F(xiàn)逆天效果GPT-2模型,用到了15億個(gè)參數(shù)。目前他開(kāi)源了預(yù)訓(xùn)練結(jié)果與 Colab Demo 演示,只需要單擊三次,人們就可以生成定制的中文故事。

GPT-2模型還有更多嘗試。一個(gè)新加坡高中生Rishabh Anand開(kāi)源了一個(gè)輕量級(jí)GPT-2“客戶端”——gpt2-client,它是一個(gè)GPT-2 原始倉(cāng)庫(kù)的包裝器,只需5行代碼就可以實(shí)現(xiàn)文本生成。

來(lái)自中國(guó)的幾個(gè)研究者正在用GPT模型生成高質(zhì)量的中國(guó)古典詩(shī)歌。比如論文里提到的一首《七律·一路平安》:“一聲天際雁橫秋,忽夢(mèng)青城舊友游。路入青林無(wú)去馬,手?jǐn)y黃牒有歸舟。平生志業(yè)商山老,何日公卿漢署留。安得相從話疇昔,一樽同醉萬(wàn)山頭”。一場(chǎng)平平淡淡的送別,寫(xiě)得就飽含滄桑、充滿離愁。不難讓人懷疑:這個(gè)語(yǔ)言模型是否真的有了感情?

GPT-2模型還可以用在音樂(lè)創(chuàng)作上。OpenAI推出一種用于生成音樂(lè)作品的深層神經(jīng)網(wǎng)絡(luò)——MuseNet,正是GPT-2語(yǔ)言模型Sparse Transformer相同的通用無(wú)監(jiān)督技術(shù),允許MuseNet根據(jù)給定的音符組預(yù)測(cè)下一個(gè)音符。該模型能夠用10種不同的樂(lè)器制作4分鐘的音樂(lè)作品,并且能夠從巴赫,莫扎特,披頭士樂(lè)隊(duì)等作曲家那里了解不同的音樂(lè)風(fēng)格。它還可以令人信服地融合不同的音樂(lè)風(fēng)格,以創(chuàng)造一個(gè)全新的音樂(lè)作品。

最讓筆者感興趣的是一位開(kāi)發(fā)者通過(guò)GPT-2做出的一款A(yù)I文字冒險(xiǎn)游戲——“AI地牢”。通過(guò)多輪文本對(duì)話, AI就可以幫你展開(kāi)一段意想不到的“騎士屠龍”征途或者“都市偵探”之旅。在未來(lái)的游戲產(chǎn)業(yè)中,AI創(chuàng)造的故事腳本,也許可能更具想象力?

GPT-2發(fā)布的一年里,以上開(kāi)源帶來(lái)的應(yīng)用足以稱之為眼花繚亂。喧鬧與繁榮背后,除了在在開(kāi)源風(fēng)險(xiǎn)上的小心謹(jǐn)慎,OpenAI還面臨著哪些難題?


NLP的土豪賽:

OpenAI聯(lián)姻微軟后的 GPT-2商業(yè)化

其實(shí),我們從BERT和GPT-2的演進(jìn)趨勢(shì),可以看出人類利用更大容量的模型、無(wú)監(jiān)督的無(wú)限訓(xùn)練,可以去創(chuàng)造更多更好的合乎人類語(yǔ)言知識(shí)的內(nèi)容。但這也同樣意味著要依靠超級(jí)昂貴的GPU計(jì)算時(shí)間、超大規(guī)模GPU機(jī)器學(xué)習(xí)集群、超長(zhǎng)的模型訓(xùn)練過(guò)程。這意味著這種“燒錢(qián)”模式,使得NLP的玩家最終會(huì)更加向頭部公司聚集,成為少數(shù)土豪玩家的賽場(chǎng)。

可以預(yù)見(jiàn),如果今年OpenAI再推出GPT-3.0,大概率還是會(huì)選擇單向語(yǔ)言模型,但會(huì)采取更大規(guī)模的訓(xùn)練數(shù)據(jù)和擴(kuò)充模型,來(lái)與BERT硬剛。NLP應(yīng)用領(lǐng)域的成績(jī)也會(huì)再次刷新。

但從另一個(gè)側(cè)面看到,如此“燒錢(qián)”的語(yǔ)言訓(xùn)練模型的研發(fā),尚無(wú)清晰的商業(yè)化應(yīng)用前景。OpenAI也不得不面臨著“遵循技術(shù)情懷的初衷”還是“為五斗米折腰”的商業(yè)化的艱難選擇。

答案應(yīng)該已然明了。就在2019年7月,OpenAI接受了微軟的10億美元投資。根據(jù)官方說(shuō)法,OpenAI將與微軟合作,共同為微軟Azure云平臺(tái)開(kāi)發(fā)新的人工智能技術(shù),并將與微軟達(dá)成一項(xiàng)排他性協(xié)議,進(jìn)一步擴(kuò)展大規(guī)模人工智能能力,“兌現(xiàn)通用人工智能(AGI)的承諾”。其實(shí)質(zhì)正是OpenAI在人工智能研究上的“燒錢(qián)”與其商業(yè)化的尷尬,使得它更需要這樣一筆來(lái)自微軟的“贊助”。就以擁有15億參數(shù)的GPT-2模型為例,它使用256塊TPU v3訓(xùn)練,每小時(shí)都要花費(fèi)2048美元??梢灶A(yù)見(jiàn),如果我們還想期待GPT-3.0的發(fā)布,其費(fèi)用將主要就花在云端的計(jì)算資源上面。

微軟將成為OpenAI獨(dú)家云計(jì)算供應(yīng)商。OpenAI的人工智能技術(shù)也要通過(guò)Azure云輸出。未來(lái),OpenAI將把部分技術(shù)授權(quán)給微軟,然后由微軟把這些技術(shù)商業(yè)化,并將其出售給合作伙伴。

這筆巨額費(fèi)用的支持,讓OpenAI有了更充足的底氣。如上面所總結(jié)的,GPT-2在8月份后繼續(xù)開(kāi)始分步驟發(fā)布不同量級(jí)的參數(shù)模型,并在11月全部開(kāi)源。顯然GPT-2未來(lái)在商業(yè)化方向上,可以更多的借助微軟Azure的加持。比如可以未來(lái)更好的與Office365協(xié)作,參與到辦公協(xié)助的自動(dòng)化文本寫(xiě)作當(dāng)中,參與語(yǔ)法錯(cuò)誤修復(fù),也可以建立更自然真實(shí)的問(wèn)答系統(tǒng)。

曾經(jīng)年少愛(ài)追夢(mèng),一心只想往前飛。AGI的理想也需要在商業(yè)實(shí)踐中照進(jìn)現(xiàn)實(shí)??梢灶A(yù)見(jiàn),2020年,谷歌面對(duì)微軟&OpenAI的組合,將給NLP商業(yè)化帶來(lái)更多波瀾。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多