文 | 牛透社,作者|鞏周周 又一次,GPT-4 斂住所有老牌科企的光彩。 在 ChatGPT 被譽為范式轉(zhuǎn)變之作的第 3 個月,谷歌推出 PaLM-E 視覺語言模型 (VLM)。功能上,除去讓 AI 獲得理解文字、圖片的能力外,額外增添了輸出指令生成機器人行動計劃的控制回路。 谷歌顯然急了。在 OpenAI 和微軟的左右夾擊下,他直接甩出大招。 這場相似的戲碼他太熟悉。移動互聯(lián)網(wǎng)時代的手機系統(tǒng)之戰(zhàn),以操作系統(tǒng)起家的微軟沒能在智能手機發(fā)展初期抓住生態(tài)切入點,敗北后起新秀谷歌安卓。如今,緊鑼密鼓研發(fā)大模型的谷歌被后起之浪 OpenAI 的突然成功打了個措手不及。 但即使谷歌發(fā)布出參數(shù)量高達 5620 億、目前世界上最大的視覺語言模型 (VLM) PaLM-E,也沒能擋住 GPT-4 打破戈爾迪之結(jié)。 回溯 2015 年,馬斯克和山姆·奧特曼大概誰都不會想到,OpenAI 這家非盈利組織能夠十年內(nèi)追平谷歌的技術進展,撞破 AI 核心技術巨頭壟斷格局。GPT 的先發(fā)公測且開源底層平臺也意味著更多更廣的技術會以此為基礎進行開發(fā),這是個穩(wěn)賺的開端。 任何成功的背后都是復雜的,自然語言處理技術跨越了三個階段,到現(xiàn)在終于迎來變革。接下來,你會從當下回到過去,看到: 1. 自然語言處理的兩次重要轉(zhuǎn)折 2. Bert 和 GPT 模型的應用差異及成因 3. GPT 沒有出現(xiàn)在中國的兩個原因 4. 科技發(fā)展是技術在前應用在后 5. 自然語言處理:AGI 最重要的基礎 Word2vec:讓機器感知語義 我們把時間線拉到 20 年前—— 2003 年,Yoshua Bengio 正式提出神經(jīng)網(wǎng)絡語言模型 (Neural Network Language Model,NNLM),而 NNLM 依賴的核心概念就是詞向量 (Word Embedding)。 如果說 GPS 是物理世界的位置符號,那么 Word Embedding 是語言世界的距離符號。 2010 年,Tomas Mikolov (谷歌團隊) 對 Bengio 提出的 NNLM 進行改進,提出 RNNLM (Recurrent Neural Network based Language Model),目標是利用所有上文信息來預測下一個詞語。 但 RNN 存在長距離梯度消失問題,上下文記憶能力有限,很難追溯更遠時間的信息。而且,只通過孤立單詞或上文信息不足以讓機器感知到特定環(huán)境下的單詞含義。 于是,2013 年 Mikolov (谷歌團隊) 提出 Word2vec,他們把這個方法稱作“單詞到向量”。Word2vec 的目標不再專注于建模語言模型,而是利用語言模型學習每個單詞的語義化向量。 在 1986 年出版的《并行分布式處理》里有談過這樣的觀點:“人類比當今的計算機更聰明,是因為人的大腦采用了一種更適合于人類完成他們所擅長的自然信息處理任務的基本計算架構(gòu),例如,'感知’自然場景中的物體并厘清它們之間的關系......理解語言,并從記憶中檢索上下文恰當?shù)男畔??!?/p> 研究人員想到,如果能夠把每個詞匯都標注為數(shù)字,以編碼形式輸入,那么編碼器網(wǎng)絡就可以通過反向傳播在這些樣本上訓練。但是,一個非常重要的問題是,機器無法像人類一樣獲取單詞或短語之間的語義關系。 語言學家約翰·費斯在 1957 年把這一思想表達為:你會通過與一個單詞一同出現(xiàn)的詞來認識它。比如生氣往往和憤怒出現(xiàn)在同一語境,大笑和愉悅也常被放在同一語境。 研究人員“詞匯表”發(fā)現(xiàn)在使用大量英文語料訓練詞向量后,queen 和 king 的詞向量做差得到的向量與 woman 與 man 做差得到的向量幾乎一樣。于是得到一個等式:queen-king+man=woman 這就是著名的“國王和女王”的例子,也是自然語言處理向理解語言進步的重要標志。 word2vec,包含 CBOW 和 Skip-gram 兩組模型,分別根據(jù)上下文預測中心詞以及根據(jù)中心詞來預測上下文,簡化網(wǎng)格結(jié)構(gòu)。使用 Hierarchical Softmax、Negative Sampling 兩種算法提升訓練效率,優(yōu)化詞向量和語義方面能力。 在對機器進行詞語、對話或是理念傳達時,不同的語言使用方式和環(huán)境密不可分,因此,要消解機器對于模糊詞、隱喻等困惑,構(gòu)建機器對世界的認知系統(tǒng),數(shù)據(jù)和模型在這種體系中格外重要。 當單詞可以用坐標作為數(shù)字輸入時,就大大提高了神經(jīng)網(wǎng)絡在 NLP 中的性能。RNN 語言模型雖然也能獲得單詞的分布式表達,但為了更好應對詞匯量的增加、提高分布式表示的質(zhì)量,word2vec 很快成為主流。 Transformer 和 Bert:從理論走向?qū)嵺`的一次蛻變 再把時間線拉到 5 年內(nèi)—— 2017 年,谷歌團隊在論文《Attention is All You Need》中首次提出的 Transformer 架構(gòu),造就了一場關乎 NLP 研究的始發(fā)性變革。 深度學習時代,自然語言處理準確率的提升帶來模型對有標注數(shù)據(jù)的高度依賴。因為數(shù)據(jù)稀缺和人力成本高昂,大型 NLP 語言模型訓練進入瓶頸。 Transformer 預訓練模型主要分為兩段訓練,先在大規(guī)模未標注語料庫預先訓練一個初始模型,然后在下游任務中利用標注數(shù)據(jù)對模型再次進行精調(diào)。相對而言,預訓練模型效能更高,所需標注數(shù)據(jù)也更低。 很快,預訓練語言模型成為自然語言理解任務中的基準模型。 GPT 和 BERT,這兩個代表現(xiàn)代 NLP 技術發(fā)展的模型都建立在 Transformer 架構(gòu)上。谷歌團隊把這個語言架構(gòu)濃縮成一句話:“Attention is All You Need.” 2018 年 10 月,谷歌團隊發(fā)布的 Bert 語言模型讓這項技術從理論走向?qū)嵱玫耐懽儭?/p> 這是 NLP 一場全領域的狂歡。同時也預示著自然語言處理有史以來最強烈的一次進化即將開啟。 在過往許多研究 AI、NLP、AGI 技術的書籍中都提到過一個詞,叫“意義的障礙”。機器和人類間存在著交流溝渠,所以創(chuàng)造出一種讓機器理解人類寫作、說話方式的能力進而協(xié)助人類,是 NLP 的初衷。 人類擁有的能力之一,是感知并反思自己的思維方式,即透過現(xiàn)象以某種本質(zhì)深刻的方式來理解周圍情景,機器并不具備這種理解能力。NLP 的目標就是讓機器在理解語言上像人類一樣智能,彌補人類交流 (自然語言) 和計算機理解 (機器語言) 之間的差距。 但語言這種具象表達方式,從標引符號演變?yōu)橄笳鞣?,再演變?yōu)檎Z法,是個漫長的過程。自然語言是一種“活著”的語言,它在不斷在向前演進、生長。從過去到現(xiàn)在,有許多俚語不斷被淘汰,又有許多詞語生成出來?;诖?,這種可以擇世生存的自然語言處理技術研發(fā)變得相當困難。 在 Bert 發(fā)布前,大部分 NLP 任務是基于 word2vec+RNN 的基本架構(gòu)。由于數(shù)據(jù)匱乏,NLP 進展一直不像 CV 那么順利,于是有些學者就將基于 CV 的思想應用到預訓練+微調(diào)的架構(gòu)上,ELMo 和 GPT 就是采用這種方式。 Bert 在兩個方向進行創(chuàng)新。首先提出兩階段模型,第一階段雙向語言模型預訓練,第二階段具體任務 Fine-tuning;其次特征提取器變?yōu)?Transformer。幾乎所有的 NLP 任務都可以采用 Bert 兩階段訓練思路,所以此后的幾年,幾乎所有企業(yè)都在以 Bert 為基礎進行改進,研發(fā)方向的轉(zhuǎn)折也就此開始。 GPT 沒有出現(xiàn)在中國的兩個原因 從自然語言角度出發(fā),自然語言處理大致可分為自然語言理解和自然語言生成兩個部分。 自然語言理解:讓計算機能夠理解文本意義,核心是“理解”。具象來說,就是把語言表示成可分解的符號或語音,從中提取有用的信息用于下游任務。研究方向包含語言結(jié)構(gòu)、信息抽取、信息檢索、詞性標注和句法分析。 自然語言生成:它是按照一定語法和語義規(guī)則生成自然語言文本、圖表、音視頻,即對語義信息以人類可讀形式進行表達,簡單來說是從文本規(guī)劃到語句規(guī)劃再到實現(xiàn)。主體分為三大類,文本到文本 (Text to Text)、文本到其他 (Text to Other)、其他到文本 (Other to Text)。 以 BERT 和 GPT 為例,即使都屬于預訓練模型,但在技術研發(fā)方向存在分流: BERT(Bidirectional Encoder Representations from Transformers) 雙向語言模型,可以同時利用上下文信息進行預測,是自然語言理解任務中的基準模型。Transformer 的 Encoder 模塊構(gòu)成,采用預訓練和微調(diào)兩階段模型訓練,屬于半監(jiān)督學習模型,即在預訓練時使用大量無標注數(shù)據(jù),屬于自監(jiān)督訓練,而微調(diào)時采用少量有標簽數(shù)據(jù),屬于有監(jiān)督訓練。 Bert 的預訓練包含掩碼語言模型 (Masked Language Model, MLM) 和下一句預測 (Next Sentence Prediction, NSP) 兩個任務,引入基于自編碼的預訓練任務進行訓練。 這種訓練方式讓 BERT 可以有效捕捉文本中的語義信息,因此被廣泛用于文本分類任務,如機器翻譯、情感分析、垃圾郵件識別、新聞分類、問答系統(tǒng)、語義匹配等方向。 GPT (Generative Pre-Training) 單向語言模型,自回歸語言建模方式,兩段訓練:生成式預訓練+判別式任務精調(diào)。 第一階段,利用大規(guī)模數(shù)據(jù)訓練出基于深層 Transformer 的語言模型;第二階段,在通用語意表示的基礎上,根據(jù)下游任務特性進行領域適配。微調(diào)通常是在一個較小的數(shù)據(jù)集上進行的,因此可以使用較小的學習率和少量的訓練迭代次數(shù)來進行訓練。 單向訓練方式只能利用之前的文本進行預測,因此適用于自然語言生成、問答系統(tǒng)、機器翻譯等任務。 表征和表達能力上,相對單向語言模型 (GPT),雙向語言模型 (Bert) 能力更強。因為單向語言模型中,只能依賴于前詞,而無法獲取后詞信息,在處理復雜自然語言任務時,可能會由于無法充分捕捉上下文信息,影響模型的性能。反之,雙向語言模型優(yōu)勢明顯。 但是,BERT 的雙向性增強了它的理解能力,但在一定程度上限制了生成能力,相較于單向模型僅通過上文即可進行續(xù)寫生成,雙向模型在缺乏下文語境時的生成能力受限。對整個句子進行雙向處理,也意味著模型較大,訓練和推理時間長,所需計算資源和存儲空間更多。GPT 在簡化程度、訓練及推理速度上更快,更加適用于實時性要求高的場景。 相對于 GPT 這種單向語言模型,BERT 的雙向語言模型雖然存在缺點,但在實際應用中更加靈活和具有表達能力,也更容易遷移和擴展。在模型研發(fā)方面,BERT 更注重模型的可復用性和通用性,適用于多種自然語言處理任務的應用。 研發(fā)上,BERT 引入了 Transformer Encoder 的網(wǎng)絡結(jié)構(gòu),用于對輸入的序列進行編碼;而 GPT 則采用 Transformer Decoder 的網(wǎng)絡結(jié)構(gòu),用于生成自然語言文本。 模型復雜度方面,BERT 比 GPT 的模型架構(gòu)更加復雜,訓練方式上,Bert 需要在自定義數(shù)據(jù)上進一步微調(diào),相比之下,BERT 來說更加復雜和繁瑣。 “梅須遜雪三分白, 雪卻輸梅一段香?!笨偟膩碚f,BERT 和 GPT 兩者各有千秋,設計和應用方向的差別,決定它們適用于不同應用環(huán)境。 Bert 語言模型提出后的一年內(nèi),涌現(xiàn)了許多對其進行擴展的模型,其中包含 XLNet 模型、RoBERTa 模型、ELECTRA 模型等。并且,大多數(shù) NLP 子領域研發(fā)模式切換為:預訓練+應用微調(diào)/應用 Zero 、Few Shot Prompt 模式。 XLNet 模型 使用 Transforner-XL 代替 Transformer 作為基礎模型,XLNet 提出了一個新的預訓練語言任務:Permutation Language Modeling (排列語言模型),模型將句子內(nèi)的詞語打亂順序,從而使得預測當前詞語時可以利用雙向信息。XLNet 相對 BERT 也使用了更多的語料。 RoBERTa 模型 RoBERTa 采用了與 BERT 具有相同的模型結(jié)構(gòu),同樣采用了屏蔽語言模型任務進行預訓練,但舍棄了 BERT 中下句預測模型。此外,RoBERTa 采用了更大規(guī)模的數(shù)據(jù)和更魯棒的優(yōu)化方法,從而取得了更好的表現(xiàn)。 GPT目前已經(jīng)發(fā)布五代,從 GPT-3 代起與 Bert 逐漸拉開差距。實際上,它不僅僅是一項具體的技術,更多是體現(xiàn)出關于 LLM 的發(fā)展理念的不同。 ChatGPT 是從生成式預訓練 Transformer,即 GPT-3.5 在文本和代碼的混合語料訓練后,再微調(diào)得到的,使用了來自人類反饋的強化學習 (RLHF) 技術,即帶有搜索啟發(fā)式的強化學習,它將兩種目的緊密結(jié)合,用以解決復雜的搜索問題,也是目前大型 LLM 與人類意圖較匹配的方法。 反觀自然語言處理的發(fā)展史,谷歌的模型升級更迭貫穿始終,競爭力較強,但 DeepMind 一直以來的重心在強化學習和 AI 技術方面,在生成式模型研發(fā)押注不夠。 以往,GPT 的可商用場景不明確,但 Bert 的商用趨勢卻十分明顯,因此語義理解精準度一直是領域發(fā)展重點,國內(nèi)外大部分企業(yè)也是以 Bert 模型路線進發(fā)。盡管谷歌反應夠快,2022 年 4 月便發(fā)布出 PaLM 和 Pathways,全力追趕 LLM 技術,但仍是入局尚晚。 經(jīng)不完全統(tǒng)計,我國自然語言處理布局目前有 52 家,大部分布局重心在前端,即應用端,虛擬人、智能語音、翻譯及基于 NLP 技術的 RPA 這幾類發(fā)展較為靠前。科技所謂技術在前、應用在后,在我國似乎體現(xiàn)不明顯。 不過,不只是我國,谷歌尚且在 LLM 上落后一線,這只能說明在之前的研發(fā)理念上存在分歧。目前來看,百度、阿里、華為、訊飛等企業(yè)的大語言模型研發(fā)能力存在潛力,數(shù)據(jù)、技術積淀上在國內(nèi)有相對優(yōu)勢。 我國在發(fā)展新技術時往往會首先看商用化可行性,這與國內(nèi)創(chuàng)業(yè)環(huán)境有關,包含醫(yī)藥研發(fā)在內(nèi),幾乎所有領域都會考慮短線收益,這種方式并不適合新技術的產(chǎn)生。 從整體走向局部,從應用走向基礎,著眼算力、芯片、框架邏輯、理念意識才是關鍵。決定技術進展的往往是基礎力,彎道超車無異于拔苗助長,于核心技術進展無益。 自然語言處理:AGI 最重要的基礎 GPT-4 出現(xiàn)讓自然語言處理社團分成兩股:相信 AGI 和不信的。 進入大模型時代,范式改變給 NLP 帶來內(nèi)核上的轉(zhuǎn)變,許多獨立存在的子領域被納入 LLM,不再獨立存在,LLM 熱度空前。 2 月 25 日,OpenAI 薩姆·奧特曼在博客中分享其對 AGI 的當前和后續(xù)規(guī)劃,以及 OpenAI 駕馭 AI 的風險。 他的短期計劃是使用 AI 來幫助人類評估更復雜模型的輸出和監(jiān)控復雜系統(tǒng);長期計劃是使用 AI 來幫助提出新的想法以實現(xiàn)更好的對齊技術。他認為,一個錯位的 AGI 可能會對世界造成嚴重傷害,一個擁有決定性超級智能領導的專制政權也可以做到這一點。 在微軟 3 月發(fā)布的長篇報告中,微軟說:“考慮到 GPT-4 功能具有的廣度和深度,我們認為可以合理地認為它是通用人工智能 (AGI) 系統(tǒng)的早期(但仍不完善的)版本?!?/p> 不過,他們也承認,“雖然GPT-4 '對處理許多任務而言達到或超過人類的水’,但其整體'智能模式顯然不像人類’。所以,大致來講,即使它確實表現(xiàn)出色,但仍然不能完全像人類一樣思考?!?/p> 微軟提到了一個詞——“思考”。 有許多哲學家認為,即使通過圖靈測試的機器也不會實際上思考,而只是對思考的模擬。 斯坦福大學教授克里斯托弗·曼寧在 2017 年提出:到目前為止,深度學習已經(jīng)使得語音識別和物體識別的錯誤率大幅下降,但其在高級別的語言處理任務中并沒有產(chǎn)生同等效用。 人類語言往往依賴于常識及對世界的理解,要機器處理更高級別的語言任務。就要讓它完全理解人類語言,具備人類的常識和無意識行為。目前的 LLM 還很難做到。 不過,20 世紀 90 年代,發(fā)明家、未來學家雷·庫茲韋爾發(fā)現(xiàn)這樣一個規(guī)律:一旦技術變得數(shù)字化,或者它可以被編輯為以 0 和 1 表示的計算機代碼,它就能夠脫離摩爾定律的束縛,開始呈指數(shù)級加速發(fā)展。 簡單來說,技術發(fā)展后的產(chǎn)物會被用來加速產(chǎn)物升級,這就創(chuàng)造了一個正反饋循環(huán)。根據(jù)該理論,技術改良以過去的成就為基礎,每十年革新步調(diào)就會加倍。 傳說西塔發(fā)明了國際象棋而使國王十分高興,他決定要重賞西塔,西塔說:“我不要你的重賞 ,陛下,只要你在我的棋盤上賞一些麥子就行了。在棋盤的第 1 個格子里放 1 粒,在第 2 個格子里放 2 粒,在第 3 個格子里放4粒,在第 4 個格子里放 8 粒,依此類推,以后每一個格子里放的麥粒數(shù)都是前一個格子里放的麥粒數(shù)的 2 倍,直到放滿第 64 個格子就行了”。區(qū)區(qū)小數(shù),幾粒麥子,這有何難,“來人”,國王令人如數(shù)付給西塔。計數(shù)麥粒的工作開始了,第一格內(nèi)放 1 粒,第二格內(nèi)放 2 粒第三格內(nèi)放 2’ 粒,…還沒有到第二十格,一袋麥子已經(jīng)空了。一袋又一袋的麥子被扛到國王面前來。但是,麥粒數(shù)一格接一格飛快增長著,國王很快就看出,即便拿出全國的糧食,也兌現(xiàn)不了他對西塔的諾言。 獨立指數(shù)技術加速浪潮,已經(jīng)開始呈現(xiàn)出與其余獨立指數(shù)技術加速浪潮融合的趨勢。比如,自然語言處理技術的加速發(fā)展,不僅僅是因為 NLP 或 LLM 的單項技術,還因為 AI、深度學習、神經(jīng)網(wǎng)絡等正加速發(fā)展的技術在向這個范圍靠攏。 2000 年,互聯(lián)網(wǎng)創(chuàng)始人提姆·伯納斯-李提出“語義網(wǎng)”概念。他希望建立一個“本體”為基礎的、具有語義特征的智能互聯(lián)網(wǎng),不僅能夠理解語義概念,還能夠理解之間的邏輯。突破單句限制,根據(jù)整個動態(tài)交互過程中的語義和語境的變化情況,對用戶實時輸入的語句進行處理并生成結(jié)果,是實現(xiàn)語義網(wǎng)的基礎。 正常的發(fā)展邏輯是首先通過解決語義表達,讓計算機利用對現(xiàn)有信息的經(jīng)驗積累和理解,上升到更深層次。這也意味,AI 時代,語義處理會成為操作系統(tǒng)的核心,所有軟件技術都會基于語義技術的進展而確立上限。 語言處理的進展,目前主要通過大數(shù)據(jù)和模型框架及訓練模式的互補和變化來構(gòu)建。數(shù)據(jù)存在歧義性。LLM 時代,數(shù)據(jù)成為重要核心,機器在進行詞語、對話或理念傳達時,使用環(huán)境和使用方式可以左右最終成果。因此,要消解機器對于模糊詞、隱喻等困惑,構(gòu)建機器對世界的認知系統(tǒng),人,在這種體系中格外重要。 |
|