出品 | IDEA研究院 在深度學習發(fā)展的第三波浪潮中, ChatGPT引發(fā)了人們對人工智能前所未有的關注。它的出現(xiàn)意味著基于指令學習和人類反饋的AI技術成為人工智能領域的關鍵。然而,當前所展示的能力還遠不是AI的最終形態(tài),無論是產(chǎn)業(yè)界還是學術界都對其未來的發(fā)展抱有極大期待。換句話說,ChatGPT等技術也許只是人類進入下一代AI的起點。 數(shù)據(jù)危機轟轟烈烈的技術演變背后,離不開強大的預訓練大模型的支撐。到了今天,AI的核心就是大模型。“數(shù)據(jù)之于大模型的重要性正如石油之于現(xiàn)代國家”,關注AI領域發(fā)展的人目前應該會認同“數(shù)據(jù)是AI的戰(zhàn)略資源”這一說法,其必要性從下面的一系列真實數(shù)字中可見一斑。從目前自然語言領域發(fā)展的趨勢來看,模型尺寸越大,所具備的能力就越強,模型參數(shù)的量級正在接近人類神經(jīng)元連接數(shù)。訓練一個強大的大語言模型的前提,就是要有充足的高質量數(shù)據(jù)。OpenAI訓練GPT-3(1750億參數(shù)),使用了包含接近500B tokens(注:token指文本被BPE等方案編碼后的單元,1B=10億)的高質量語料,Google訓練PaLM(5400億參數(shù)),消耗了780B tokens。足夠多的高質量語料可以幫助同等規(guī)模的模型學習到更強的能力,Google和DeepMind分別使用了1.56T (注:1T=1萬億) 和 1.4T tokens 來訓練更小的LaMDA (1370億參數(shù))和Chinchilla(700億參數(shù)),這些模型的能力大幅超過更大尺寸的模型。但是另一個問題隨之而來,全世界有多少可用的高質量文本?按照估計,這個數(shù)字可能在4.6 T到 17.2 T 個tokens之間。也就是說,目前人類已使用的高質量文本已經(jīng)和存量在同一數(shù)量級。且未來人類對更多高質量文本的需求量(指數(shù)級),遠超于數(shù)據(jù)產(chǎn)生的速度(1%~7%/每年)。除了文本,人類對于視覺數(shù)據(jù)的消耗速度也很快,據(jù)估計現(xiàn)有數(shù)據(jù)將在2030年~2070年間被使用殆盡。因此,將數(shù)據(jù)比作AI的戰(zhàn)略資源再恰當不過。模型危機基于當前大模型結構,人們總是可以通過增大數(shù)據(jù)量和模型參數(shù)來訓練更大的模型。但是,如果訓練數(shù)據(jù)更多,模型更大,智能就能從模型中產(chǎn)生嗎?我想答案是否定的。回顧近幾十年的AI發(fā)展,人們從未停止過對這個問題的思考。長期以來,人們認為機器學習模型或者深度神經(jīng)網(wǎng)絡不過是從海量數(shù)據(jù)中學習到了數(shù)據(jù)的概率分布,所以根本不存在具備認知一說。即使進入到預訓練模型時代,即利用海量無標簽數(shù)據(jù)進行自監(jiān)督學習來提升模型的基礎能力,然后針對具體任務數(shù)據(jù)微調模型,在解決給定問題的主要流程上仍然和過去基本相同。具體來說,首先需要收集與特定問題和領域相關的原始數(shù)據(jù);其次,根據(jù)問題人工標注數(shù)據(jù);第三,在帶標簽的數(shù)據(jù)集上基于預訓練模型繼續(xù)訓練(這個過程還包括在預留驗證集上選擇模型,以及在預留測試集上測試模型的泛化性能)。漸漸地,人們發(fā)現(xiàn)對于定義的各種任務,數(shù)據(jù)收集和標注可能占據(jù)了80%或者更多的工作量,尤其是在以Transformer為主的深度神經(jīng)網(wǎng)絡結構成為主流,且訓練方式差別不大的情況下,數(shù)據(jù)質量已經(jīng)成為提升模型性能的瓶頸所在。人們嘗試利用合成數(shù)據(jù)來解決數(shù)據(jù)來源單一和數(shù)據(jù)量不足的問題,但極難避免合成數(shù)據(jù)帶來的數(shù)據(jù)領域偏移。從這點來看,僅從合成數(shù)據(jù)角度出發(fā),不僅無法徹底解決單一任務的數(shù)據(jù)問題,讓模型具備智能更無從談起。在自然語言處理領域,超大語言模型的出現(xiàn)為人類帶來了更多的可能性。大模型不僅在理解、問答、生成等方面的性能顯著提升,還初步具備了推理能力,讓人看到了大模型擁有認知能力的潛能。針對具體任務對大模型進行微調的代價太大,人們轉而用輸入少量示例的方式啟發(fā)大模型進行in-context learning,或者直接通過提示進行零樣本(zero-shot)推理。一段時間里出現(xiàn)了提示工程師(prompt engineer)的職業(yè),只為了寫出能夠激發(fā)模型能力的提示。prompt成為了人類適應大模型的接口,或者說prompt是開啟大模型魔法的“咒語”?!白屛覀円徊揭徊降厮伎迹↙et’s think step by step)”是一個有意思的“咒語”, 在模型輸入里加上這句話就能增加大模型多步推理正確的幾率。在黑盒大模型內部,似乎存在著另外一套不同于人類的思考語言,所有的文字生成、邏輯推理、編程能力等都依賴這套不可知的語言。自然語言是人類智慧延續(xù)的根本,大模型和人類的認知必須建立在相同的語言邏輯之下,才能真正為人類服務。數(shù)據(jù)和模型的共生黑盒的學習機器對執(zhí)行認知任務有天然的限制。人類水平的人工智能無法從一個黑盒中出現(xiàn),它需要數(shù)據(jù)和模型的共生。早期探索人類第一次關于數(shù)據(jù)和模型共生系統(tǒng)的成功實踐是AlphaZero。在僅知道棋局規(guī)則的前提下,它利用卷積神經(jīng)網(wǎng)絡結合樹搜索算法生成下一步棋子位置。通過自我對弈,AlphaZero分別在圍棋和象棋上戰(zhàn)勝了AlphaGo和Stockfish,代表了當時AI的最高水平。這套系統(tǒng)的精妙之處在于不需要提前準備數(shù)據(jù),訓練模型的所有數(shù)據(jù)完全來自于模型的生成,模型本身也完成了一次次迭代進化。人們在文本和圖像上也有相當多類似的嘗試。文本和圖像信息只是整個世界里可以被觀察到的外在狀態(tài),世界內部并沒有運行一個像下棋那樣明確的規(guī)則系統(tǒng),來規(guī)定世界運行的法則和產(chǎn)生這些狀態(tài)的機制。人們一直試圖嘗試讓模型通過數(shù)據(jù)學習,來構建出一套模型內部的信息表示機制,而不僅僅是輸入和輸出間的映射。生成對抗網(wǎng)絡(GAN)是文本與圖像數(shù)據(jù)和模型共生的例子。判別器給生成模型提供人類世界和生成模型樣本差別的反饋,使合成的數(shù)據(jù)能夠一步步接近真實數(shù)據(jù)分布。只不過這個指導的過程是通過多次對抗完成的。觀察以前數(shù)據(jù)和模型共生系統(tǒng)成功的實踐,發(fā)現(xiàn)幾乎都是兩個玩家有限的零和博弈,它們可以通過具有足夠計算和模型能力的自我博弈來解決,最終收斂到一個最優(yōu)策略。然而要實現(xiàn)人類水平的人工智能,零和博弈遠遠不夠,必須通過建立模型間的合作機制從復雜的現(xiàn)實世界中學習。人類反饋研究表明,模型通過完全自我博弈學習到的策略,與人類社會潛在的規(guī)范并不一致。所以,在涉及語言的任務中引入多智能體的合作可能產(chǎn)生與人類不兼容的語言特性和行為,這種合作機制必須以人類反饋作為前提。語言生成模型有一個特點:文本輸入、文本輸出。這對將人類和模型納入同一個閉環(huán)系統(tǒng)來說有天然的好處。人類可以將文本提示作為模型輸入,然后觀察生成模型的輸出并給予相應的評估和修正,這些結果可以繼續(xù)輸入給生成模型。在模型處理復雜的任務時,可以人為將復雜任務拆解成多個連續(xù)的中間任務,這些任務都是靠接收上一步的輸出和產(chǎn)生對下一步的輸入串聯(lián)在一起的,人們可以在每一個步驟上施加反饋。ChatGPT在語言上實現(xiàn)了文本數(shù)據(jù)和生成模型的合作共生。為了解決模型和人類認知失配的情況,其使用真實的人類反饋數(shù)據(jù)訓練排序模型,并以此模型作為模擬環(huán)境來和生成模型交互,實現(xiàn)了生成模型用自己生成的數(shù)據(jù)來訓練自己。初想之下,這些做法似乎沒有本質上的創(chuàng)新,也根本不可能使模型接近人類認知的范疇。以打分器模擬人類反饋,在GAN相關的研究工作中似乎也是這個思路。只不過GAN多用二分類,對樣本只有好(服從真實樣本分布)與壞(服從生成分布)的區(qū)別。仔細思考人類思考和學習的方式,就能反應過來上面說法的不合理之處。人類的價值判斷不是二元的,沒有絕對的好與壞,一切都是相對的。ChatGPT引入相對排序的方式實際上更符合人類價值判斷標準,從有限的人類反饋中擬合出一個具有連續(xù)狀態(tài)的世界評估模型,盡管這不是個完美的環(huán)境,但相比于好與壞的二元論,已經(jīng)有本質區(qū)別。用模型生成數(shù)據(jù)訓練模型“用自己生成的數(shù)據(jù)訓練自己”聽上去似乎不合理。學界有觀點稱,“我們所能知道的一切都可以包含在百科全書中,因此只要閱讀百科全書的所有內容就能讓我們對所有事物都有全面的了解?!卑催@種說法,只要語言模型夠大,大到能夠記憶人類所掌握的絕大部分知識,那么語言模型就具備了足夠的智能來解決任何問題。顯然現(xiàn)在的語言模型已經(jīng)大到了這個量級,卻在很多方面展示出來非常有限的能力。另一方面,如果將語言模型比作一個知識庫,它已經(jīng)記住了這個世界的絕大部分知識,模型生成的數(shù)據(jù)不是理應已經(jīng)包含在知識庫之中嗎,那么用這些生成數(shù)據(jù)作為訓練數(shù)據(jù)又有什么意義?再次類比人類的學習過程。讀懂一本書,掌握書中知識的最有效的辦法絕對不是把整本書都背誦下來,這種學習方式很難挖掘到知識之間深層的關聯(lián)和邏輯關系。相反,大多數(shù)情況下人是在解決問題或者回答問題的過程中開始理解知識或者加深知識間的聯(lián)系。這些問題可能來源于書本習題,也可能是我們在腦海中對自己的發(fā)問,或者是遇到實際問題時我們迅速建立起和知識點相關的聯(lián)系。對一個見過海量數(shù)據(jù)的大型語言模型來說,最重要的是,要設計相當多的難題和任務并引導模型解決這些困難,這樣才會強化模型本身的知識理解,逐漸形成對知識融會貫通的能力,也就是一種類人的智力。引入多樣的指令和任務,可以幫助大模型在解決問題的能力上遠勝普通的預訓練模型。人們常常忽視生成語言模型和人類之間類似的一點,那就是不確定性。對人體來說,神經(jīng)遞質中離子或分子的量子行為,導致神經(jīng)元有是否激發(fā)的不確定性。正是大量神經(jīng)元集體的隨機性讓人類擁有了自由意志,形成源源不斷新奇的想法,也正是這些想法促進了人類的進步。大多數(shù)人都有“靈光一閃”的經(jīng)歷,甚至在睡夢中,大腦也能通過這種機制產(chǎn)生從未有過的新想法。凱庫勒在夢中發(fā)現(xiàn)了苯環(huán)的分子結構,就是一個例證。對于生成語言模型來說,同樣存在著隨機性,它發(fā)生在模型生成的采樣階段。在模型的采樣階段引入隨機性,可以讓我們得到非常多樣的輸出結果,這些結果會遵守一定的事實,同時又引入了新的觀點。這些新的觀點并非只是知識的堆砌,而是一種知識內化,可以形成邏輯自洽,知識上融匯的觀點。尤其是在大型語言模型上,這種現(xiàn)象更加明顯。由此可以得出,在大型語言模型上,用自己生成的數(shù)據(jù)訓練自己并非沒有意義。首先借助這種方式,人類能從根本上解決大模型的數(shù)據(jù)危機問題。此外,人們不僅用這種方式教會大模型解決各種問題,還開始嘗試以類似的方式使大模型自我反思,自我驗證和自我提升,這是未來能夠讓模型變得更加智能的重要途徑。結語在早期,人們主要依靠直覺和經(jīng)驗來獲取知識,但這種知識是有限的,因為我們只能憑借有限的感官和思維能力來理解世界。后來,借助假定和推理的方式,人類創(chuàng)建了各種模型和理論,以解釋自然現(xiàn)象和社會現(xiàn)象。這種基于推理的知識是無限的,因為它不僅依賴于我們已經(jīng)知道的事實和理論,還可以通過不斷地實驗和驗證來擴展和改進。未來,人工智能的發(fā)展,也會基于對無限推理的探索。能夠區(qū)分有限和無限,是大模型真正具備類人智能的標志。數(shù)據(jù)和模型合作共生,正是人類能夠將人類智慧注入到模型,并促進模型自我學習和進化的最好方式。這讓人們看到了實現(xiàn)通用人工智能的可能途徑。王昊,IDEA研究院認知計算與自然語言研究中心,文本生成算法團隊Leader。北京大學博士,發(fā)表10余篇論文。?挑戰(zhàn)微軟 + GitHub!谷歌聯(lián)手 Replit,升級 AI 編程“神器”:曾拒絕微軟 10 億美元的收購
|