近日,科技慢半拍播客節(jié)目聯(lián)合AIGC開放社區(qū)邀請復(fù)旦大學(xué)張奇教授坐客,暢談大模型以及AGI的相關(guān)話題。張教授與楊立昆的近期觀點(diǎn)非常相似,體現(xiàn)出一名踏踏實(shí)實(shí)從事基層科研專家的客觀與理性,處于變革時代中的我們更需要擁有堅(jiān)定的信心和毅力,秉持自己的想法和觀點(diǎn),不能人云亦云,更不能隨意聽信公眾號和自媒體的武斷表達(dá),應(yīng)多去核查論文原文,再去親身實(shí)地檢驗(yàn)。 我們的訪談從張教授的新書《大規(guī)模語言模型:從理論到實(shí)踐》開始談起,聊到學(xué)術(shù)界和產(chǎn)業(yè)界關(guān)于大模型所做的工作,有哪些難點(diǎn)和阻礙?再聊到大模型的技術(shù)路線是否已經(jīng)定型,Scaling Law是否已經(jīng)成為業(yè)界的公理法則?大模型應(yīng)用的特點(diǎn)和難點(diǎn)又是什么?最后,張教授也談到他對AGI的理解,以及大模型算是否能成為通往AGI的必經(jīng)之路。 希望收聽完整訪談節(jié)目的朋友,請移步【科技慢半拍】播客節(jié)目: 以下是本次訪談內(nèi)容的摘要以及觀點(diǎn)匯總: # 關(guān)于新書的內(nèi)容和目標(biāo)讀者 自從2022年大語言模型開始流行,我們便希望對這些大型模型的訓(xùn)練和開發(fā)過程進(jìn)行梳理。大語言模型與傳統(tǒng)的自然語言處理方式有很大差異,它已不再局限于單一的自然語言處理任務(wù),而是轉(zhuǎn)變?yōu)橐环N多任務(wù)混合模式。傳統(tǒng)的自然語言處理學(xué)者很少關(guān)注分布式訓(xùn)練方法,幾乎沒有人進(jìn)行過多機(jī)多卡的大模型訓(xùn)練。 在各種因素的疊加下,我們發(fā)現(xiàn)即便是從事自然語言處理研究的專業(yè)人員也對整個過程缺乏系統(tǒng)的梳理。因此,在2022年12月ChatGPT發(fā)布后,我們于2023年3月推出了MOSS,旨在幫助更多人掌握這一過程。我們于2023年4月和5月開始編寫這本書,并在9月份率先在線上發(fā)布。 第一個問題關(guān)注的是大模型的結(jié)構(gòu)——Transformer結(jié)構(gòu)到底是什么樣的,以及標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)經(jīng)歷了哪些版本的演變。第二個問題是,構(gòu)造了模型結(jié)構(gòu)后,我們該如何構(gòu)造數(shù)據(jù)?傳統(tǒng)的自然語言處理所需的標(biāo)注數(shù)據(jù)量并不大,而大語言模型則需要2T或3T的token。這些數(shù)據(jù)從哪里來?如何進(jìn)行預(yù)處理?以及如何進(jìn)行詞源的切分?如果有興趣進(jìn)行這種預(yù)訓(xùn)練,現(xiàn)在是否有可用的開源版本?第三個問題是,在有了數(shù)據(jù)和算法模型結(jié)構(gòu)之后,我們應(yīng)如何進(jìn)行分布式訓(xùn)練?如何實(shí)現(xiàn)多機(jī)多卡的訓(xùn)練?對于千億級別的模型,我們需采用模型并行、混合并行、流水線并行等策略,但這些策略各自代表什么含義呢?第四個問題是,在得到基礎(chǔ)模型版本后,還需進(jìn)行有監(jiān)督的微調(diào)以及強(qiáng)化學(xué)習(xí),它們各自起到了什么作用?完成這些步驟后,我們還要探討大模型的實(shí)際應(yīng)用和評測方式。因此,我們的主要目標(biāo)是梳理大語言模型的構(gòu)建、應(yīng)用和評測這三大過程。 本書面向那些已具備初步自然語言處理知識和基礎(chǔ)機(jī)器學(xué)習(xí)概念的人群,旨在幫助讀者能快速進(jìn)入大語言模型研究領(lǐng)域。雖主要針對專業(yè)模型訓(xùn)練人員和科研工作者,本書也適合普通讀者,以便他們了解大語言模型的本質(zhì),特別是從學(xué)術(shù)角度探討其主要特點(diǎn)、優(yōu)勢與局限,驗(yàn)證公眾媒體上的宣傳是否準(zhǔn)確。 掌握底層大語言模型的知識是必不可少的,這就像人類早期發(fā)明飛機(jī)或汽車一樣。如果在那個時代我們沒有參與飛機(jī)或汽車發(fā)動機(jī)的制造,我們當(dāng)然可以選擇購買或使用它們。然而,如果我們不掌握這項(xiàng)基礎(chǔ)技術(shù),我們就無法跟上其下一代產(chǎn)品的發(fā)展,只能被動地等待別人的成果供我們使用。大語言模型目前正處于起步階段,事實(shí)上,我們在這一領(lǐng)域已經(jīng)稍顯落后。因此,我們必須追趕上來,去學(xué)習(xí)和理解底層大語言模型的本質(zhì)是什么。 核心觀點(diǎn):
# 在大模型領(lǐng)域,學(xué)術(shù)界和產(chǎn)業(yè)界的當(dāng)務(wù)之急是什么?在這次大模型領(lǐng)域的發(fā)展中,企業(yè)和學(xué)校之間的分工方式與以往其他領(lǐng)域的情況有著顯著的不同。大模型的研究需要巨大的資源投入。以大模型的預(yù)訓(xùn)練階段為例,若要訓(xùn)練一個擁有1000億參數(shù)的模型,處理大約3T的token(即約30000億詞源),就需使用1024張GPU卡持續(xù)運(yùn)行四到六個月時間。這樣一次性的投入規(guī)模通常高達(dá)數(shù)千萬資金,并且必須一次成功。因此,這種規(guī)模的投入對于學(xué)術(shù)界而言,幾乎已經(jīng)成為了一個不可能完成的任務(wù)。因此,實(shí)質(zhì)上只有企業(yè)有可能真正投入到大模型的研發(fā)中。這一現(xiàn)象不僅在國內(nèi)如此,在國際上,高校的研究也大多落后于這些大型公司。對于學(xué)術(shù)研究來說,學(xué)校的投入面臨著極大的困難。當(dāng)企業(yè)決定投入時,他們需要考慮商業(yè)模式的問題,評估這樣的投資是否值得。問題也包括:為什么要從底層的大模型研究開始?是否可以在預(yù)訓(xùn)練好的模型基礎(chǔ)上進(jìn)一步開發(fā)應(yīng)用?這些都是企業(yè)需要根據(jù)自身的商業(yè)模式和業(yè)務(wù)邏輯來決定的。事實(shí)上,只有那些頂尖的大科技公司才有可能進(jìn)行這樣的投入。 當(dāng)前的大模型研究主要集中在文本處理上,但未來的方向是發(fā)展多模態(tài)模型。這些多模態(tài)模型的基礎(chǔ)是底層語言大模型,意味著如果沒有掌握底層語言大模型的訓(xùn)練技術(shù),就難以有效地整合多模態(tài)的數(shù)據(jù),這將限制未來的發(fā)展。因此,如果我們的目標(biāo)是實(shí)現(xiàn)通用人工智能,那么我們需要一步一個腳印地前進(jìn),而且每一步都需要巨額的投資。當(dāng)然,如果一家公司選擇專注于垂直領(lǐng)域,針對特定的行業(yè)或方向,那么從頭開始訓(xùn)練底層大模型可能并非必需。他們可以基于已有的預(yù)訓(xùn)練大模型進(jìn)行二次增強(qiáng)訓(xùn)練,以適應(yīng)特定的應(yīng)用需求。 預(yù)訓(xùn)練僅僅是漫長旅程的起點(diǎn),接下來還有監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)、獎勵函數(shù)等多個階段,每一步都需要大量資金投入,在學(xué)術(shù)界關(guān)于這些部分的研究相對較少。GPT-3的發(fā)布于2020年促使國內(nèi)外學(xué)術(shù)界進(jìn)行了大量跟進(jìn)研究,到了2021年,國內(nèi)便出現(xiàn)了萬億級別的模型(17500億參數(shù)),表明國內(nèi)已基本掌握預(yù)訓(xùn)練技術(shù)。這也解釋了為什么到了2023年,國內(nèi)涌現(xiàn)出許多相關(guān)公司。因此,跨越預(yù)訓(xùn)練這一步相對容易。然而,OpenAI后續(xù)未再公開大型模型的開源資料,關(guān)于如何進(jìn)行有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)的詳細(xì)工作幾乎無文可查,除了一篇關(guān)于Instruct GPT的論文,被認(rèn)為是GPT-3.5的前身。此后的研究細(xì)節(jié)鮮少對外公布,使得科研探索變得更為困難,且成本極高。據(jù)我了解,根據(jù)我們目前的研究情況,后續(xù)階段的投入可能遠(yuǎn)超預(yù)訓(xùn)練階段。即便是專注于某一特定領(lǐng)域的模型,所需的投入也非常巨大。 目前看來,學(xué)術(shù)界與企業(yè)合作似乎是一種有效的模式。例如,我們與榮耀合作的聯(lián)合實(shí)驗(yàn)室就是一個典型案例。企業(yè)帶來了實(shí)際應(yīng)用需求,而學(xué)校則貢獻(xiàn)了科研動力和先前的技術(shù)積累。這種合作模式讓雙方更加緊密地結(jié)合,能夠在特定場景下進(jìn)行嘗試,同時挖掘科學(xué)問題。比如,我們最近就發(fā)現(xiàn)了一個有趣的現(xiàn)象:一個擁有130億參數(shù)的模型,在僅僅修改了一個參數(shù)后,竟然無法正常輸出,全部是亂的。這個現(xiàn)象促使我們深入思考大語言模型的核心機(jī)制,探索語言與語義是否存在分離現(xiàn)象,以及大模型如何能夠出色地處理多語言問題,甚至推翻了我們?nèi)ツ甑囊幌盗醒芯砍晒?。合作過程中的這些發(fā)現(xiàn)和訓(xùn)練經(jīng)驗(yàn)的分享,使得雙方的合作更加緊密。無疑,這是一個非常好的合作模式。 如果學(xué)術(shù)界與企業(yè)無法建立良性互動循環(huán),那么使用如1000張顯卡這樣的規(guī)模進(jìn)行模型訓(xùn)練將不再可能,導(dǎo)致學(xué)校和企業(yè)均處于無進(jìn)展的循環(huán)中。這種局面不限于國內(nèi),國際上知名的高等學(xué)府,例如斯坦福大學(xué)和麻省理工學(xué)院,在大模型研究領(lǐng)域也面臨同樣的挑戰(zhàn)。 核心觀點(diǎn):
盡管按照去年3月發(fā)布的GPT-4、6月公開的API,以及11月公開的GPT-4 Turbo版本的發(fā)展來看,我們與它們的技術(shù)差距似乎在縮小。但若要評估我們與OpenAI整體的距離,實(shí)則非常困難。例如,最近公布的SORA,OpenAI實(shí)際上在一年前就已開始籌備。我們目前還缺乏一個清晰的大模型演進(jìn)思路和流程。如果僅從SORA的角度來看,我們與OpenAI的距離不止一年,可能還要更長。 由于SORA依賴于GPT-4的某些能力,我們可能在某些具體評價指標(biāo)上與GPT-4較為接近。然而,從普通用戶的使用場景來看,差距依舊顯著。這個距離到底是半年還是一年,很難具體估計(jì)。特別是到了強(qiáng)化學(xué)習(xí)階段,哪怕是微小的技術(shù)差異,也可能需要巨額資金和長期的技術(shù)積累才能彌補(bǔ)。我們往往只能看到OpenAI如冰山一角的成就,而其龐大的水下部分,即深厚的技術(shù)積累和研發(fā)背景,是我們難以見及的。因此,預(yù)測未來的趕超進(jìn)程也顯得尤為困難。 核心觀點(diǎn):
即使從創(chuàng)新的角度來看,我們的進(jìn)步看似微小,如將原有的DiT架構(gòu)更換為Transformer,并進(jìn)一步發(fā)展為ViT架構(gòu),表面上變化似乎并不顯著。然而,將ViT架構(gòu)擴(kuò)展應(yīng)用于視頻數(shù)據(jù),在這一過程中仍然體現(xiàn)了創(chuàng)新性。這種創(chuàng)新是逐漸演進(jìn)的,并非OpenAI一夜之間從無到有創(chuàng)造出新事物,而是長期汲取了學(xué)術(shù)界眾多思路的積累。 以SORA為例,處理視頻數(shù)據(jù)并非易事。盡管世界上有大量視頻,例如可以從嗶哩嗶哩下載(暫不考慮版權(quán)問題),但一系列挑戰(zhàn)隨之而來。首先,實(shí)際上高清視頻的數(shù)量有限,大多數(shù)視頻清晰度較低。其次,許多視頻在經(jīng)過轉(zhuǎn)碼壓縮后,兩幀之間可能出現(xiàn)條紋,若按逐幀訓(xùn)練方法,這種條紋會嚴(yán)重影響訓(xùn)練效果。再者,一些老舊視頻通過磁帶轉(zhuǎn)錄,磁粉丟失可能導(dǎo)致尾影現(xiàn)象。僅僅是視頻數(shù)據(jù)的準(zhǔn)備階段,就已經(jīng)面臨諸多工程性和技術(shù)性問題。這些問題是多學(xué)科交叉的挑戰(zhàn),不單單是工程問題,都需要妥善解決。 在視頻壓縮里,要把視頻還原成單幀,這件事情就不容易。如果做過截圖的人可能就會知道。例如電視下面的跑馬燈,看上去是那個字幕在走,但如果截幀之后,你會發(fā)現(xiàn)那個字根本是不完整的。這是由差值來造成的,那我們就需要把它還原回去,其實(shí)已經(jīng)很難了,這就是科學(xué)問題。第二個問題,我們對這個視頻其實(shí)并沒有很好的描述,只能告訴這個視頻是什么電視劇,但是沒有辦法對它的每一個場景說明,使用了什么樣的運(yùn)鏡,這里面有幾個人,是什么樣的場景等等,這些文字描述我們都沒有。就還要把這個文字描述補(bǔ)全,并且是高質(zhì)量的補(bǔ)全,甚至是偏專業(yè)化的,因?yàn)橐话闳烁静欢^運(yùn)鏡的邏輯是什么。這一部分完成了之后,還要去準(zhǔn)備網(wǎng)絡(luò)架構(gòu),在過去十年,做Image生成再到video生成的網(wǎng)絡(luò)架構(gòu)可能有幾百種,到底該怎么選?而且之前大家的測試都是3秒4秒范疇內(nèi)的,怎么能擴(kuò)展到60秒?過程中如何保證穩(wěn)定性,人物的不變,以及與世界知識保持,網(wǎng)絡(luò)架構(gòu)又該如何調(diào)優(yōu)?也都需要大量研究。 如果要進(jìn)行進(jìn)一步的研究,尤其是開發(fā)高達(dá)30億到百億級別的大型模型,我們將面臨對龐大計(jì)算資源的需求。例如,在生成過程中可能需要使用2048個GPU卡,且每次實(shí)驗(yàn)可能要運(yùn)行長達(dá)七天。然而,如果每次實(shí)驗(yàn)都需要七天,那么團(tuán)隊(duì)的工作效率將極為低下??紤]到需要測試幾百種模型,并從中發(fā)展新的模型,每次微小的調(diào)整都會消耗大量的計(jì)算資源。為了將實(shí)驗(yàn)時間縮短至一天,我們可能需要動用高達(dá)一萬張GPU卡,以實(shí)現(xiàn)每日實(shí)驗(yàn)和結(jié)果分析,但這樣龐大的計(jì)算成本和風(fēng)險是否能被公司承擔(dān)?畢竟,投入數(shù)億人民幣進(jìn)行一年的研究,最終可能一無所獲。從管理角度來看,十幾位算法研究員掌控如此巨額資金,如何有效運(yùn)用,選擇團(tuán)隊(duì),以及決策過程中將面臨眾多挑戰(zhàn)和考量。 自O(shè)penAI在2022年之后未再公開詳細(xì)信息,我們主要通過Instruct GPT的報告來了解GPT-3.5的相關(guān)內(nèi)容。雖然大致理解了它的發(fā)展方向,但許多具體細(xì)節(jié)依舊未知,盡管如此,我們相信其發(fā)展方向不會偏離正確路徑。然而,到了GPT-4時期,我們對其發(fā)展路線及其可能采用的MOE(Mixture of Experts)架構(gòu)了解更為有限。實(shí)際上,是否真的采用了MOE架構(gòu),以及MOE的具體含義和實(shí)現(xiàn)方式,都沒有得到OpenAI的直接確認(rèn),這些信息可能只是基于猜測。MOE架構(gòu)的解讀有多種可能,包括不同的混合專家模式,是否采用稀疏專家網(wǎng)絡(luò),或是其他混合方式。理解和選擇最合適的實(shí)現(xiàn)路徑,需要大量的實(shí)驗(yàn)以及對大型語言模型深入的理解和思考。目前我們基于自身的理解認(rèn)為MOE架構(gòu)有四到五種主要方向,而OpenAI可能還有我們未知的其他路徑。每條探索路徑都可能涉及巨額投資,若選擇錯誤,數(shù)億資金可能就會白白浪費(fèi)。因此,如何準(zhǔn)確選擇最佳路徑是一個極具挑戰(zhàn)的任務(wù)。 如果GPT-4的開發(fā)方向選擇不當(dāng),考慮SORA架構(gòu)與GPT-4之間的關(guān)系變得尤為關(guān)鍵。這種架構(gòu)依賴于融合文本和視覺生成模型的策略。盡管目前有許多關(guān)于ViT(Vision Transformer)的討論,關(guān)于如何整合視頻內(nèi)容,以及如何進(jìn)行壓縮——特別是如何實(shí)現(xiàn)時空區(qū)塊(Patch)的處理——仍缺乏具體細(xì)節(jié)。這意味著在每個細(xì)節(jié)上,我們面臨多種選擇。如果將所有這些選擇連成一條線,可能就有幾百種不同的路徑。如果嘗試這幾百種可能,成本將非常高昂。對投資者而言,這樣的風(fēng)險也非常大。 核心觀點(diǎn):
這件事情在我們實(shí)驗(yàn)室里爭議很大,有兩派觀點(diǎn)。我們已經(jīng)把它定義為哲學(xué)問題,很難討論,也很難證偽。討論太多之后,就很容易傷感情,所以現(xiàn)在我們實(shí)驗(yàn)室已經(jīng)不怎么討論這件事情了。 第一,是不是模型規(guī)模上去了,結(jié)果就一定能上去?我們對于已知的GPT3模型是1750億參數(shù),另外,了解到現(xiàn)在ChatGPT線上的版本不到200億參數(shù)。那為什么GPT-3就不能用?而GPT3.5的200億參數(shù),效果就這么好呢?它里面經(jīng)過了什么?是不是只要把規(guī)模做上去,所有的東西就萬事大吉了呢?其實(shí)是沒有定論的。如果把現(xiàn)在的規(guī)模從1750億擴(kuò)到17500億是正確的方式,那么在2021年,其實(shí)Google做過更大的模型,國內(nèi)也擴(kuò)大到過17500億。當(dāng)時做出的17500億模型,和現(xiàn)在的這個200億模型的能力有天壤之別,差距非常大。從這種角度上來看的話,不見得一定是模型規(guī)模要大到一個很大的程度。但這件事情沒辦法證偽或者證明。因?yàn)閯e人永遠(yuǎn)都可以說,你沒有做過,你有本事拿出來一個萬億的模型,跑跑看,結(jié)果會是什么樣子啊。 第二,從我們的實(shí)驗(yàn)結(jié)果上看到,比如Llama這個模型,它能做加法,但如果讓它做五位數(shù)乘以五位數(shù)的乘法,它就不會了。既然不會,那我們就訓(xùn)練它,搞一個200萬的訓(xùn)練數(shù)據(jù),都是k1×k2,k1和k2都是小于4位的,乘在一起都會小于9位數(shù)。訓(xùn)練完成之后會發(fā)現(xiàn),訓(xùn)練過的部分,那可能位數(shù)比較小,乘出來之后6,7位的,準(zhǔn)確率達(dá)到99%了,確實(shí)比之前要高。因?yàn)橹霸诓挥?xùn)練它的時候,Llama對于3位乘3位數(shù),很多都是錯的。但是4位乘以5位,4位乘以4位,它還是做不了,正確結(jié)果基本為零。然后我們還做了其他實(shí)驗(yàn),比如訓(xùn)練它10位加10位的加法,之前Llama也經(jīng)常做不了,它的結(jié)果可以從原來的40%,50%上升到了90%多。然后再訓(xùn)練11位加11位,每個訓(xùn)練集都是100多萬,也可以得到同樣的效果。但這時,我們測試它10位加11位,它又不會了。7b的模型是這種情況,13b的也是,70b還是一樣。當(dāng)然我們沒有條件去訓(xùn)練一個千億模型,萬億模型來測試它的這個結(jié)果。是不是在萬億模型情況下,它就能理解了加法的進(jìn)位原則? 如果說拿200萬的一個訓(xùn)練數(shù)據(jù)放進(jìn)去,在原來的預(yù)訓(xùn)練語料里面,我覺得至少也有大幾百萬的加法數(shù)據(jù)。在這么大的一個訓(xùn)練數(shù)據(jù)中,都沒有看到它能學(xué)會一個加法進(jìn)位原則。那Scaling Law能帶來什么呢?我覺得這是一個需要學(xué)術(shù)界和工業(yè)界都要去思考和研究的問題。 我們可以看到的是,模型參數(shù)越大,它能夠記住的東西就越多。這是可以接受的,也是可以證明的。1000億的模型能夠記住很細(xì)節(jié)的知識,70億的模型只能記住出現(xiàn)次數(shù)多的知識,出現(xiàn)次數(shù)少的就記不住了。但它也僅僅是用在記憶,所謂的涌現(xiàn),一些別的能力上就沒有看到了,所以爭議就會變得越來越大。 如果只是記憶,不能推理,其實(shí)沒有太大意義,記得再多也還是個壓縮型記憶。那我就不需要它了,如果我有一個外部的知識庫,再加上一個7b的模型,就可以干很多事情了。如果千億模型推理模型上不去,記憶能力我也不需要,因?yàn)榇竽P驮儆洃?,還是會有很多錯誤。那為什么我一定要用這個千億模型呢?這個路徑的選擇又變得非常關(guān)鍵。 之前,在謀篇論文里利用Scaling Law面畫了張趨勢圖,談到65b以上的模型可能出現(xiàn)了涌現(xiàn)現(xiàn)象。關(guān)于涌現(xiàn),大家看到的都是Jason Wei的那篇論文(Emergent Abilities of Large Language Models),那篇論文第一次提到了“涌現(xiàn)”。但如果大家回頭去看原始論文的時候,所謂出現(xiàn)涌現(xiàn)的那8個任務(wù)。剛開始是零,然后到了一個點(diǎn)之后,突然上去了,大家覺得這個涌現(xiàn)能力出來了。但是,他沒有告訴你的是這個big bench,數(shù)據(jù)集有200個任務(wù),只有8個任務(wù)出現(xiàn)了涌現(xiàn),比例很低。這只是其一,其二是里面的評測集合是什么?評測的指標(biāo)是0、1指標(biāo),做對了,就是1;做錯了,就是0。如果把指標(biāo)改成了某種概率型的評測,90分,80分,70分等等,而不是0和1。所以斯坦福在2023年4月份就發(fā)了一篇論文,把評測指標(biāo)改成概率型的。對的概率越來越高,它就變成了線性的。也就是說,隨著這個數(shù)據(jù)的增長,預(yù)訓(xùn)練數(shù)據(jù)量的增長,模型的增長,指標(biāo)就會逐漸上升。之前的度量方式,是因?yàn)?.99的正確性也是錯誤,所以超過了某個量級之后,剛好那就啪的出現(xiàn)了。看上去像是從0到1,得到了一個很高的漲幅,但其實(shí)并不是。所以現(xiàn)在學(xué)術(shù)界已經(jīng)基本上不怎么討論“涌現(xiàn)”了。 這件事情是需要大家仔細(xì)思考的,而不是說出現(xiàn)了一篇論文,寫了“涌現(xiàn)”這個詞語,后來廣泛傳播了。大家就要去相信這件事情,以此為準(zhǔn)則去做,你的目標(biāo)就完全不一樣了。你可能會以“涌現(xiàn)”為基準(zhǔn),只要Scaling上去了,就能獲得各種能力。那你就會往萬億去做,十萬億去做,會指導(dǎo)你做事的原則。小模型就別干了,干它干嘛呢?Open AI去搞個幾十萬張,幾百萬張卡,千萬張卡,然后做一個大幾百萬億的模型,AGI就出來了,做事的思路就會完全不一樣。 我覺得這種東西還是需要大家自己仔細(xì)化的判斷,判斷的源頭不是公眾號,不要去看公眾號,而是去看原文,公眾號上的東西,只是讓你快速的找到相關(guān)的東西,但你要仔仔細(xì)細(xì)的去看原文。Jason Wei的論文并沒有騙大家,他清晰的告訴了你,在big bench里找到了8個任務(wù),論文里有附錄。附錄里面別的情況,你要自己去看。 核心觀點(diǎn):
關(guān)于模型大小,我們學(xué)術(shù)界一般認(rèn)為超過10億的模型,就需要多機(jī)多卡的預(yù)訓(xùn)練,就算是大模型。之前的那種100M的、300M的模型,算是小規(guī)模模型。但也沒有明確的界限定義,對于企業(yè)來說,可能千億的模型才算是大模型。我們現(xiàn)在做研究,用的都是7b和13b的模型。 我們?nèi)ツ暌灿?xùn)練了一個2.8b的模型,為什么選擇這種大小,是因?yàn)樗梢栽谑謾C(jī)里面直接運(yùn)行,只需要4g內(nèi)存。我們放在iPhone里面跑,基本不用做任何適配,而且處理速度很快,也具備了很多跨任務(wù),多語言的處理能力。今年,Google和微軟也發(fā)布了小模型的版本,小模型在嵌入式設(shè)備里面,因?yàn)樗茉O(shè)備計(jì)算能力的限制。當(dāng)然也可以通過大模型做量化,不過目前我們看下來,還是原生的小模型,也就是不量化的版本,效果會更好一點(diǎn)。 這種小模型會出現(xiàn)一些很奇怪的現(xiàn)象,比如100M、200M的模型,它有一套完整的訓(xùn)練范式。之前經(jīng)過兩三年大家的研究,一個任務(wù),需要標(biāo)多少數(shù)據(jù)?怎么準(zhǔn)備?大家都有一些共識了。但是對于1億,10億,20億,30億這個檔次的模型,該怎么訓(xùn)練?我們明顯的感知到它們和70億、130億的模型,訓(xùn)練方法和方式有很大的不同。 模型劃分的界限在哪里?今年陸陸續(xù)續(xù),可能會有更多的一些研究成果出來。10億、20億、30億的模型,想做某一個任務(wù),該怎么做?它做什么樣的任務(wù)會做的比較好。70億、130億的模型可以解決一些什么樣的問題,它的訓(xùn)練范式是什么。在研究界,我覺得24年應(yīng)該會有一些明確的說法了。 在我的書中梳理了大模型研發(fā)相關(guān)的工作步驟、可能遇到的難點(diǎn),并介紹了分布式技術(shù)在大模型領(lǐng)域的應(yīng)用及其基礎(chǔ)技術(shù)的重要性。書中也講清了哪些信息是確切的,哪些是不確切。在學(xué)術(shù)界,對大模型的研究仍然是一個新興領(lǐng)域,許多研究成果還處于初級階段。這本書是為想要在大模型領(lǐng)域工作的人提供了一個實(shí)踐指南和研究概覽,對于那些要深入學(xué)習(xí)大模型的專業(yè)人員,可能還需參考額外的資料。 核心觀點(diǎn):
當(dāng)大模型首次出現(xiàn)時,因能夠完成眾多任務(wù)而受到高度關(guān)注。這些模型幾乎可以回答任何問題,提供各種解答,但通常效果只能達(dá)到一般水平,大概60分的水準(zhǔn)。隨著GPT-4等更進(jìn)階的模型推出,某些任務(wù)可以提高到80分,但在更專業(yè)的領(lǐng)域,表現(xiàn)依然徘徊在70分以下。 企業(yè)為了實(shí)際應(yīng)用所追求的,通常只需專注于3到10個特定任務(wù),而對這些任務(wù)是要求高準(zhǔn)確性和高質(zhì)量完成,有著嚴(yán)格的要求,即90分或95分的水平。大模型只有做到這個水平才能落地。一個通用的大模型,盡管可能擁有千億級別的參數(shù),但是所有任務(wù)上都難以達(dá)到這樣的高標(biāo)準(zhǔn)。這種局限性導(dǎo)致了大模型自身和企業(yè)應(yīng)用之間的一個矛盾。 要像讓大模型應(yīng)用成功,就必須轉(zhuǎn)化為產(chǎn)品。因?yàn)轫?xiàng)目定制開發(fā)的成本高昂,經(jīng)濟(jì)效益難以計(jì)算,因此,只有通過產(chǎn)品化才能實(shí)現(xiàn)盈利。面對產(chǎn)品化的過程,一個核心問題是如何將產(chǎn)品與具體應(yīng)用場景相結(jié)合。以銀行行業(yè)為例,考慮是否所有商業(yè)銀行和省級銀行有相同的需求。如果能從中抽象出共通的需求,并開發(fā)出能在這些場景中達(dá)到95分以上表現(xiàn)的模型,那么這種針對特定領(lǐng)域或場景的模型就有可能被各家銀行廣泛采用。是否存在這樣的可能性? 為此,公司需要深入研究每個行業(yè)的特定場景,從經(jīng)濟(jì)效益的角度評估開發(fā)滿足銀行行業(yè)十個關(guān)鍵場景需求的產(chǎn)品所需的投資規(guī)模。這涉及到成本和收益的計(jì)算:開發(fā)滿足這些場景要求的產(chǎn)品需要的投資額(例如兩億或三億),每個銀行愿意為這些解決方案支付的費(fèi)用,以及預(yù)計(jì)的投資回收期。 目前的挑戰(zhàn)在于,業(yè)界尚未找到一個有效的對齊機(jī)制,使得產(chǎn)品開發(fā)的成本與銀行的支付意愿相匹配。舉例來說,如果一個銀行只愿意支付500萬,但研發(fā)成本可能超過兩億,那么需要有足夠多的銀行購買才能收回成本。這就引發(fā)了一個問題:企業(yè)是否愿意承擔(dān)如此大的風(fēng)險去投資? 核心觀點(diǎn):
AI應(yīng)用存在兩種主流模式。首先是大模型直接被引入公司中,以替代或優(yōu)化現(xiàn)有工作流程。這種情況下,企業(yè)對AI的期望是可以直接應(yīng)用并產(chǎn)生即時效益的解決方案。第二種模式是創(chuàng)建AI原生(AI Native)應(yīng)用,這要求企業(yè)進(jìn)行大規(guī)模的探索和產(chǎn)品設(shè)計(jì),確保任何改變都對公司有實(shí)質(zhì)性的好處。 以法律領(lǐng)域?yàn)槔?,一開始人們可能認(rèn)為AI可以幫助撰寫案件材料或進(jìn)行相關(guān)案例的搜索。然而,從實(shí)踐角度來看,律師對于起訴狀的需求并不高,因?yàn)樗麄兺ǔW⒂谔囟愋偷陌讣延懈叨葍?yōu)化和定制化的模板。因此,使用大模型自動生成起訴狀可能不會帶來預(yù)期的效率提升,還可能因?yàn)檩敵雠c個人習(xí)慣不符而需要額外的修改。 在AI原生應(yīng)用的探索中,關(guān)鍵是找到那些特定的場景,用戶真正愿意為AI帶來的那60分所買單。例如,在學(xué)術(shù)審稿過程中,如果AI能幫助自動生成摘要和文章的優(yōu)點(diǎn),對于文章的缺點(diǎn)部分,作者可能更愿意親自撰寫,以確保準(zhǔn)確性和深度。AI這種輔助可能被認(rèn)為是有價值的,哪怕大模型只做到了60分,因?yàn)樗鼫p輕了作者的負(fù)擔(dān),我們就愿意改變原來的工作方式。 總之,AI原生應(yīng)用的開發(fā)和部署需要仔細(xì)考慮特定的應(yīng)用場景,只有當(dāng)AI的介入能夠帶來明顯的優(yōu)勢和效率提升時,用戶才會愿意接受這種技術(shù)變革。否則,強(qiáng)行做轉(zhuǎn)變,大家是很難接受的。 另外,從企業(yè)應(yīng)用的思路上來看,目標(biāo)也不應(yīng)是讓計(jì)算機(jī)完全替代人類,而是利用AI來提升員工的工作效率和能力。通過提供一個框架,AI可以幫助初級員工迅速成長為中級員工,減少了大量的培訓(xùn)時間和資源。然而,如何將初級員工變?yōu)橹屑墕T工,將中級員工提升為高級員工。 以微軟對OpenAI的投資為例,雙方自2022年初便開始合作探討AI的應(yīng)用,這表明了對AI應(yīng)用發(fā)展的深度思考和長期規(guī)劃,并非僅僅因?yàn)榧夹g(shù)的進(jìn)步而匆忙應(yīng)用。微軟之所以堅(jiān)持發(fā)展如Copilot這樣的方式,可能基于對未見領(lǐng)域的深刻洞察,認(rèn)為通過AI輔助,即便不是一次性解決所有問題,也能顯著提高工作效率。GitHub Copilot也不是直接為程序員編寫代碼,而是在編程時提供推薦,幫助快速完成編碼任務(wù)。這種方式不僅節(jié)省了程序員的時間,還允許他們將更多精力投入到深入思考和創(chuàng)新中。通過AI的輔助,可以將一個初級程序員的工作效率提升,讓原本一天的工作量減半,從而為探索更復(fù)雜問題留出空間。 核心觀點(diǎn):
去年12月,我們發(fā)布了復(fù)旦的眸思模型,這是一個基于我們之前開發(fā)的純文本模型MOSS的多模態(tài)理解模型。我們的目標(biāo)是探索并擴(kuò)展到圖像理解領(lǐng)域,受到了GPT-4等技術(shù)的啟發(fā)。通過分析海量圖片,眸思模型能夠理解自然界的復(fù)雜場景,甚至是之前難以訓(xùn)練的稀有場景,比如馬出現(xiàn)在加油站。這種能力不僅展示了模型的理解和推理能力,也開啟了思考多模態(tài)模型能解決什么問題和最適合應(yīng)用的場景。 我們將謀思比作一個長了眼睛的語言模型,并由此聯(lián)想到盲人可能會有哪些特殊需求。盡管之前業(yè)界也有類似嘗試,例如基于GPT4推動的Be My Eyes項(xiàng)目,但我們發(fā)現(xiàn)這些嘗試并不能完全滿足盲人的需求。經(jīng)過調(diào)研,我們確定了幾個盲人面臨的核心痛點(diǎn),并在今年2月底推出了“聽見世界”這個公益項(xiàng)目,旨在解決這些痛點(diǎn),例如幫助盲人在戶外識別紅綠燈、障礙物、人行橫道等基本信息,以及在開闊地帶導(dǎo)航和識別周圍環(huán)境。 我們相信,通過專注于具體場景,這樣我們的研究也可以更有針對性,而不是僅僅追求通用性。這樣的專注也能促進(jìn)我們在技術(shù)架構(gòu)和創(chuàng)新方面的進(jìn)步。希望通過這個項(xiàng)目,不僅能解決盲人的實(shí)際問題,還能鼓勵更多的人和組織加入這一努力,共同改善盲人的生活質(zhì)量。 近期,我們團(tuán)隊(duì)也歡迎了許多視障朋友的加入,他們的需求和反饋直接影響了我們的研究方向和應(yīng)用開發(fā)。甚至有視障朋友自己開發(fā)了APP,集成了GPT-4和最新的Cloude-3模型,展示了他們對于改善生活的強(qiáng)烈需求和追求。 我們認(rèn)為通過多模態(tài)大模型的應(yīng)用,可以開辟一種新的解決方案,幫助盲人更好地融入社會,提高他們的生活質(zhì)量。這種方法相較于傳統(tǒng)的基礎(chǔ)設(shè)施改進(jìn),可能更為經(jīng)濟(jì)高效,展現(xiàn)了技術(shù)創(chuàng)新在社會服務(wù)領(lǐng)域的巨大潛力。 # 您認(rèn)為AGI的概念是一種商業(yè)炒作,還是很快就會到來?這個話題與Scaling Law一樣,屬于我們實(shí)驗(yàn)室里討論的禁區(qū)。如果你相信Scaling Law,也可能會相信AGI很快就會到來。我的觀點(diǎn)是: 第一,我認(rèn)為SORA并不是世界模型,體現(xiàn)的只是像素之間的關(guān)系,世界長成這個樣子,所以它表現(xiàn)出這種形式,而不是建模了這個世界。 第二,大模型能否成為通往AGI的必由之路?我在專題報告中也講到過,如果說大模型是通往AGI的必由之路,就一定要解決推理問題。 所謂的AGI就是可以讓AI來做一個正常人做的所有的腦力勞動。過去的小模型,例如AlphaGo下圍棋,它可以是世界冠軍,但是它下五子棋,就是零分,因?yàn)樗欢?,必須要專門的訓(xùn)練。所以AGI要具備的要素就是必須得會語言,會知識,會推理,會學(xué)習(xí)。 我們先把AI自我學(xué)習(xí)、自我演進(jìn)這件事情先放一放。先只談推理,首先談到語言這件事情,我們可能覺得它已經(jīng)解決的很好了。其次,知識這件事情,如果通過Scaling law,它也能記住大部分的專業(yè)知識。但人類有大量的常識知識,我覺得是靠文本模型是永遠(yuǎn)學(xué)不到的。因?yàn)槲覀冊谖谋局惺遣粫劦匠WR的,比如說一個玻璃杯掉到地上會碎,但一個玻璃杯掉到沙發(fā)上就不會碎。玻璃杯重,塑料杯子輕等等,這里有非常多的內(nèi)容是我們認(rèn)為的常識。這些東西是不會寫在書本上,我們也不會對此進(jìn)行教育,甚至我們都不會用語言來表達(dá),這是小孩子在成長過程中,他自己來學(xué)習(xí)的部分。 如果說SORA這樣的視頻它具備了對世界的建模能力,就變得非常非常嚇人,因?yàn)樗梢酝ㄟ^視頻看到之后,就把它建模出來,變成了世界模型,也許就像大家說的,一年之內(nèi)AGI就要來了。但事實(shí)并不是這樣的,而且世界模型這件事情,即使要回歸到Open AI自己的說法,他們有在說自己是世界模型嗎?大家以訛傳訛的太多了,有必要回去看看英文的原文是怎么來表達(dá)這個觀點(diǎn)的。 回到大模型本身,我覺得如果大模型要想作為AGI的話,就必須具備推理能力。推理能力又可以細(xì)分為三類:演繹推理、歸納推理和溯因推理。 演繹推理,就是經(jīng)典的三段論:人都會死,蘇格拉底是人,所以蘇格拉底會死。這個部分是傳統(tǒng)的人工智能里面用謂詞邏輯,一階謂詞其實(shí)已經(jīng)做了非常深的研究。如果我們能把自然語言表達(dá)成一階謂詞,那其實(shí)就可以做推理,但是前任已經(jīng)證明了人類的自然語言是沒有辦法用一階謂詞進(jìn)行表達(dá)的。所以一階謂詞、謂詞邏輯這些內(nèi)容,雖然它們已經(jīng)有了非常好的數(shù)學(xué)基礎(chǔ),但是沒有辦法跟自然語言結(jié)合,沒有辦法和知識結(jié)合,所以也就沒有很好的應(yīng)用。那至少演繹推理這件事情還是有數(shù)學(xué)基礎(chǔ)的。 歸納推理,就是說我們看到了所有有翅膀的動物都是鳥,這次我們又看到了一個有翅膀的動物,所以我大概率認(rèn)為它就是是鳥。論證的前提可以支持這個結(jié)論,但不保證這個結(jié)論一定正確。比如我們家孩子前兩天買了一個水底的,奇奇怪怪的兩棲動物,好像長了小翅膀,但它就不是個鳥。所以我覺得大模型不具備歸納推理能力。歸納推理也沒有非常好的數(shù)學(xué)模型來支撐,因?yàn)樗皇?1的。 溯因推理,比如說我們見到發(fā)動機(jī)下面有一灘液體,我們自然就會推斷出,大概率是發(fā)動機(jī)漏油或者變速箱漏油了。這件事情是從事實(shí)推理到一個最佳解釋,所以它開始于事實(shí),然后通過推導(dǎo)得到其推理過程。這個部分也沒有完整的數(shù)學(xué)建模能力。大語言模型具備溯因推理嗎?我覺得這件事情也是需要一個非常仔細(xì)的思考和論證的,但這件事情很難證偽,也很難證明。 如果大語言模型在這些方面不能取得突破的話,它其實(shí)很難作為成為AGI的,這些能力都是人類所具備的基本能力。如果大模型想要成為AGI,它就必須得具備很好的推理,包括演繹、歸納和溯因推理,它必須都要具備。目前探測下來,基于現(xiàn)在的GPT-4或者現(xiàn)在的開源模型,其實(shí)它們都是不具備這些能力的。 雖然大模型看起來具有一定的演繹推理能力,一些非常難的題,它也能做對。但如果你再回去看之前的訓(xùn)練數(shù)據(jù),你會發(fā)現(xiàn)因?yàn)橛?xùn)練數(shù)據(jù)里放了一本類似推理108問的書,經(jīng)典的題都放進(jìn)去了,如果你在那個經(jīng)典108問以外,或者對這108問稍微變了點(diǎn)形式,它又答錯了。所以它到底是不是真的會推理呢?也許Ilya認(rèn)為,只要模型輸出的結(jié)果是正確的,它就是會推理。這是真的嗎?你有沒有回去看它原始的訓(xùn)練數(shù)據(jù)呢?推理到底是從哪里帶來的呢?它做了80分,就說它會推理嗎?從70分漲到80分,到底是什么原因呢?這些部分我覺得都是需要非常深入的理論思考和認(rèn)知。 我個人的基本判斷是目前大模型不會推理,不會推理就不會有AGI。所以我覺得AGI還早,沒有辦法說10年、20年還是30年。也許明天有一個絕頂聰明的人想到另外一套模型,只用少量的數(shù)據(jù),就可以得到推理能力,那可能AGI一天就實(shí)現(xiàn)了。 回到大模型這個維度上,我認(rèn)為只依靠大模型大概率是沒有實(shí)現(xiàn)AGI的可能性的。但是這僅僅代表我個人的判斷,甚至都不能代表我們實(shí)驗(yàn)室的判斷,因?yàn)槲覀儗?shí)驗(yàn)室,也有很多同學(xué)和老師堅(jiān)定的認(rèn)為,大模型可以具備推理能力。它現(xiàn)在就只能做80分,是因?yàn)樗粔蚵斆鳎绻躍caling到1萬億,到10萬億,他就具備了推理能力。我只能說,到了那個時間點(diǎn),做到了那么大的模型,再來做一些相關(guān)的分析。 這件事情的爭論就非常大。所以還是需要大家有自己的判斷力,你到底自己怎么認(rèn)為,就會決定了你未來想怎么干。 核心觀點(diǎn):
一方面,我認(rèn)為他們可能受到了商業(yè)的影響,和學(xué)術(shù)界的立場不盡相同。可能一些人認(rèn)為,對AGI的探索和討論可以被當(dāng)做某種策略,以降低公眾對AGI可能引發(fā)的恐慌,或作為競爭策略,減緩對手(OpenAI)的研發(fā)進(jìn)度。 另一方面,他們可能已經(jīng)接觸到了一些未公開的高級模型,例如所謂的萬億參數(shù)模型,媒體上瘋傳的那54頁紙(Q star),這也可以解釋他們對未來技術(shù)進(jìn)步緊張的可能性。然而,這些都難以證實(shí)的,因?yàn)榇蠖鄶?shù)人并未見過這些模型或了解其具體細(xì)節(jié)。 從根本上講,當(dāng)前的大模型依舊基于概率統(tǒng)計(jì),專注于學(xué)習(xí)數(shù)據(jù)之間的相關(guān)性而非因果性。這意味著,盡管模型能識別出某些元素常常一起出現(xiàn),例如海龜和沙灘,但這種就是概率的相關(guān)性,并不等同于深層次的世界理解或推理,這才是實(shí)現(xiàn)AGI的關(guān)鍵障礙。 商業(yè)和學(xué)術(shù)界的差異可能反映了文化差異,在表達(dá)和追求目標(biāo)時的風(fēng)格不同。 事實(shí)上,確實(shí)有些研究人員,如Ilya,非常相信這點(diǎn)。即使現(xiàn)在推理的能力只有60分,他就堅(jiān)信大模型會推理了,只有堅(jiān)信也才會非常堅(jiān)定的推進(jìn)研究工作。國外的研究人員非常值得敬佩,就好像Hinton研究神經(jīng)網(wǎng)絡(luò)20年,即使被人懷疑,無處投稿,還要繼續(xù)研究,最終導(dǎo)致了深度學(xué)習(xí)和當(dāng)前大模型的突破。這是研究者自己個人的選擇。 總結(jié)來說,我們今天的討論展示了張教授的個人觀點(diǎn),也代表了在AI領(lǐng)域探索的多樣性、復(fù)雜性和未知性。在AGI的研究和討論中,不同的假設(shè)、預(yù)期,以及個人信念共同塑造了這一領(lǐng)域的多元景象。每位讀者或聽眾還是要回到事實(shí)和原文中去學(xué)習(xí)和探索,要堅(jiān)信自己的思考,堅(jiān)定自己的理想,我們已經(jīng)到了這樣一個時代,不一定是為了活著而努力,而是為了理想而努力。 【嘉賓介紹】 張奇,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、博士生導(dǎo)師。主要研究方向是自然語言處理和信息檢索。兼任中國中文信息學(xué)會理事,中國中文信息學(xué)會信息檢索專委會常務(wù)委員,中國人工智能學(xué)會青年工作委員會常務(wù)委員。多次擔(dān)任ACL、EMNLP、COLING、全國信息檢索大會等重要國際、國內(nèi)會議的程序委員會主席、領(lǐng)域主席、講習(xí)班主席等。承擔(dān)國家重點(diǎn)研發(fā)計(jì)劃課題、國家自然科學(xué)基金、上海市科委等多個項(xiàng)目,在國際重要學(xué)術(shù)刊物和會議上發(fā)表論文150余篇,獲得美國授權(quán)專利4項(xiàng)。獲得WSDM 2014最佳論文提名獎、COLING 2018領(lǐng)域主席推薦獎、NLPCC 2019杰出論文獎、COLING 2022杰出論文獎。獲得上海市“晨光計(jì)劃”人才計(jì)劃、復(fù)旦大學(xué)“卓越2025”人才培育計(jì)劃等支持,獲得錢偉長中文信息處理科學(xué)技術(shù)一等獎、漢王青年創(chuàng)新一等獎、上海市科技進(jìn)步二等獎、教育部科技進(jìn)步二等獎、ACM上海新星提名獎、IBM Faculty Award等獎項(xiàng)。 |
|