在11月29日下午的WISE主會(huì)場(chǎng)演講中,月之暗面創(chuàng)始人楊植麟為我們帶來(lái)了對(duì)大模型的最新思考。 ChatGPT帶來(lái)的熱潮已經(jīng)持續(xù)一年,這一年里,國(guó)內(nèi)大模型市場(chǎng)快速走完從0到1的過(guò)程,市場(chǎng)競(jìng)爭(zhēng)正在逐漸深化。僅僅做出一個(gè)通用大模型已然不夠,在接下來(lái)的AI競(jìng)賽中,如何真正提升模型能力,是決定模型是否真正可用的關(guān)鍵。 成立于2023年的月之暗面(Moonshot),是大模型領(lǐng)域的一位關(guān)鍵玩家。過(guò)去五年,月之暗面聚集了一支頂尖AI團(tuán)隊(duì),他們?cè)鴧⑴cGoogle Bard、Gemini、盤古、悟到多個(gè)大模型的研發(fā)過(guò)程中。 今年10月,月之暗面正式發(fā)布了第一款對(duì)話類產(chǎn)品Kimi Chat,具備世界級(jí)的長(zhǎng)文本處理能力,該產(chǎn)品支持約20萬(wàn)字中文的上下文長(zhǎng)度,使得整體表現(xiàn)非常驚艷。楊植麟認(rèn)為,如今基于Transformer架構(gòu)的大模型,是“新時(shí)代的計(jì)算機(jī)”,參數(shù)數(shù)量決定計(jì)算復(fù)雜度,上下文長(zhǎng)度決定內(nèi)存大小——因此,上下文長(zhǎng)度是毫無(wú)疑問(wèn)的關(guān)鍵所在。 上下文長(zhǎng)度也正是近期AI圈中的比拼熱點(diǎn),各家都在這一指標(biāo)上你追我趕。但這背后的核心問(wèn)題在于:什么才是真正有效的規(guī)?;?? 在演講中,楊植麟表示,規(guī)?;峭ㄏ駻GI的核心,而隨著模型不斷迭代,長(zhǎng)文本會(huì)逐漸取代微調(diào),成為定制模型的關(guān)鍵技術(shù)。但通過(guò)滑動(dòng)窗口、降采樣、小模型等技術(shù)捷徑實(shí)現(xiàn)上下文窗口延長(zhǎng),都是“技術(shù)捷徑”?,F(xiàn)在大模型應(yīng)該真正做到的,是對(duì)數(shù)據(jù)的無(wú)損壓縮,才能真正提升模型能力。 而未來(lái),大模型的作用機(jī)理,也會(huì)讓AI時(shí)代的原生App開發(fā)經(jīng)歷范式轉(zhuǎn)變?!耙郧?,探索產(chǎn)品PMF可能是解鎖手機(jī)密碼,需要試一個(gè)個(gè)密碼,但未來(lái),可能是由產(chǎn)品經(jīng)理指出一個(gè)區(qū)間,借助大模型的暴力計(jì)算,來(lái)找到最好的解決方案?!彼硎?。 來(lái)源:36氪 以下是演講實(shí)錄,內(nèi)容經(jīng)36氪編輯: 楊植麟:大家好!今天非常高興有機(jī)會(huì)來(lái)到這里,也感謝36氪的邀請(qǐng),今天我分享的主題是《AGI需要真實(shí)的規(guī)?;贰?/p> 先從50年前的一個(gè)搖滾樂(lè)隊(duì)開始講起。1973年的時(shí)候,著名的搖滾樂(lè)隊(duì)Pink Floyd發(fā)行了他們一張非常重要的專輯,叫《月之暗面》(The dark side of the moon)五十年后,我們成立了一家AGI公司,名字也叫“月之暗面”。 這個(gè)名字跟AGI其實(shí)是相關(guān)聯(lián)的。因?yàn)樵铝恋谋趁嫖覀兤鋵?shí)平時(shí)是看不到的,平時(shí)我們能看到的可能是月亮發(fā)光的一面,但是它的背面非常引人入勝,非常的神秘。就跟AGI一樣,我們不知道智能的極限到底在哪里,不知道我們AGI會(huì)用什么樣的方式來(lái)實(shí)現(xiàn),實(shí)現(xiàn)之后又會(huì)發(fā)生什么樣的事情。所以,月之暗面也是表示了我們?cè)敢?,而且非常希望能夠長(zhǎng)期去探索月球的背面是什么樣的。 在過(guò)去的五年的過(guò)程中,我們聚集了一支人才密度非常高的團(tuán)隊(duì),我們主導(dǎo)和參與了國(guó)內(nèi)外的非常多經(jīng)典大模型的開發(fā),包括Google Bard,google Gemini、盤古和悟道一系列的大模型。 我們也發(fā)明了歷史上第一個(gè)全面超越了RNN的Transformer語(yǔ)言模型。我們團(tuán)隊(duì)的很多作為第一作者和核心貢獻(xiàn)者發(fā)明了的技術(shù),被許多主流的產(chǎn)品多采用,比如,LLaMA就用了我們很關(guān)鍵的Positional encoding技術(shù),像Stable Diffusion網(wǎng)絡(luò)架構(gòu)里面的兩個(gè)核心的架構(gòu),里面的Group Organization也是由我們團(tuán)隊(duì)發(fā)明的。 這是我們的產(chǎn)品Kimi Chat,它最主要的特點(diǎn)是具備世界級(jí)的長(zhǎng)文本處理能力。這其中最主要的兩個(gè)點(diǎn)是,一是到底能處理多少字,我們能支持高達(dá)20萬(wàn)甚至更長(zhǎng)的上下文窗口的處理。 除此之外,我們采用了無(wú)損壓縮技術(shù),所以使得說(shuō)在處理很長(zhǎng)的上下文的同時(shí),也能夠保證信息處理的準(zhǔn)確性,不會(huì)出現(xiàn)像lost in the middle(某些中間層數(shù)據(jù)沒有學(xué)到有效的特征表示)的問(wèn)題,就不管你的答案是出現(xiàn)在開頭、中間、結(jié)尾,還是說(shuō)需要融合不同的文檔位置的問(wèn)題進(jìn)行回答,都可以給出準(zhǔn)確的答案。 我們的用戶和我們共創(chuàng)了很多新玩法。舉一個(gè)非常有意思的例子,我們有一個(gè)做投資行業(yè)的朋友,他們暑期想招實(shí)習(xí)生,所以他在我們系統(tǒng)上傳了50份簡(jiǎn)歷,每份簡(jiǎn)歷都是一個(gè)PDF文檔,這時(shí)候就是需要系統(tǒng)有很強(qiáng)的上下文處理能力。 50個(gè)簡(jiǎn)歷上傳之后,朋友就給他提要求。比如實(shí)習(xí)生可能要具備一定的英語(yǔ)水平、有比較強(qiáng)的技術(shù)背景、要對(duì)AI和投資也有熱情。我們的Kimi chat,在閱讀完這50份簡(jiǎn)歷之后,馬上就給出來(lái)了Top 5推薦。最后Top2的兩個(gè)人剛好就是他們最后實(shí)際被錄用的實(shí)習(xí)生。 這只是其中一種,還有各種各樣的例子。比如說(shuō),你可能平時(shí)打車有很多發(fā)票整理工作,現(xiàn)在就可以直接上傳這50個(gè)發(fā)票,Kimi Chat就可以自動(dòng)給整理你過(guò)去一個(gè)月的行程到底是什么樣的,直接整理出來(lái)一個(gè)報(bào)銷文檔。 又或者有好幾篇英文論文,你想對(duì)他做比較、分析,Kimi Chat都可以利用它的長(zhǎng)文本能力,去很好的完成任務(wù)。 如果放到五年前,AI的這些技術(shù)突破——幫你篩選簡(jiǎn)歷、去挑選實(shí)習(xí)生,我認(rèn)為是完全不可想象的。如果我們看歷史的發(fā)展,這里面其實(shí)有一些偶然性,也有一些必然性,我愿意稱之為是偶然中的必然。 在2022到2023的時(shí)間點(diǎn),我們剛好具備了一些非常重要的歷史性因素。 第一個(gè)重要的因素是,發(fā)展了二十多年的互聯(lián)網(wǎng),這二十多年里,誕生了像google這樣偉大的互聯(lián)網(wǎng)公司。不過(guò),我認(rèn)為最大的價(jià)值很有可能互聯(lián)網(wǎng)是為AI積累了二十多年的數(shù)據(jù),這實(shí)際上是AI時(shí)代的一段引導(dǎo)程序。通過(guò)這些海量的數(shù)據(jù),使得我們訓(xùn)練這種大規(guī)模的語(yǔ)言模型成為了可能。 第二,不管是芯片技術(shù)還是網(wǎng)絡(luò)技術(shù)的突破,讓我們有現(xiàn)在的計(jì)算中心規(guī)模,能夠一下子在一個(gè)單一集群里訓(xùn)練25次方次浮點(diǎn)數(shù)的運(yùn)算,可能少一個(gè)數(shù)量級(jí)都不行。 25次方次就是GPT-4的規(guī)模。如果只是10的24次方,那今天有可能什么事情都不會(huì)發(fā)生。但當(dāng)?shù)搅?0的25次方之后,GPT-4突然發(fā)生了涌現(xiàn)很多智能。以前是完全做不了的任務(wù),那現(xiàn)在可以做了。 還有另外一個(gè)很重要的變量,就是Transformer架構(gòu)的發(fā)明。如果回到六年前,這個(gè)世界上可能還沒有Transformer架構(gòu),以前的學(xué)者研究過(guò)傳統(tǒng)RNN網(wǎng)絡(luò)結(jié)構(gòu)的極限,有個(gè)論文標(biāo)題就叫《ExpLoring the Limits of Language Modeling》,但是你會(huì)發(fā)現(xiàn)最終的結(jié)果就是一無(wú)所獲。 因?yàn)楫?dāng)模型變大之后,你并不能得到一個(gè)更好的模型,訓(xùn)練損失不會(huì)更低,也不能得到更好的泛化的結(jié)果。而只有Transformer架構(gòu)是能夠被scale(擴(kuò)大規(guī)模)的。所以本質(zhì)上,我們是需要一個(gè)可被規(guī)?;木W(wǎng)絡(luò)架構(gòu),就是Transformer。 本質(zhì)上,正是因?yàn)檫@三個(gè)因素在這個(gè)時(shí)間點(diǎn)剛好匯聚起來(lái),使得說(shuō)AGI出現(xiàn)了一些苗頭,以及未來(lái)的繼續(xù)發(fā)展成為了可能。 并且,我們可以看到,規(guī)?;鋵?shí)是AGI的核心——其實(shí)是架構(gòu)、算力、數(shù)據(jù)三個(gè)要素的規(guī)?;?。但是我們不光只是需要規(guī)?;?,而是需要真實(shí)的規(guī)模化。 這里會(huì)有很多的維度,舉個(gè)例子,假設(shè)我們今天訓(xùn)練了一個(gè)百萬(wàn)億的模型參數(shù)的模型,但是如果只到這一步,那它可能就不是真實(shí)的規(guī)?;?。 我會(huì)從兩個(gè)例子來(lái)展開介紹,到底什么是真實(shí)的規(guī)模化。 我們認(rèn)為,Transformer是新時(shí)代的計(jì)算機(jī)。這跟老的計(jì)算機(jī)不一樣,老的計(jì)算機(jī)可能是你通過(guò)編碼方式實(shí)現(xiàn)一個(gè)確定性的需求,但在Transformer上,你可能是通過(guò)Prompt作為編程語(yǔ)言,用數(shù)據(jù)作為橋梁去嫁接你的產(chǎn)品和研發(fā)。 在這種新的計(jì)算范式下面,它會(huì)產(chǎn)生新的計(jì)算,會(huì)產(chǎn)生新的內(nèi)存。比如說(shuō)參數(shù)數(shù)量可能就會(huì)決定計(jì)算復(fù)雜度,上下文的長(zhǎng)度就會(huì)決定內(nèi)存大小。有了很大的內(nèi)存之后,你就可以去解鎖很復(fù)雜的計(jì)算鏈路,比如訓(xùn)練一個(gè)很復(fù)雜的Agent完成各種任務(wù),閱讀不同的文件,去綜合不同的分析,最后得到想要的結(jié)果。 同時(shí),它也是降低幻覺非常好的手段。如果你平白無(wú)故的去問(wèn)一個(gè)模型,那他可能會(huì)開始有Hallucination(幻覺)。但如果我們能夠把搜索的結(jié)果,或者很多個(gè)人文檔、公司文檔作為上下文的話,它就可以極大程度的降低幻覺,因?yàn)樗械男畔⒍伎梢詮奈臋n里面被提取和歸納。 現(xiàn)在很多大模型的開發(fā)者也面臨這樣的問(wèn)題,你可能用了自己的專有數(shù)據(jù),我也調(diào)了一個(gè)模型,但如果你的基座模型升級(jí)了,你可能所有的這些微調(diào)都白費(fèi)了。 所以,我們認(rèn)為長(zhǎng)文本是接下來(lái)會(huì)取代微調(diào)的一種定制化的方式。你可以把所有的指令數(shù)據(jù)、訓(xùn)練數(shù)據(jù)作為少量版本的prompt,作為模型的輸入。當(dāng)你的模型發(fā)生升級(jí)的時(shí)候,你并不需要再重新用你的訓(xùn)練數(shù)據(jù)再微調(diào)一遍,而是僅僅需要把Prompt適配,完全不需要做任何的調(diào)整。這是一個(gè)非常強(qiáng)大的定制化工具,也是未來(lái)所有人能產(chǎn)生個(gè)性化的模型的基礎(chǔ)。 現(xiàn)在,有很多模型的上下文長(zhǎng)度變得越來(lái)越長(zhǎng),但并不都是真實(shí)的規(guī)模化,里面有一些技術(shù)捷徑。 比如說(shuō),有些模型可能是個(gè)金魚模型,我可能是在一個(gè)很短的窗口上去訓(xùn)練,把它去泛化,比如說(shuō)推到一個(gè)相對(duì)長(zhǎng)的窗口,在泛化到很長(zhǎng)的窗口的時(shí)候,他就可能會(huì)出現(xiàn)記憶損失,就像金魚一樣,可能是只有7秒鐘的記憶。 它也有可能是一個(gè)蜜蜂模型,通過(guò)檢索或者降采樣的方式,只關(guān)注局部,比如其中的某一小段的內(nèi)容。這樣你就沒有辦法對(duì)全局得到一個(gè)很好的理解。 他也有可能是一個(gè)蝌蚪模型,也就是模型非常小。就像你的計(jì)算機(jī)一樣,雖然你有一個(gè)非常大的內(nèi)存,但是你的計(jì)算不足,你的CPU是很弱的。這種情況下,其實(shí)你也沒有辦法得到一個(gè)非常好的結(jié)果。 所以我們要的是不是金魚模型,不是蜜蜂模型,也不是蝌蚪模型,這些都不是真實(shí)的規(guī)?;?。真實(shí)的規(guī)?;瘧?yīng)該是獵豹、獅子、老虎,應(yīng)該是無(wú)損壓縮。 GPT-4 壓力測(cè)試結(jié)果 Kimi 壓力測(cè)試結(jié)果 這是一個(gè)非常經(jīng)典的關(guān)于長(zhǎng)文本能力的測(cè)試:大海撈針。 什么意思呢?我會(huì)給模型非常多的文檔,我會(huì)在隨機(jī)在文檔里面去插入一句話。比如說(shuō)北京最好的事情是什么,北京最吸引人的點(diǎn)是什么?你在文檔里面去插入這句話,然后他你這樣你就可以得到一個(gè)實(shí)驗(yàn),就是說(shuō)你在不同的長(zhǎng)度,在你不同的插入位置的情況,他的回答的準(zhǔn)確率到底是什么樣。 左邊是GPT4的結(jié)果,這是在Twitter上非?;鸬囊粋€(gè)測(cè)試。簡(jiǎn)單的說(shuō),就是你這個(gè)圖里面紅點(diǎn)越少越好。紅點(diǎn)多就表示你在這種情況下回答可能是錯(cuò)誤的,可以看到,上下文長(zhǎng)度變長(zhǎng)之后,它其實(shí)對(duì)文檔前半部分的理解,它是會(huì)出現(xiàn)非常多誤差的。 我們把一樣的實(shí)驗(yàn)放在kimi chat里面??梢钥吹?,除了左下角有一個(gè)紅點(diǎn)之外,其他所有地方都是綠的,也其他所有地方的回答都是準(zhǔn)確的,這個(gè)也是得益于我們的無(wú)損壓縮技術(shù)。 我們認(rèn)為這才是真實(shí)的規(guī)模化,而不是一個(gè)非真實(shí)的上下文長(zhǎng)度規(guī)模化。 我們經(jīng)常會(huì)提起“摩爾定律”,摩爾定律最早指的是,每N年晶體管數(shù)量可能會(huì)翻一倍?,F(xiàn)在,AI時(shí)代也有不同的摩爾定律??赡苊縉個(gè)月,模型的參數(shù)數(shù)量翻一倍,那N個(gè)月后模型算力也要翻一倍,每N個(gè)月你的能實(shí)現(xiàn)可用的這個(gè)場(chǎng)景數(shù)量,它應(yīng)該翻一倍。 我們認(rèn)為其實(shí)現(xiàn)在最關(guān)鍵的其實(shí)應(yīng)該是這個(gè)定律,這是通往AGI非常必要的路。它不應(yīng)該是一個(gè)線性的增長(zhǎng),它應(yīng)該是一個(gè)指數(shù)的增長(zhǎng)。 它不應(yīng)該是蠻力的用傳統(tǒng)的AI方式實(shí)現(xiàn),比如以前傳統(tǒng)的AI系統(tǒng),大家會(huì)做的事情就是把這個(gè)系統(tǒng)拆解成很多個(gè)小問(wèn)題,比如1萬(wàn)個(gè)AI問(wèn)題,每個(gè)AI問(wèn)題是單獨(dú)去收集數(shù)據(jù)。但這個(gè)是不可規(guī)模化的,很難實(shí)現(xiàn)指數(shù)增長(zhǎng)。如果你沒有辦法實(shí)現(xiàn)指數(shù)增長(zhǎng),你就沒有辦法實(shí)現(xiàn)AGI。 另外一個(gè)很重要的問(wèn)題是,AI時(shí)代去探索產(chǎn)品PMF(Product Market Fit)的過(guò)程,會(huì)和互聯(lián)網(wǎng)時(shí)代、甚至更早前的軟件時(shí)代完全不同。 以前探索PMF的過(guò)程是什么?以前,你在手機(jī)上去破解密碼,假設(shè)現(xiàn)在是一個(gè)四位數(shù)的密碼,你會(huì)有一萬(wàn)種不同的可能性??赡苣阌幸粋€(gè)有神性的天才產(chǎn)品經(jīng)理,他跟你說(shuō),你這個(gè)密碼很有可能是1359。因?yàn)樗浅L觳?,所以他一下就指出?lái)說(shuō),這個(gè)密碼是正確的概率非常大。 但在AI native時(shí)代,這樣的規(guī)律可能完全不適用。我們并不是說(shuō)不需要產(chǎn)品經(jīng)理,而是產(chǎn)品經(jīng)理做的事情會(huì)變成:他在這里面指出從1000-2000個(gè)可能性之間,這一千種可能性概率最大。但之后,我們會(huì)需要一個(gè)暴力機(jī)器,一下子把它全部試出來(lái)。 所以,我們并不是要一個(gè)一個(gè)一個(gè)場(chǎng)景去試,而是要將一批場(chǎng)景,一波一波的場(chǎng)景往模型輸入。GPT不可能說(shuō)只能完成一件事情,它必然是很多事情同時(shí)涌現(xiàn)的。 那我們?cè)贏I時(shí)代應(yīng)該怎么去做PMF呢? 第一,很重要的還是要去利用模型的泛化能力?;氐轿覀兩厦嬲f(shuō)用Kimi Chat篩簡(jiǎn)歷的例子,其實(shí)在我們的產(chǎn)品上線之前,我們內(nèi)部是從來(lái)沒有做過(guò)測(cè)試,也沒有做過(guò)任何專門的優(yōu)化,它其實(shí)是模型涌現(xiàn)出來(lái)的一個(gè)能力。 當(dāng)你的底層Instruction Following、多步推理、處理上下文,上下文一致性等底層能力得到提升的時(shí)候,它其實(shí)會(huì)帶來(lái)上層的很多新場(chǎng)景的爆發(fā)。 我想引用我非常喜歡的設(shè)計(jì)師柳宗理的一句話:不是依據(jù)設(shè)計(jì)來(lái)制造,而是通過(guò)制造完成設(shè)計(jì)。 我覺得這是AGI非?;蛘咦鯝I native非常重要的思想。你再也不是寫一個(gè)需求,讓這個(gè)程序員把這個(gè)需求用確定性的方式實(shí)現(xiàn)出來(lái)。而是可能會(huì)有多種不同的場(chǎng)景同時(shí)在涌現(xiàn),產(chǎn)品經(jīng)理做的事情不是說(shuō)去種一棵樹,而是去畫出來(lái)一塊地,讓AGI機(jī)器能夠在這片地上把所有樹都種一遍。這才是可能真正AGI長(zhǎng)期發(fā)展方向的、好的開發(fā)方式。 講到這兒,我們?nèi)绻倩仡櫼幌逻@個(gè)領(lǐng)域過(guò)去半年到一年發(fā)生的事情——有很多人在做大模型,我們也是其中之一。 但是你會(huì)發(fā)現(xiàn)做大模型的人可能分成兩種,一種是看風(fēng)景,用AGI解鎖了很多可能性,然后里面會(huì)有很好的風(fēng)景,我可以去做一些應(yīng)用,這波是看風(fēng)景的人。 還有另外一波人,他其實(shí)是勇攀高峰,其實(shí)是爬樓梯,但不代表說(shuō)我們不看風(fēng)景,而是說(shuō)在你看風(fēng)景的同時(shí),你可能要花更多的精力,花更多的時(shí)間去以周為始的思考:到底月球的背面是什么? 有一天你會(huì)發(fā)現(xiàn),當(dāng)你爬到了100層樓的時(shí)候,那些在一兩層樓就開始看風(fēng)景的人,其實(shí)有可能最后就被降維打擊了。所以,“爬樓梯”其實(shí)才是我們最終真正想做的事情。 最后,我們還非常相信的一點(diǎn)就是:AGI不可能是閉門造車的產(chǎn)物,它必然是跟所有用戶一起共創(chuàng)的過(guò)程。在這個(gè)過(guò)程中,才有可能形成數(shù)據(jù)飛輪,形成我剛剛說(shuō)說(shuō)的“場(chǎng)景的摩爾定律”。 我們也希望跟在座的所有人一起,能夠通過(guò)我們的Kimi chat產(chǎn)品,一起去探索AGI之路,非常感謝大家! |
|