科普神文，一次性講透AI大模型的核心概念

新用戶(hù)73286115 2023-10-21 發(fā)布于北京

展開(kāi)全文

令牌，向量，嵌入，注意力，這些AI大模型名詞是否一直讓你感覺(jué)熟悉又陌生，如果答案肯定的話(huà)，那么朋友，今天這篇科普神文不容錯(cuò)過(guò)。我將結(jié)合大量示例及可視化的圖形手段，為你由淺入深一次性講透AI大模型的核心概念。

引言

隨著科技公司及國(guó)際競(jìng)爭(zhēng)的不斷推進(jìn)，AI大模型已經(jīng)越來(lái)越多融入我們的生活。作為一個(gè)普通人或許不需要研究高深的AI算法，但想在這次AI浪潮中不被拋棄，必須對(duì)LLM原理有一個(gè)基本的理解。

理解LLM（即Large Language Model，大語(yǔ)言模型）如何生成文本也就意味著理解這些模型為什么是如此通用的認(rèn)知引擎——以及它們還能幫助創(chuàng)造什么。

令牌化和向量化（Token&Vectorization）

首先，讓我們從令牌化和向量化開(kāi)始，這一部分內(nèi)容將為大家解開(kāi)AI大模型的第一層面紗-AI大模型時(shí)如何理解人類(lèi)語(yǔ)言的。通過(guò)這一部分的講解也將為大家構(gòu)建AI大模型的基礎(chǔ)數(shù)學(xué)觀。

為了讀懂人類(lèi)提問(wèn)和輸出回答,LLM必須先將單詞翻譯成它們能理解的語(yǔ)言。

首先,一塊文字被分割成令牌(tokens) ——可以編碼的基本單位。令牌通常代表詞的片段,但我們會(huì)將每個(gè)完整的詞變成一個(gè)令牌。

為了掌握一個(gè)詞的意思,例如work,LLM首先通過(guò)使用大量訓(xùn)練數(shù)據(jù)觀察它的上下文,注意它的 鄰近詞。這些數(shù)據(jù)集基于收集互聯(lián)網(wǎng)上發(fā)表的文本,新LLM使用數(shù)十億個(gè)詞進(jìn)行訓(xùn)練。

最終,我們得到一個(gè)巨大的與work在訓(xùn)練數(shù)據(jù)中一起出現(xiàn)的詞集(E.g:roof),以及那些沒(méi)有(E.g:dove)與它一起出現(xiàn)的詞集。

當(dāng)模型處理這個(gè)詞集時(shí),它會(huì)產(chǎn)生一個(gè)向量——或數(shù)值列表——并根據(jù)每個(gè)詞在訓(xùn)練數(shù)據(jù)中與work的鄰近程度來(lái)調(diào)整它。這個(gè)向量被稱(chēng)為詞嵌入(embedding)。

一個(gè)詞嵌入可以包含數(shù)百個(gè)值,每個(gè)值表示一個(gè)詞意義的不同方面。就像你可能會(huì)通過(guò)其特征來(lái)描述一座房子——類(lèi)型、位置、臥室、浴室、樓層——嵌入中的值可以定量表示一個(gè)詞的語(yǔ)言特征。

這些特征的派生方式意味著我們不確切知道每個(gè)值表示什么,但我們預(yù)期在可比較的方式中使用的詞,其嵌入往往看起來(lái)相似。
比如一對(duì)詞組如sea和ocean,它們可能不會(huì)在完全相同的上下文中使用(“all at ocean”不是“all at sea”的直接替代),但它們的意思很接近,并且嵌入允許我們量化這種接近程度。

通過(guò)將每個(gè)嵌入表示的數(shù)百個(gè)值減少到只有兩個(gè),我們可以更清楚地看到這些詞之間的距離。

我們可能會(huì)發(fā)現(xiàn)代詞的簇集,或交通工具的模式,能夠定量表示詞匯的方式是模型生成文本的第一步。

Transformer

在搞清楚了大模型是如何理解人類(lèi)語(yǔ)言之后，或許你會(huì)覺(jué)得不過(guò)如此，這與LLM表現(xiàn)出的強(qiáng)大功能似乎并不相符。沒(méi)錯(cuò)僅僅靠令牌和向量化還不足以使LLM如此聰明，接下來(lái)我們將直抵AI大模型的心臟-Transformer，正是依靠Transformer,LLM才能夠像今天這樣流暢地解析和書(shū)寫(xiě),它從根本上加快并增強(qiáng)了計(jì)算機(jī)理解語(yǔ)言的方式。

闡述transformer模型的研究首次由谷歌的8名AI研究人員在2017年6月發(fā)表，正是大家耳熟能詳?shù)摹禔ttention is All You Need》開(kāi)啟了AI的新紀(jì)元，Attention也將是下文著重講解的核心概念，我將帶領(lǐng)大家在上述數(shù)學(xué)模型的基礎(chǔ)上構(gòu)建對(duì)LLM的基礎(chǔ)概念抽象。

Transformer體系結(jié)構(gòu)的一個(gè)關(guān)鍵概念是自注意力(Attention)。這就是允許LLM理解詞之間關(guān)系的原因。

自注意力查看文本中的每個(gè)令牌(token),并決定哪些對(duì)理解其含義最重要。

在transformer之前,最先進(jìn)的AI翻譯方法是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它逐字掃描句子并順序處理。

通過(guò)自注意力,transformer可以同時(shí)計(jì)算句子中的所有單詞。捕捉這種上下文為L(zhǎng)LM提供了更復(fù)雜的語(yǔ)言處理能力。

在這個(gè)例子中,同時(shí)評(píng)估整個(gè)句子意味著transformer能夠理解interest在這里作為名詞使用,以解釋個(gè)人對(duì)政治的看法。

如果我們調(diào)整句子...

...模型就會(huì)理解interest現(xiàn)在是在金融意義上使用。

當(dāng)我們組合這些句子時(shí),模型仍然能夠識(shí)別每個(gè)詞的正確含義,這要?dú)w功于它對(duì)伴隨文本的注意力。

第一次使用interest,它主要注意到no 和in。

第二次,它主要注意到rate和bank。

這種功能對(duì)于高級(jí)文本生成至關(guān)重要。沒(méi)有它,在某些上下文中可以互換但在其他上下文中不可以的詞可能會(huì)被錯(cuò)誤使用。

實(shí)際上,自注意力意味著如果這個(gè)句子的摘要被生成,您不會(huì)在討論利率時(shí)使用enthusiasm這個(gè)詞。

這種能力遠(yuǎn)遠(yuǎn)超越像interest這樣有多個(gè)意思的詞。

在下面的句子中,自注意力能夠計(jì)算出it最有可能指代dog。

如果我們改變句子,將hungry替換為delicious,模型能夠重新計(jì)算,現(xiàn)在it最有可能指代bone。

隨著規(guī)模的擴(kuò)大,自注意力對(duì)語(yǔ)言處理的好處也越來(lái)越大。它允許LLM從句子邊界之外獲取上下文(context),讓模型對(duì)一個(gè)詞的使用方式有更深入的理解。

LLM

理解了LLM基礎(chǔ)數(shù)學(xué)原理和模型概念抽象后，大家是不是很興奮，最后讓我們看看目前世界上最先的大預(yù)言模型到底做了什么，構(gòu)建了如此繽紛多彩的AI應(yīng)用世界。

大模型之所以被稱(chēng)之為大，是因?yàn)槠溆?xùn)練有我們整個(gè)互聯(lián)網(wǎng)的基礎(chǔ)語(yǔ)料庫(kù)的支撐，從這巨大的語(yǔ)料庫(kù)中,模型學(xué)會(huì)識(shí)別模式,最終預(yù)測(cè)下一個(gè)最佳選項(xiàng)。接下來(lái)我將帶領(lǐng)大家直面大模型，為大家揭秘LLM是如何涌現(xiàn)智能，成為最像人的人工智能的。

基于上文的Transformer模型,對(duì)互聯(lián)網(wǎng)語(yǔ)料庫(kù)處理后，我們可以生成人類(lèi)語(yǔ)言的數(shù)據(jù)模型,表示機(jī)器所理解的輸入,包括詞義、位置和詞之間的關(guān)系。

基于以上數(shù)學(xué)模型，求取最優(yōu)解最簡(jiǎn)單的方式,就是將模型的目標(biāo)設(shè)定為預(yù)測(cè)一個(gè)序列中的下一個(gè)詞,并重復(fù)此過(guò)程直到輸出完成。

為此,模型給每個(gè)令牌一個(gè)概率分?jǐn)?shù)(probability score),表示它是序列中下一個(gè)詞的可能性。

它將繼續(xù)這樣做,直到對(duì)所產(chǎn)生的文本感到滿(mǎn)意。

但是,這種隔離地預(yù)測(cè)下一個(gè)詞的方法(稱(chēng)為“貪心搜索”)會(huì)引入問(wèn)題。雖然每個(gè)令牌可能是下一個(gè)最佳選擇,但整個(gè)短語(yǔ)可能不太相關(guān)。
并不一定總是錯(cuò)誤,但可能也不是你所期望的。

Transformer使用多種方法來(lái)解決這個(gè)問(wèn)題并提高輸出質(zhì)量。一個(gè)例子叫束搜索。
它不僅關(guān)注序列中下一個(gè)詞,而是考慮一組較大令牌集合的概率。

通過(guò)束搜索,模型能夠考慮多種路徑并找到最佳選項(xiàng)。

這會(huì)產(chǎn)生更好的結(jié)果,最終導(dǎo)致更連貫、更人性化的文本。

總結(jié)

Transformer已經(jīng)引領(lǐng)了各種尖端的AI應(yīng)用程序的創(chuàng)建。除了支持像Bard和ChatGPT這樣的聊天機(jī)器人之外,它還驅(qū)動(dòng)我們移動(dòng)鍵盤(pán)上的自動(dòng)完成功能和智能揚(yáng)聲器中的語(yǔ)音識(shí)別。

然而,它的真正威力在語(yǔ)言之外。它的發(fā)明者發(fā)現(xiàn),transformer模型可以識(shí)別和預(yù)測(cè)任何重復(fù)的主題或模式。從圖片中的像素,使用Dall-E、Midjourney和Stable Diffusion等工具,到計(jì)算機(jī)代碼使用GitHub Copilot等生成器。它甚至可以預(yù)測(cè)音樂(lè)中的音符和蛋白質(zhì)中的DNA來(lái)幫助設(shè)計(jì)藥物分子。

數(shù)十年來(lái),研究人員構(gòu)建了專(zhuān)門(mén)的模型來(lái)總結(jié)、翻譯、搜索和檢索。transformer統(tǒng)一了那些動(dòng)作到一個(gè)單一的結(jié)構(gòu)中,使其能夠執(zhí)行大量各種各樣的任務(wù)。

通過(guò)一個(gè)統(tǒng)一的語(yǔ)言模型，實(shí)現(xiàn)了從圖像，音樂(lè)，視頻多模態(tài)的應(yīng)用，并且強(qiáng)于以往所有的AI應(yīng)用，這就是這個(gè)故事神奇的地方。

參考鏈接：[1]https://ig./generative-ai/

今天的內(nèi)容就到這里，如果老鐵覺(jué)得還行，可以來(lái)一波三連，感謝！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：新用戶(hù)73286115 > 《待分類(lèi)》

舉報(bào)/認(rèn)領(lǐng)