目前,大模型(特別是在2023年及之后的語境中)通常特指大語言模型(LLM, Large Language Model),但其范圍也涵蓋其他領(lǐng)域的超大規(guī)模深度學(xué)習(xí)模型,例如圖像生成模型(如 DALL-E)、科學(xué)計算模型(如 AlphaFold)以及多模態(tài)模型。這些模型通過海量數(shù)據(jù)訓(xùn)練,展現(xiàn)出高度的泛用性。 比較有代表性的大語言模型(LLM) 如:
大語言模型(LLM)是近年來人工智能領(lǐng)域的核心熱點,其訓(xùn)練目標通常是語言生成和理解。這些模型通過在海量文本上進行訓(xùn)練,能夠理解、生成和推理復(fù)雜的自然語言,甚至跨領(lǐng)域處理任務(wù)。其特點是擁有超大規(guī)模參數(shù)、具有強大的通用性和生成能力。由具有許多參數(shù)(通常數(shù)十億個權(quán)重或更多)的人工神經(jīng)網(wǎng)絡(luò)組成,使用自監(jiān)督學(xué)習(xí)對大量未標記文本進行訓(xùn)練 1. 大語言模型(LLM)的核心定義
2. 大語言模型(LLM)的核心技術(shù)和特性2.1 Transformer 架構(gòu)Transformer 是一種基于“注意力機制”的神經(jīng)網(wǎng)絡(luò)架構(gòu),由 Google 于 2017 年提出。它的核心特性是:
LLM(如 GPT 系列)大多基于 Transformer 的變體。 2.1.1 看全局抓重點:注意力機制想象你是一個班主任,班干部(Transformer)負責審閱學(xué)生的作業(yè)。如果有句子寫得特別好(比如“春風拂面百花開”),班干部會特別關(guān)注這句話,并給它“打一個高分”。這就是 Transformer 的注意力機制,它知道哪些部分更重要,應(yīng)該重點關(guān)注。 2.1.2 并行處理:效率高以前的模型像流水線工人,必須按順序一字一句地看完所有作業(yè)(比如傳統(tǒng)的 RNN)。而班干部(Transformer)更像是一群分工明確的審稿員,可以同時看整篇作業(yè),快速抓住重點。 2.1.3 理解句子結(jié)構(gòu):捕捉長距離依賴如果有學(xué)生寫了一篇長文章,開頭提到“春天來了”,后面說“鮮花盛開”。班干部(Transformer)不會忘記開頭的信息,會把“春天來了”和“鮮花盛開”關(guān)聯(lián)起來。這種能力叫長距離依賴捕捉,讓模型能理解前后文的語義聯(lián)系。 Transformer 的注意力機制讓每個詞都可以關(guān)注整個句子中的其他詞,而不是局限于前后相鄰的詞。這解決了傳統(tǒng) RNN 處理長文本時容易“遺忘上下文”的問題。 2.1.4 將文字變成數(shù)字:嵌入表示Embedding班干部在看作業(yè)時,需要先把作業(yè)內(nèi)容分類,比如:數(shù)學(xué)題歸類到“數(shù)字”里,作文歸類到“語言”里。同樣,Transformer 需要先把文字轉(zhuǎn)換成模型能理解的數(shù)字形式。這種表示叫“詞嵌入(Word Embedding)”。Transformer 中會用“位置編碼(Positional Encoding)”標記每個詞的位置,確保模型理解詞語在句子中的順序。
2.2 Transformer 是如何生成答案的?2.2.1 把重點重新組織:編碼器-解碼器結(jié)構(gòu)班干部(Transformer)把學(xué)生的作業(yè)總結(jié)后,用自己的話重新寫一遍。這就是編碼器-解碼器結(jié)構(gòu)的工作方式:
Transformer 的編碼器負責對輸入的句子進行特征提取,而解碼器基于這些特征生成目標輸出。這種結(jié)構(gòu)廣泛用于翻譯和生成任務(wù)(如機器翻譯、文本生成)。 2.2.2 輸入和輸出之間的關(guān)系:交叉注意力班干部在總結(jié)學(xué)生的作業(yè)時,會參考原文里的句子重點(比如從題目到結(jié)尾)。這個過程叫交叉注意力,確保模型輸出的內(nèi)容和輸入有緊密關(guān)聯(lián)。 Transformer 在解碼器中,模型需要關(guān)注輸入的隱藏表示,通過計算解碼器和編碼器之間的注意力分數(shù),確保生成的輸出能準確反映輸入的語義內(nèi)容。
2.3 為什么 Transformer 比傳統(tǒng)方法強?2.3.1 一眼看全局:自注意力機制傳統(tǒng)模型(如 RNN)像流水線工人,必須逐字逐句處理句子,而 Transformer 像一位高效的觀察者,可以一眼看到全文,快速抓住重點。自注意力機制讓模型對句子中的所有詞進行“全局比較”,從而同時捕捉短距離和長距離的關(guān)系。 2.3.2 提高效率:并行處理如果文章特別長,傳統(tǒng)模型處理起來很慢,而 Transformer 像一群同時工作的專家,可以并行處理,提高效率。通過將輸入句子分成塊,并行計算每個詞的注意力權(quán)重,Transformer 避免了序列模型的時間瓶頸,效率顯著提高。 2.3.3 適應(yīng)性強:預(yù)訓(xùn)練模型可遷移班干部(Transformer)經(jīng)過訓(xùn)練后,不僅能看作文,還能學(xué)會批改數(shù)學(xué)題、物理題等。這是因為它的“學(xué)習(xí)能力”很強,能根據(jù)不同的任務(wù)調(diào)整自己。模型可以先在大規(guī)模通用語料上預(yù)訓(xùn)練(如 GPT 或 BERT),學(xué)到語言的通用規(guī)律,再通過微調(diào)(Fine-tuning)適應(yīng)特定任務(wù)。 3. 為什么“大模型”目前特指'語言模型'?1.技術(shù)推動
2.應(yīng)用廣泛
3.市場驅(qū)動
4. 為什么叫“大”模型,還有“小”模型嗎?1.參數(shù)規(guī)模
2.訓(xùn)練數(shù)據(jù)量
3.計算資源
3.能力范圍
不過,大模型的“更大”并不總是等于“更好”。隨著參數(shù)數(shù)量的增長,模型性能的提升并非線性遞增。在超過一定規(guī)模后,訓(xùn)練更大的模型可能僅帶來微弱的精度提升,但計算資源和能耗成本會顯著增加。 5.“小”模型有哪些相對大模型,小模型是指參數(shù)數(shù)量較少、規(guī)模較小、專注于特定任務(wù)的模型。例如:
小模型的優(yōu)點
在實際應(yīng)用中,小模型常用于邊緣設(shè)備上的實時推理,而大模型則在云端完成高復(fù)雜度的任務(wù)。通過這種協(xié)作,可以在性能和效率之間找到平衡。 |
|