【原】AI：大力出奇跡？Bigger is better？AI下一代浪潮？—人工智能的大語言模型(LLMs)的簡介、發(fā)展以及未來趨勢

處女座的程序猿 2022-03-31

展開全文

AI：大力出奇跡？Bigger is better？AI下一代浪潮？—人工智能的大語言模型(LLMs)的簡介、發(fā)展以及未來趨勢

人工智能的大語言模型(LLMs)—AI下一代浪潮？Bigger is better？大力出奇跡？

? ? ? ? ? 大型語言模型（LLMs）是在包含巨大數(shù)據(jù)量的大規(guī)模數(shù)據(jù)集上訓(xùn)練的。中國工程院院士王恩東表示：“人工智能如何發(fā)展出像人類具備邏輯、意識和推理的認(rèn)知能力，是人工智能研究一直探索的方向。目前來看，通過大規(guī)模數(shù)據(jù)訓(xùn)練超大參數(shù)量的巨量模型，被認(rèn)為是非常有希望實現(xiàn)通用人工智能的一個重要方向?！彪S著巨量模型的興起，巨量化已成為未來人工智能發(fā)展非常重要的一個趨勢。而巨量化的一個核心特征就是模型參數(shù)多、訓(xùn)練數(shù)據(jù)量大。
? ? ? ? ? 2018 年谷歌發(fā)布BERT，從此，預(yù)訓(xùn)練模型（Pre-trained Models, PTMs）逐漸成為自然語言處理領(lǐng)域的主流。當(dāng)然，預(yù)訓(xùn)練模型如今已經(jīng)成為深度學(xué)習(xí)研究中的一種主流范式。
? ? ? ? ? 2020年，GPT-3 橫空出世，這個具有 1750 億參數(shù)規(guī)模的預(yù)訓(xùn)練模型所表現(xiàn)出來的零樣本與小樣本學(xué)習(xí)能力刷新了人們的認(rèn)知。作為一個語言生成模型，GPT-3 不僅能夠生成流暢自然的文本，還能完成問答、翻譯、創(chuàng)作小說等一系列 NLP 任務(wù)，甚至進(jìn)行簡單的算術(shù)運算，并且其性能在很多任務(wù)上都超越相關(guān)領(lǐng)域的專有模型，達(dá)到 SOTA 水平。從此，OpenAI開始引爆了 2021 年 AI 大模型研究的熱潮，大模型成為幾乎所有全球頭部AI公司的追逐目標(biāo)。

? ? ? ? ? 在大模型的賽道上，算力公司、算法公司、數(shù)據(jù)公司，研究機構(gòu)正在展開新一輪競賽。
? ? ? ? ? 國內(nèi)外AI頭部公司，包括谷歌、微軟、英偉達(dá)、智源人工智能研究院、阿里、百度、華為、騰訊、浪潮等國內(nèi)外科技巨頭和機構(gòu)紛紛展開大模型研究和探索。
? ? ? ? ? 2021年，人工智能正式邁向“煉大模型”階段，開展了超大規(guī)模預(yù)訓(xùn)練模型的“軍備競賽”。通過設(shè)計先進(jìn)的算法、整合盡可能多的數(shù)據(jù)、匯聚大量算力、集約化地訓(xùn)練大模型，供大量企業(yè)使用。2021年，也被很多業(yè)界同行稱為超大規(guī)模預(yù)訓(xùn)練模型的“爆發(fā)之年”。自去年 OpenAI 發(fā)布英文領(lǐng)域超大規(guī)模預(yù)訓(xùn)練語言模型 GPT-3 后，中文領(lǐng)域同類模型的訓(xùn)練進(jìn)程備受關(guān)注。
? ? ? ? ? 2021年1月，Google 推出的 Switch Transformer 模型以高達(dá) 1.6 萬億的參數(shù)量打破了 GPT-3 作為最大 AI 模型的統(tǒng)治地位，成為史上首個萬億級語言模型。
? ? ? ? ? 2021年6月20日，舉辦的 2021 深度學(xué)習(xí)開發(fā)者峰會 WAVE SUMMIT 上，依托飛槳核心框架，百度文心 ERNIE 最新開源四大預(yù)訓(xùn)練模型：多粒度語言知識增強模型 ERNIE-Gram、長文本理解模型 ERNIE-Doc、融合場景圖知識的跨模態(tài)理解模型 ERNIE-ViL、語言與視覺一體的模型 ERNIE-UNIMO。針對傳統(tǒng)預(yù)訓(xùn)練技術(shù)現(xiàn)存的難點痛點，此次文心ERNIE開源的四大預(yù)訓(xùn)練模型不僅在文本語義理解、長文本建模和跨模態(tài)理解三大領(lǐng)域取得突破，效果上超越谷歌、微軟等業(yè)界模型，還擁有廣泛的應(yīng)用場景和前景，進(jìn)一步助力產(chǎn)業(yè)智能化升級。
? ? ? ? ? 2021年6月，第三屆北京智源大會上，北京智源人工智能研究院發(fā)布了超大規(guī)模智能模型“悟道 2.0”，達(dá)到1.75 萬億參數(shù)，超過 Switch Transformer 成為全球最大的預(yù)訓(xùn)練模型。

? ? ? ? ? 隨著處理能力和數(shù)據(jù)源的增長，深度學(xué)習(xí)中曾經(jīng)的趨勢已經(jīng)成為一個原則：越大越好。近年來，語言模型的規(guī)模越來越大，只有像Google、Microsoft、NVIDIA等大公司才可以玩轉(zhuǎn)千億/萬億級的大模型，而且事實證明以大模型為基礎(chǔ)探索通用智能的道路也遠(yuǎn)遠(yuǎn)沒有到盡頭，國內(nèi)產(chǎn)業(yè)和學(xué)術(shù)界在對大模型的探索上也亦步亦趨，大規(guī)模的AI設(shè)備集群和通用性的軟硬件生態(tài)協(xié)同越來越成為信息時代急需的基礎(chǔ)設(shè)施，未來制約人工智能發(fā)展的不僅僅是對人才的競爭，大科學(xué)裝置和對多場景應(yīng)用的通用全棧式技術(shù)生態(tài)的不斷發(fā)展進(jìn)化，也越來越重要。
? ? ? ? ? 2021年底總結(jié)的時候，Jeff說到，這些大模型通常使用自監(jiān)督學(xué)習(xí)方法，這個趨勢令人興奮。一方面可以大大減少工作量，另一方面在長尾任務(wù)中也能取得更好表現(xiàn)。

單體模型VS混合模型

? ? ? ? ? 現(xiàn)在業(yè)界提高模型參數(shù)量有兩種技術(shù)路線，產(chǎn)生兩種不同的模型結(jié)構(gòu)，一種是單體模型，一種是混合模型。如華為的盤古大模型、百度的文心大模型、英偉達(dá)聯(lián)合微軟發(fā)布的自然語言生成模型 MT-NLG 、浪潮的源大模型等走的都是單體模型路線；而智源的悟道模型、阿里 M6 等走的是混合模型路線。

大模型的意義

大模型被大多數(shù)專家認(rèn)為是走向AGI的重要途徑之一。超大規(guī)模預(yù)訓(xùn)練模型是從弱人工智能向通用人工智能的突破性探索，解決了傳統(tǒng)深度學(xué)習(xí)的應(yīng)用碎片化難題，引發(fā)科研機構(gòu)和企業(yè)重點投入。
大模型泛化能力強可減少數(shù)據(jù)標(biāo)注依賴。可以吸收海量知識，從里面提高模型的泛化能力，可以減少對領(lǐng)域數(shù)據(jù)標(biāo)注的依賴。
大模型的預(yù)先學(xué)習(xí)可減輕特定領(lǐng)域的數(shù)據(jù)量。超大規(guī)模預(yù)訓(xùn)練模型在海量通用數(shù)據(jù)上進(jìn)行預(yù)先學(xué)習(xí)和訓(xùn)練，能有效緩解AI領(lǐng)域通用數(shù)據(jù)的激增與專用數(shù)據(jù)匱乏的矛盾，具備通用智能的雛形。
大模型具有強通用性和少樣本學(xué)習(xí)能力。預(yù)訓(xùn)練大模型普適性強，可滿足垂直行業(yè)的共性需求。預(yù)訓(xùn)練大模型遷移性好，可滿足典型產(chǎn)品的技術(shù)要求。GPT-3凸顯了一種小樣本學(xué)習(xí)以及泛化能力，而且兩個層面的能力都非常優(yōu)秀。
大模型提高了模型使用效率。業(yè)內(nèi)普遍認(rèn)為“一次開發(fā)，終身使用”。擁有更通識的大模型將為細(xì)分任務(wù)奠定基礎(chǔ)，后續(xù)應(yīng)用無需投入大量標(biāo)注數(shù)據(jù)及從頭訓(xùn)練調(diào)參，效率明顯提升。
大模型承上啟下，深刻影響底層技術(shù)和上層應(yīng)用的發(fā)展；向下驅(qū)動數(shù)據(jù)技術(shù)和計算架構(gòu)能力的提升，支撐模型訓(xùn)練、部署和優(yōu)化，向上支撐上層應(yīng)用的服務(wù)轉(zhuǎn)型。
模型的參數(shù)規(guī)模越大，優(yōu)勢越明顯。
AIGC（AI生成內(nèi)容）就是大模型落地的一個重要方向(內(nèi)容消費/創(chuàng)意設(shè)計)。

? ? ? ? ? AIGC（AI Generated Content，人工智能創(chuàng)造內(nèi)容/虛擬內(nèi)容/虛擬人），借助大模型的跨模態(tài)綜合技術(shù)能力，可以激發(fā)創(chuàng)意，提升內(nèi)容多樣性，降低制作成本，將會實現(xiàn)大規(guī)模應(yīng)用。隨著深度學(xué)習(xí)的發(fā)展，AI生成虛擬內(nèi)容AIGC正滲透在圖像、視頻、CG、AI訓(xùn)練數(shù)據(jù)等各類領(lǐng)域，甚至同時覆蓋多模態(tài)的虛擬人技術(shù)。其中虛擬數(shù)字人，指存在于非物理世界中，由圖形渲染、動作捕捉、語音合成等計算機手段創(chuàng)造及使用，并具有多重人類特征的綜合產(chǎn)物。目前分為「CG建模+真人驅(qū)動」和「深度合成+計算驅(qū)動」兩類。

大模型的局限性

資本門檻：大模型的訓(xùn)練，以GPT-3為例，訓(xùn)練一次的成本是1200萬美金；
技術(shù)門檻：AI框架的深度優(yōu)化和并行能力要求很高。
跨領(lǐng)域門檻：大模型多方向問題亟待解決，生態(tài)建設(shè)不容小覷。未來預(yù)訓(xùn)練大模型將重點解決應(yīng)用、可信、跨學(xué)科合作、資源不平衡和開放共享等問題。

大模型的四個障礙

? ? ? ? ? Andrew NG 認(rèn)為，構(gòu)建越來越大的模型的努力帶來了自己的挑戰(zhàn)。龐大模型的開發(fā)人員必須克服四個巨大的障礙。

數(shù)據(jù)：大型模型需要大量數(shù)據(jù)，但網(wǎng)絡(luò)和數(shù)字圖書館等大型來源可能缺乏高質(zhì)量數(shù)據(jù)。例如，研究人員發(fā)現(xiàn) BookCorpus 是一個包含 11,000 本電子書的集合，已被用于訓(xùn)練 30 多個大型語言模型，可能會傳播對某些宗教的偏見，因為它缺乏討論基督教和伊斯蘭教以外信仰的文本。 AI 社區(qū)越來越意識到數(shù)據(jù)質(zhì)量至關(guān)重要，但尚未就編譯大規(guī)模、高質(zhì)量數(shù)據(jù)集的有效方法達(dá)成共識。
速度：今天的硬件難以處理龐大的模型，當(dāng)位反復(fù)進(jìn)出內(nèi)存時，這些模型可能會陷入困境。為了減少延遲，Switch Transformer 背后的 Google 團隊開發(fā)了一種方法，可以為每個令牌處理模型層的選定子集。他們最好的模型的預(yù)測速度比參數(shù)數(shù)量只有其 1/30 的模型快 66%。同時，微軟開發(fā)了 DeepSpeed 庫，它并行處理數(shù)據(jù)、單個層和層組，并通過在 CPU 和 GPU 之間劃分任務(wù)來減少冗余處理。
能源：訓(xùn)練如此龐大的網(wǎng)絡(luò)會消耗大量的電能。 2019 年的一項研究發(fā)現(xiàn)，使用化石燃料，在 8 個 Nvidia P100 GPU 上訓(xùn)練一個 2 億參數(shù)的變壓器模型，在五年的駕駛過程中排放的二氧化碳幾乎與一輛普通汽車一樣多。新一代有望加速人工智能的芯片，如 Cerebras 的 WSE-2 和谷歌最新的 TPU，可能有助于減少排放，同時風(fēng)能、太陽能和其他清潔能源增加以滿足需求。
交付：這些龐大的模型太大而無法在消費者或邊緣設(shè)備上運行，因此大規(guī)模部署它們需要互聯(lián)網(wǎng)訪問（較慢）或精簡實施（能力較弱）。

未來的AI藍(lán)圖要擁抱綠色低碳—綠色AI

? ? ? ? ? 眾所周知，全球變暖是人類的行為造成地球氣候變化的后果。2020年9月，中國提出努力爭取在2060年前實現(xiàn)碳中和。為了能夠早日實現(xiàn)我國關(guān)于“碳中和”以及“碳達(dá)峰”的戰(zhàn)略目標(biāo)，在今后的40年當(dāng)中，中國在產(chǎn)業(yè)、消費、能源以及區(qū)域結(jié)構(gòu)等方面都會做出重大整頓。
? ? ? ? ? 隨著“碳中和”逐步被提高到國家戰(zhàn)略的高度之上，人工智能行業(yè)，包括機器學(xué)習(xí)模型當(dāng)然也要倡導(dǎo)追求碳中和。不可否認(rèn)，數(shù)據(jù)集和模型規(guī)模的增長，帶來了多種語言任務(wù)上準(zhǔn)確率的顯著提升，并通過NLP 基準(zhǔn)任務(wù)上的全面改進(jìn)證明了這一點，但是不應(yīng)該把模型性能當(dāng)作唯一標(biāo)準(zhǔn)。未來的AI藍(lán)圖要擁抱綠色低碳，助力實現(xiàn)碳達(dá)峰碳中和目標(biāo)。
? ? ? ? ? 隨著AI技術(shù)加速與各行各業(yè)融合創(chuàng)新，數(shù)據(jù)中心和大規(guī)模AI計算實現(xiàn)了重要的經(jīng)濟和社會價值，但其能耗和對環(huán)境的影響不容忽視，亟需發(fā)展對環(huán)境更友好的“綠色AI”技術(shù)，降低模型訓(xùn)練和使用的能耗。
? ? ? ? ? 針對該問題，來自谷歌和美國加州大學(xué)伯克利分校的研究人員最近聯(lián)合發(fā)表一項研究論文，著重評估并比較了 5 個大型自然語言處理（NLP）模型的能耗和碳排放量，其中包括 T5、Meena、GShard、Switch Transformer 和 GPT-3。該論文提出，如果推出同時考量模型準(zhǔn)確性和碳排放的標(biāo)準(zhǔn)，我們就可以想象一個良性循環(huán)，通過加速算法、系統(tǒng)、硬件、數(shù)據(jù)中心以及碳中和在效率和成本方面的創(chuàng)新，即可減緩機器學(xué)習(xí)任務(wù)碳足跡的日益增長。
? ? ? ? ? 未來幾年，“綠色AI”相關(guān)技術(shù)將持續(xù)蓬勃發(fā)展，圍繞高能效的架構(gòu)設(shè)計、訓(xùn)練和推理策略、數(shù)據(jù)利用等構(gòu)建體系，形成兼顧性能和能耗的評價標(biāo)準(zhǔn)。算力更高、能耗較低的AI芯片將不斷涌現(xiàn)；領(lǐng)軍AI企業(yè)構(gòu)建集約化的大算力和大模型，改善下游性能，降低整體能耗成本。

相關(guān)文章：
《Carbon Emissions and Large Neural Network Training》 http:///abs/2104.10350v2

2017年以來，大規(guī)模語言模型發(fā)展史

發(fā)布時間	大模型	參數(shù)量	訓(xùn)練數(shù)據(jù)	多模態(tài)	功能	機構(gòu)
2017年	GPT-1	1.1億		文本		OpenAI
2018年 10月	Bert	3.4億		文本		Google
2019年 08月	GPT-2	15億		文本		OpenAI
2019年 08月	MegatronLM	83億		文本		NVIDIA
2020年01月	Turing-NLG	170 億		文本		Microsoft
2020年05月	GPT-3	1750 億	45TB	文本	NLU，文本生成	OpenAI
2020年06月	GShard	6190 億	比擁有 1750 億參數(shù)的 GPT-3 消耗的能源少約 53 倍，凈碳排放量少約 127 倍，這主要得益于 GShard 在算法+硬件上的多重優(yōu)化。			Google
2021 年 01月	Switch Transformer	1.6萬億				Google
2021年03月	CPM-1 (悟道2.0,文源)	26億		文本	NLU，文本生成	智源研究院
2021年04月	PLUG	270億	>1.1TB high-quality	文本	NLU，文本生成	阿里達(dá)摩院
2021年04月	盤古-α	2000億	1.1TB high-quality 80TB raw	文本	NLU，文本生成	華為&循環(huán)智能
2021年04月	孟子（BERT, T5，Oscar）	10億	300GB	文本，圖像	NLU，文本生成圖像生成文本	瀾舟科技
2021年06月	M6	1000億	1.9TB images 292GB texts	文本，圖像	NLU，文本生成圖像生成文本文本生成圖像	阿里達(dá)摩院
2021年06月	CPM-2 (悟道2.0) CPM-MoE	總共1.75萬億其中110億中文模型 110億中英模型 1980億中英MoE模型	2.3TB Chinese 300GB English	文本	NLU，文本生成	智源研究院
2021年06月	CogView（悟道-文匯）	40億	30 million high-quality (Chinese) text-image pairs	文本，圖像	文本生成圖像圖像生成文本	智源研究院
2021年07月	ERNIE3.0	100億	4TB text and KG	文本	NLU，文本生成	百度
2021年09月	源1.0	2457億	5TB high-quality	文本	NLU，文本生成	浪潮
2021年10月	Megatron Turing-NLG 威震天-圖靈	5300億		文本	NLU	Microsoft+NVIDIA
2021年10月	神農(nóng)	10億	數(shù)百GB	文本	NLU，文本生成	騰訊
2021年12月	Gopher	?2800億	10.5TB 的MassiveText語料庫	文本	Gopher在 124 項評估任務(wù)中的 100 項中優(yōu)于當(dāng)前最先進(jìn)的技術(shù)。	DeepMind
2021年12月	ERNIE3.0 Titan	2600億				百度
2021年12月	GLaM	1.2 萬億	通用稀疏語言模型		7 項小樣本學(xué)習(xí)領(lǐng)域的性能超過 GPT-3	Google

注：該表將持續(xù)更新

未來趨勢

? ? ? ? ?清華大學(xué)教授、智源大模型技術(shù)委員會成員劉知遠(yuǎn)說： “大規(guī)模預(yù)訓(xùn)練模型是人工智能的最新技術(shù)高地，是對海量數(shù)據(jù)、高性能計算和學(xué)習(xí)理論原始創(chuàng)新的全方位考驗”。
? ? ? ? ? 大小模型協(xié)同進(jìn)化。大模型參數(shù)競賽，在未來某個時刻，會進(jìn)入冷靜期，大小模型將在云邊端協(xié)同進(jìn)化。達(dá)摩院認(rèn)為，因性能與能耗提升不成比例，受效率問題的限制，大模型參數(shù)競賽將進(jìn)入冷靜期，大小模型云邊端協(xié)同進(jìn)化會是未來趨勢。?大模型向邊、端的小模型輸出模型能力，小模型負(fù)責(zé)實際的推理與執(zhí)行，同時小模型再向大模型反饋算法與執(zhí)行成效，讓大模型的能力持續(xù)強化，形成有機循環(huán)的智能體系。

相關(guān)文章
NLP之PLUG：阿里達(dá)摩院發(fā)布最大中文預(yù)訓(xùn)練語言模型PLUG的簡介、架構(gòu)組成、模型訓(xùn)練、使用方法之詳細(xì)攻略_一個處女座的程序猿-CSDN博客

?
Top AI Stories of 2021: Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI
AI中文大模型匯總 - 知乎