【原】大模型落地，如何跨過(guò)數(shù)據(jù)這道坎？

科技云報(bào)道 2024-05-21 發(fā)布于北京

展開全文

隨著大模型從理論探索走向?qū)嶋H應(yīng)用，大模型的落地正在考驗(yàn)千千萬(wàn)萬(wàn)的企業(yè)。首要且核心的關(guān)注點(diǎn)，無(wú)疑是從數(shù)據(jù)做起。

數(shù)據(jù)，作為大模型的“燃料”，其質(zhì)量、多樣性與規(guī)模直接決定了大模型性能的天花板。因此，建立一套高效、可靠的數(shù)據(jù)處理流程，確保數(shù)據(jù)的質(zhì)量與合規(guī)性，成為了大模型落地的基石。

然而，構(gòu)建大模型的數(shù)據(jù)能力并不容易。如何找到合適的存儲(chǔ)來(lái)承載海量數(shù)據(jù)？如何清洗加工原始數(shù)據(jù)？如何有效地進(jìn)行數(shù)據(jù)治理？如何將現(xiàn)有數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨(dú)特價(jià)值？

種種問題橫亙?cè)谄髽I(yè)和大模型之間，成為生成式AI時(shí)代的數(shù)據(jù)挑戰(zhàn)。

大模型時(shí)代的數(shù)據(jù)挑戰(zhàn)

如今基礎(chǔ)大模型遍地開花，開源大模型更是隨處可見，每個(gè)企業(yè)都能訪問相同的基礎(chǔ)大模型，但能夠利用自己的數(shù)據(jù)構(gòu)建生成式AI應(yīng)用的企業(yè)卻并不多見。

很重要的一個(gè)原因在于，從數(shù)據(jù)利用到大模型應(yīng)用，中間還需要大量的準(zhǔn)備工作。

一是，企業(yè)基于自身數(shù)據(jù)去定制基礎(chǔ)模型，不同的應(yīng)用場(chǎng)景需要不同的數(shù)據(jù)處理方式。

比如，在檢索增強(qiáng)生成(RAG)場(chǎng)景中，企業(yè)將自身的知識(shí)庫(kù)、數(shù)據(jù)庫(kù)等與生成式AI模型相結(jié)合，在生成過(guò)程中需要實(shí)時(shí)檢索和利用企業(yè)內(nèi)部的相關(guān)數(shù)據(jù)，從而提高生成結(jié)果的準(zhǔn)確性、一致性和信息量。

RAG需要GB級(jí)企業(yè)數(shù)據(jù)，數(shù)據(jù)來(lái)源是企業(yè)內(nèi)部文檔庫(kù)、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、知識(shí)圖譜。技術(shù)要求上，RAG需要向量檢索來(lái)迅速查找讓模型能快速準(zhǔn)確地進(jìn)行響應(yīng)。

在微調(diào)場(chǎng)景中，企業(yè)使用與目標(biāo)任務(wù)相關(guān)的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練，以提高其在特定任務(wù)上的性能。

微調(diào)需要GB級(jí)人工標(biāo)的高質(zhì)量數(shù)據(jù)，數(shù)據(jù)來(lái)源為私域知識(shí)，技術(shù)上要求選取和檢驗(yàn)符合業(yè)務(wù)需求的高質(zhì)量數(shù)據(jù)集。

在持續(xù)預(yù)訓(xùn)練場(chǎng)景中，企業(yè)利用自身專有數(shù)據(jù)(如內(nèi)部文檔、客戶記錄等)對(duì)模型進(jìn)行持續(xù)預(yù)訓(xùn)練。這種持續(xù)預(yù)訓(xùn)練門檻較高、成本較大，但可以得到一個(gè)企業(yè)自身定制的行業(yè)大模型。

持續(xù)預(yù)訓(xùn)練需要TB級(jí)未標(biāo)的原始數(shù)據(jù)，數(shù)據(jù)來(lái)源為公開的數(shù)據(jù)集或企業(yè)各部門的數(shù)據(jù)，技術(shù)上要求大規(guī)模、分布式清洗加工原始數(shù)據(jù)集的能力。

二是，企業(yè)需要具備強(qiáng)大的處理新數(shù)據(jù)的能力，才能有效構(gòu)建生成式AI應(yīng)用。

對(duì)生成式AI應(yīng)用程序而言，基礎(chǔ)模型頻繁調(diào)用將會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲。相對(duì)于此前數(shù)據(jù)庫(kù)調(diào)用通常毫秒級(jí)甚至微秒級(jí)的響應(yīng)時(shí)間，基礎(chǔ)模型每次調(diào)用時(shí)長(zhǎng)往往達(dá)到秒級(jí)。此外，每次調(diào)用基礎(chǔ)模型也會(huì)增加成本。

因此，加快數(shù)據(jù)處理速度，才能有效地在調(diào)用大模型時(shí)降本增效。

打造生成式AI時(shí)代的數(shù)據(jù)基座

面對(duì)大模型構(gòu)建中的數(shù)據(jù)存儲(chǔ)、清洗、加工、查詢、調(diào)用等各種挑戰(zhàn)，企業(yè)是否有高效的數(shù)據(jù)解決方案來(lái)應(yīng)對(duì)？

首先，針對(duì)大模型的微調(diào)、預(yù)訓(xùn)練，企業(yè)需要找到合適的存儲(chǔ)來(lái)承載海量數(shù)據(jù)，清洗加工原始數(shù)據(jù)為高質(zhì)量數(shù)據(jù)集，以及對(duì)整個(gè)組織內(nèi)數(shù)據(jù)的發(fā)現(xiàn)編目治理。

因此，在數(shù)據(jù)存儲(chǔ)方面，擴(kuò)展性和響應(yīng)速度是關(guān)鍵。

一方面，需要能夠承載海量數(shù)據(jù)；另一方面，存儲(chǔ)性能必須跟上計(jì)算資源——避免因?yàn)閿?shù)據(jù)傳輸瓶頸造成高昂計(jì)算資源的浪費(fèi)，或是吞吐量瓶頸導(dǎo)致更長(zhǎng)的訓(xùn)練時(shí)間。

比如，亞馬遜云科技上超過(guò)20萬(wàn)個(gè)數(shù)據(jù)湖都使用Amazon S3，它支持廣泛的數(shù)據(jù)協(xié)議，能夠輕松應(yīng)對(duì)各種數(shù)據(jù)類型，還支持智能分層以降低訓(xùn)練成本，其安全和功能都滿足微調(diào)和預(yù)訓(xùn)練基礎(chǔ)模型對(duì)數(shù)據(jù)存儲(chǔ)上的要求。

專門構(gòu)建的文件存儲(chǔ)服務(wù)Amazon FSx for Lustre則能夠提供亞毫秒延遲和數(shù)百萬(wàn)IOPS的吞吐性能，能夠進(jìn)一步加快模型優(yōu)化的速度。

在數(shù)據(jù)清洗方面，企業(yè)需要靈活的工具來(lái)完成數(shù)據(jù)清理、去重、乃至分詞的操作，能夠?qū)Ｗ⒂谏墒紸I業(yè)務(wù)創(chuàng)新。

比如，Amazon EMR serverless采用無(wú)服務(wù)器架構(gòu)，能夠幫助企業(yè)運(yùn)行任何規(guī)模的分析工作負(fù)載，自動(dòng)擴(kuò)展功能可在幾秒鐘內(nèi)調(diào)整資源大小，以滿足不斷變化的數(shù)據(jù)量和處理要求。

而Amazon Glue則是一個(gè)簡(jiǎn)單可擴(kuò)展的無(wú)服務(wù)器數(shù)據(jù)集成服務(wù)，可以輕松快速地完成微調(diào)或預(yù)訓(xùn)練模型的數(shù)據(jù)準(zhǔn)備工作。

在數(shù)據(jù)治理方面，企業(yè)難以在多個(gè)賬戶和區(qū)域中查找數(shù)據(jù)，也缺乏有效的數(shù)據(jù)治理工具。因此，一個(gè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù)的統(tǒng)一數(shù)據(jù)管理平臺(tái)，成為企業(yè)的必選項(xiàng)。

其次，針對(duì)大模型RAG場(chǎng)景，企業(yè)需要向量檢索來(lái)迅速查找，讓模型能快速準(zhǔn)確地進(jìn)行響應(yīng)。

這其中的技術(shù)關(guān)鍵是向量嵌入（vector embeddings），它通過(guò)將數(shù)據(jù)轉(zhuǎn)換為向量并存儲(chǔ)到向量數(shù)據(jù)庫(kù)中，從而將語(yǔ)義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學(xué)距離問題，以實(shí)現(xiàn)內(nèi)容的關(guān)聯(lián)性計(jì)算。

理想的情況是將向量搜索和數(shù)據(jù)存儲(chǔ)結(jié)合在一起，這樣企業(yè)就能將向量檢索和現(xiàn)有數(shù)據(jù)關(guān)聯(lián)起來(lái)，并得到更快的體驗(yàn)。

比如，亞馬遜云科技就專門構(gòu)建了圖數(shù)據(jù)庫(kù)Amazon Neptune，并為其推出了分析數(shù)據(jù)庫(kù)引擎，能夠提升80倍的圖數(shù)據(jù)分析速度，使用內(nèi)置算法可在幾秒鐘分析數(shù)百億個(gè)連接。通過(guò)將圖和向量數(shù)據(jù)一直存儲(chǔ)能夠?qū)崿F(xiàn)更快的向量搜索。

最后，有效處理生成式AI應(yīng)用的新數(shù)據(jù)，企業(yè)能夠降低模型頻繁調(diào)用成本并提升性能。

很多企業(yè)在推出生成式AI應(yīng)用后會(huì)發(fā)現(xiàn)，基礎(chǔ)大模型的頻繁調(diào)用會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲。但如果將之前問答生成的新數(shù)據(jù)存入緩存，不調(diào)用模型，而直接通過(guò)緩存給出回答，就能夠減少模型調(diào)用，還可以節(jié)約成本。

Amazon Memory DB內(nèi)存數(shù)據(jù)庫(kù)就是這樣一種工具，能夠存儲(chǔ)數(shù)百萬(wàn)個(gè)向量，只需要幾毫秒的響應(yīng)時(shí)間，就能夠以99%的召回率實(shí)現(xiàn)每秒百萬(wàn)次的查詢性能。

結(jié)語(yǔ)

在大模型快速爆發(fā)的當(dāng)下，企業(yè)缺的并不是大模型本身，而是以自身需求為中心去構(gòu)建大模型應(yīng)用，而這個(gè)構(gòu)建的過(guò)程并不容易。

正如亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建所說(shuō)：“企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用，而打造這樣的應(yīng)用需要從數(shù)據(jù)做起?！?/span>

亞馬遜云科技提供的正是企業(yè)構(gòu)建生成式AI應(yīng)用程序所需的一系列數(shù)據(jù)功能，能夠在實(shí)現(xiàn)簡(jiǎn)化開發(fā)的同時(shí)確保隱私性和安全性。

事實(shí)上，亞馬遜云科技不僅能提供數(shù)據(jù)工具，在云基礎(chǔ)設(shè)施服務(wù)、模型層服務(wù)、應(yīng)用層服務(wù)都提供了大量的服務(wù)于生成式AI的工具。

通過(guò)這一系列從底層到應(yīng)用層的創(chuàng)新，亞馬遜云科技的目標(biāo)是讓企業(yè)內(nèi)的任何開發(fā)人員都能夠自由構(gòu)建生成式AI應(yīng)用，而無(wú)需關(guān)注復(fù)雜的機(jī)器學(xué)習(xí)或底層基礎(chǔ)設(shè)施。

當(dāng)服務(wù)商解決好大模型落地的“最后幾公里”，那么大模型走進(jìn)千行百業(yè)將不再是一句口號(hào)。