章文嵩、蔣曉偉、李飛飛、張凱巔峰對談：大模型時代的數(shù)據(jù)智能新趨勢

阿明哥哥資料區(qū) 2024-05-20 發(fā)布于上海

展開全文

4 月 11 日，由極客邦旗下 InfoQ 中國主辦的 QCon 全球軟件開發(fā)大會暨智能軟件開發(fā)生態(tài)展在北京國測國際會議會展中心正式召開。主論壇壓軸的圓桌對話環(huán)節(jié)，AutoMQ 聯(lián)合創(chuàng)始人 & 首席戰(zhàn)略官章文嵩、ProtonBase 研究員蔣曉偉、阿里云數(shù)據(jù)庫產(chǎn)品事業(yè)部負(fù)責(zé)人李飛飛、螞蟻集團(tuán) AI 安全商業(yè)化總經(jīng)理張凱圍繞“大模型時代的數(shù)據(jù)智能新趨勢”主題展開了巔峰對談。

以下是對談實錄，經(jīng)過不改變原意的整理和簡化（感謝 ProtonBase 對稿件整理的大力支持）：

1 AI 與數(shù)據(jù)，它們的生產(chǎn)關(guān)系是不是發(fā)生了變化？

InfoQ：今天我們想探討的是數(shù)據(jù)在大模型時代發(fā)生的一些變化。當(dāng)下有一個話題非常火熱，大家都在討論 Data for AI 和 AI for Data ，在接下來的圓桌環(huán)節(jié)，我們希望以這個為話題展開討論。

接下來我們討論的第一部分話題是 AI 與數(shù)據(jù)，它們的生產(chǎn)關(guān)系是不是發(fā)生了變化？這次 QCon 展區(qū)懸掛了一些條幅，有咱們四位嘉賓的金句以及 slogan。其中飛刀的條幅上寫的是算力驅(qū)動與數(shù)據(jù)驅(qū)動助力智能化時代加速進(jìn)化，云原生與智能化推動結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)走向一體化、一站式處理。您能否解讀一下這個觀點？

李飛飛（飛刀）：我覺得大模型本質(zhì)上是一個數(shù)據(jù)驅(qū)動的 scaling law，從量變到質(zhì)變發(fā)生作用的這么一個過程。今天這個趨勢是很明顯的，人工智能的經(jīng)典理論體系里面是有符號主義和連接主義的，實際上這兩個路線一直在螺旋式上升，有一段時間連接主義是看到一些曙光，但后來沉寂了很久，實際上我大學(xué)上本科的時候就有 Neural Network（神經(jīng)網(wǎng)絡(luò)）這個概念了，但當(dāng)時根本沒有看到它的潛力，但它的基本框架很早就有了。

后來我們又轉(zhuǎn)到了以知識圖譜為代表的三元組的這種符號主義，邏輯推理等，直到今天的大模型，我覺得有點像《指環(huán)王》里面的王者回歸。好像連接主義 dominate everything，本質(zhì)上是這么一個簡單的總結(jié)過程。為什么我會說算力和數(shù)據(jù)驅(qū)動會讓數(shù)據(jù)的處理變成一體化和一站式，核心就是數(shù)據(jù)有這么幾種形態(tài)——結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化。在我們數(shù)據(jù)管理系統(tǒng)的歷史發(fā)展長河中，到現(xiàn)在為止，我們做的比較好的是結(jié)構(gòu)化數(shù)據(jù)的處理，從傳統(tǒng)的數(shù)據(jù)庫再到數(shù)據(jù)倉庫，再到從數(shù)據(jù)倉庫衍生出來的大數(shù)據(jù)的體系，基本上還是圍繞結(jié)構(gòu)化數(shù)據(jù)來處理的。

非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的處理說實話是淺嘗輒止的，但是我覺得大模型的突破，尤其是 scaling law 的進(jìn)一步發(fā)展，有可能會打通符號主義和連接主義，這是我個人的一個判斷。當(dāng)這件事發(fā)生以后，我覺得結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的一體化一站式處理將變成現(xiàn)實，我覺得這是非常激動人心的一個時刻。

在另外一個經(jīng)典的模型里面叫 DIKW——Data ，Information， Knowledge， Wisdom（數(shù)據(jù)、信息、知識、最后再到智慧）。Data 是最底下一層，我覺得我斷言句的核心邏輯是我認(rèn)為在接下來的 3~5 年，一個非常大的機(jī)會點是如何將多模態(tài)、各種類型的數(shù)據(jù)做到統(tǒng)一處理。統(tǒng)一未必是說通過一個引擎、一個平臺，這個未必，可以是多個引擎，比如說存儲統(tǒng)一、元數(shù)據(jù)管理統(tǒng)一，其中還是有多個引擎的。但是數(shù)據(jù)之間的流轉(zhuǎn)、語義的理解、上下文的理解、任務(wù)的轉(zhuǎn)發(fā)、數(shù)據(jù)流的這種處理，我覺得是可以被自動化或者被屏蔽掉的。從最終的業(yè)務(wù)視角來看，就是數(shù)據(jù)的一體化一站式的處理。這是我對斷言的一個簡單的解讀。

蔣曉偉（量仔）：我非常同意飛飛老師，此外再補(bǔ)充兩句。整個數(shù)據(jù)庫和大數(shù)據(jù)所做的事情就是試圖去理解數(shù)據(jù)，什么是結(jié)構(gòu)化數(shù)據(jù)和什么是非結(jié)構(gòu)化數(shù)據(jù)，它們的定義其實是在不斷變化的。在關(guān)系型數(shù)據(jù)庫出現(xiàn)之前，可能我們認(rèn)為所有的數(shù)據(jù)都是非結(jié)構(gòu)化的數(shù)據(jù)，但是關(guān)系型數(shù)據(jù)庫引入了表的這種抽象，我們就開始給數(shù)據(jù)庫表的結(jié)構(gòu)。

在過去的兩年之中，大語言模型對自然語言有了越來越深的了解，通過嵌入向量這種形式，給我們傳統(tǒng)上認(rèn)為是非結(jié)構(gòu)化的文本數(shù)據(jù)賦予一種新的結(jié)構(gòu)。這正是大數(shù)據(jù)和數(shù)據(jù)庫對數(shù)據(jù)理解的下一個階段。

隨著從 AI 開始向 AGI 邁進(jìn)，下一步自然就是給數(shù)據(jù)賦予智能的結(jié)構(gòu)，接下來數(shù)據(jù)系統(tǒng)會有一個巨大的改變，數(shù)據(jù)系統(tǒng)新的使命將會是讓數(shù)據(jù)涌現(xiàn)智能。

章文嵩：我其實跟他們兩個的觀點是一樣的，實際上未來是更多的數(shù)據(jù)，多模態(tài)的數(shù)據(jù)，包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。另外尤其是現(xiàn)在的大模型，實際上是我們用大模型生成 embedding 很多向量數(shù)據(jù)，向量數(shù)據(jù)大部分是 AI 程序在用，我們現(xiàn)在在關(guān)系型數(shù)據(jù)庫、數(shù)倉里面實際上存的都是基于關(guān)系型的數(shù)據(jù)，未來大模型更多使用的可能是基于概率的數(shù)據(jù)，這些向量數(shù)據(jù)。所以我覺得這個市場未來會非常大，因為關(guān)系型數(shù)據(jù)庫的市場是一年幾千億美金的市場，未來云原生的向量數(shù)據(jù)庫市場可能也規(guī)模不小。

張凱：螞蟻今年有一個大的背景， AI First 也就是人工智能優(yōu)先是我們集團(tuán)的三大戰(zhàn)略之一，所以從整個集團(tuán)層面非常重視 AI 的投入。我所在的是安全相關(guān)的領(lǐng)域，我們自己內(nèi)部有一句口號叫“AI 需要安全，安全需要 AI”，其實是形成一個自閉環(huán)。從生產(chǎn)關(guān)系的角度就是 AI 跟數(shù)據(jù)，我覺得第一點是數(shù)據(jù)本身已經(jīng)成為生產(chǎn)關(guān)系的一個制高點，因為我們原先在訓(xùn)練模型的時候，更多的是模型驅(qū)動，數(shù)據(jù)本身對于模型的效能的占比不會特別大。隨著大模型的出現(xiàn)，整個數(shù)據(jù)量級，包括數(shù)據(jù)的復(fù)雜度，數(shù)據(jù)已經(jīng)成為生產(chǎn)關(guān)系的一個制高點。

第二點就是 AI 作為一個新的生產(chǎn)力，包括今年政府兩會的報告也經(jīng)常提出新質(zhì)生產(chǎn)力這樣一個新的名詞。其實本質(zhì)上我是覺得 AI 本身作為生產(chǎn)的一個生意，它已經(jīng)具備了人腦的一些能力，我們經(jīng)常說 AI 助手或者 AI 助理，不是說它在體力方面能夠幫助我們?nèi)プ鍪裁?，而是因為它在智力層面已?jīng)具備了一定的能力。從生產(chǎn)力的角度來看，這是一個非常大的升級。

最后一點我覺得 AI 跟數(shù)據(jù)本身已經(jīng)形成了一個自閉環(huán)，包括我們現(xiàn)在通過 AI 的自動化技術(shù)去做數(shù)據(jù)標(biāo)注，包括像醫(yī)療、金融等垂類的一些數(shù)據(jù)標(biāo)注的服務(wù)，也包括現(xiàn)在比較火的，像合成數(shù)據(jù)，通過 AI 去生成一些新的數(shù)據(jù)。其實本身 AI 跟數(shù)據(jù)在這層生產(chǎn)關(guān)系上其實已經(jīng)形成了閉環(huán)。

2 AI 是否已經(jīng)成為數(shù)據(jù)架構(gòu)新的驅(qū)動力？

InfoQ：前幾年各個公司都在提，要做數(shù)據(jù)化，以及要做智能化，這兩個其實是分開提的，但是在大模型誕生之后，數(shù)據(jù)化和智能化就合二為一，變成數(shù)智化這樣一個大的戰(zhàn)略方向。AI 是不是已經(jīng)成為今天數(shù)據(jù)架構(gòu)新的驅(qū)動力？

章文嵩：對，關(guān)鍵是你說的數(shù)據(jù)架構(gòu)指的是什么？是整個數(shù)據(jù)鏈路的工程實現(xiàn)嗎？如果是底層的系統(tǒng)工程實現(xiàn)，AI 怎么作為一個輔助力量，類似 Github 的 Copilot。當(dāng)我們在編寫程序的時候，它可能會給我們一些幫助，一些提示，但是還是得我們自己來選擇。因為我覺得現(xiàn)在深層次的人工智能，它本身是并不理解這個結(jié)果的，因為它根據(jù)歷史的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，然后針對問題，根據(jù)過去預(yù)訓(xùn)練出來的這些概率統(tǒng)計、組合生成一個結(jié)果，我覺得模型本身對這個結(jié)果是不理解的，所以有時候我們看到它一本正經(jīng)地胡說八道。當(dāng)然并不否定這個模型本身的有效性，它能把人類所有的文本知識都壓縮在網(wǎng)絡(luò)里面，如果我們會問問題，能很高效地找到想要的知識的話。當(dāng)然，對生成的結(jié)果我們自己也要判斷。所以我們做數(shù)據(jù)鏈路的工程實現(xiàn)上，整體的架構(gòu)設(shè)計我們要理解需求是什么，要知道很多架構(gòu)設(shè)計背后各方面的開銷是什么，最終進(jìn)行取舍。我覺得目前的大模型取代不了這方面的工作，最多是一個輔助的手段。

李飛飛（飛刀）：文嵩剛才講到的其中一部分，比如說代碼生成 Github Copilot，我們在大量的實踐中發(fā)現(xiàn)目前的這種 Copilot，它對比如說前端代碼的生成已經(jīng)做到幾乎非常完美了，還有比如說生成 UT 我們基于通義的靈碼做得已經(jīng)非常完備了，但是真正的底層系統(tǒng)架構(gòu)的這些內(nèi)核的代碼，說實話目前還是有挑戰(zhàn)的。

核心的原因還是因為今天的大模型是基于連接主義的，本質(zhì)上它是一個壓縮總結(jié)，然后概率性地預(yù)測的一個邏輯，所以它的可解釋性以及推理能力還沒有那么強(qiáng)，當(dāng)然這塊是有可能會被顛覆的，因為如果它真的就是一個 scaling law 堆積的過程，可能它最終會從連接組里面自動地帶出符號主義，就是所謂的智能涌現(xiàn)這個能力，真的就是 AGI 了。當(dāng)然至少目前這件事還沒發(fā)生是吧？我也不知道會不會發(fā)生，這是第一點。

第二點實際上在 AI 輔助這個事情上，我覺得這是大概率會滲透到我們的方方面面。在接下來的 2~3 年，我覺得一定會看到這件事的發(fā)生，不光是在代碼生成這一個場景，可能在很多的場景下，通過 multi-agent 的這種應(yīng)用，Agent 之間的，API 的，如果說我們的數(shù)字世界各個模塊的 API 構(gòu)建得足夠地標(biāo)準(zhǔn)、完善，我覺得 AI 驅(qū)動的 multi-agent 會確定性地發(fā)生，當(dāng)然前提是我們各個模塊的 API 要足夠標(biāo)準(zhǔn)，足夠模塊化。

最后一點我想講的是，至少在目前看來，AIGC 適合沒有非常嚴(yán)苛要求的場景，比如說生成一個文本，生成一個 transcript，生成一個圖片。對有非常嚴(yán)苛的正確性要求的，我剛才和量仔還在底下交流，這種有極其嚴(yán)苛要求的任務(wù)，至少目前的大模型的能力還沒有做到完全取代人的作用。這是我對這個問題的幾個回應(yīng)。

蔣曉偉（量仔）：我非常同意文嵩和飛飛老師所說的，智能其實分為兩個部分，第一個部分是人的直覺，見到一個事情，我覺得什么是對的。第二個部分是推理能力。我給了一個證明，我是不是能夠讀懂這個證明，這個證明是不是嚴(yán)格，來做這么一個判斷?，F(xiàn)在的大語言模型，生成式 AI，在直覺上我認(rèn)為已經(jīng)達(dá)到了人類水平，甚至已經(jīng)超過了人類水平，但是在推理能力上與人類還有很大的差距。

而推理能力的完善其實就是通向 AGI 之路，一旦它有了嚴(yán)格的推理能力之后，我們就已經(jīng)跨越了奇點，達(dá)到了 AGI。在那步達(dá)到之前，我們需要選擇對錯誤有容忍的場景。比如我們讓它寫代碼，有錯誤的時候可能就會有問題，需要人去查看。但是如果讓它寫測試代碼，測試一些錯誤，它的容忍度會相對高一些，所以我們就需要在工作之中去發(fā)現(xiàn)、挖掘這種場景。

InfoQ：其實我還想問一下大家，在各自的公司中有哪些地方已經(jīng)開始已經(jīng)利用大模型去改造你們的一些業(yè)務(wù)了？

蔣曉偉（量仔）：現(xiàn)在還在初期，我們嘗試著用大模型寫一些測試，這也還是初期的一些嘗試，同時我們也試圖去用大模型從文本生成一些 SQL，效果現(xiàn)在還是有待改進(jìn)。

李飛飛（飛刀）：我具體講兩個例子。一個是代碼生成，當(dāng)然我們在公司內(nèi)部不可能用 Github Copilot，因為安全的問題，我們自己基于通義做的靈碼效果也非常好，我們現(xiàn)在全員用靈碼做代碼生成，尤其是前端代碼，還有像測試 UT 等等，還有像一些任務(wù)流的生成，效果非常好，對我們 LOC 的提升是非常明顯的，這是第一個。

第二個是比如說在應(yīng)用側(cè) NL2SQL，借助大模型的能力去構(gòu)建新的和數(shù)據(jù)庫、大數(shù)據(jù)系統(tǒng)的交互方式，這塊我覺得也是取得了非常好的業(yè)務(wù)進(jìn)展。

張凱：大模型螞蟻這兒其實是三類，第一類就是基座大模型或者是通用大模型，因為大模型大家現(xiàn)在看到它最強(qiáng)的能力其實是它的通用能力，也是為什么我們叫它 AGI 的原因，它能回答你各種各樣的文科問題、理科問題等等，這是一類。

第二類其實我們會結(jié)合螞蟻的稟賦去做一些垂類模型，比方說金融的大模型或者是醫(yī)療的大模型，大家在支付寶上可以看到，我們在 4 月初上線了一個醫(yī)療服務(wù)的大模型助手，因為我本人其實就頭疼去醫(yī)院掛號，專家問詢等等。

第三類其實就是我的專業(yè)領(lǐng)域相關(guān)的安全大模型或者是大模型安全。因為大模型本身的一些內(nèi)生的，像內(nèi)容安全、數(shù)據(jù)安全等，一會兒我們可能會展開聊這塊。

3 湖倉一體，它的終極形態(tài)應(yīng)該是怎么樣的？

InfoQ：我們可以看到目前為止，已經(jīng)有各種各樣的數(shù)據(jù)，它可能是非結(jié)構(gòu)化的，也可能是半結(jié)構(gòu)化的，包括它們可能是從不同的地方過來的，那么面對這樣一些不同來源、不同形式的數(shù)據(jù)，是不是有一些新的方法能夠?qū)崿F(xiàn)更加有效的多模態(tài)數(shù)據(jù)融合？

章文嵩：前面飛飛已經(jīng)提到過了，多種來源的數(shù)據(jù)肯定最好是在一個平臺把它存起來，在一個平臺進(jìn)行加工處理。這個肯定是湖倉一體，這是大趨勢。

InfoQ：我想沿著湖倉一體這個話題來問下一個問題，在您看來，湖倉一體，它的一個終極形態(tài)應(yīng)該是怎么樣的？尤其是在咱們大模型的推動之下。

章文嵩：湖倉一體的終極形態(tài)就是要集成多種數(shù)據(jù)源的存儲處理，包括上面的使用。然后跟現(xiàn)有的很多系統(tǒng)應(yīng)該可以對接起來，應(yīng)該可以把更多的數(shù)據(jù)匯集到最終的一個平臺上面來。

蔣曉偉（量仔）：我的觀點可能稍微有點爭議。湖倉一體我們首先得理解它解決的問題是什么，我覺得數(shù)據(jù)湖主要解決兩個問題：第一個問題是我們在一份數(shù)據(jù)之上需要有各種各樣的數(shù)據(jù)處理能力和計算能力，現(xiàn)在沒有一個系統(tǒng)能夠具有所有的數(shù)據(jù)計算和處理的能力，所以我們就開始有了用多個引擎在同一份數(shù)據(jù)上處理的能力，所以我們把數(shù)據(jù)放到 S3，放在對象存儲之中，這就形成了一個湖。這是它需要解決的第一個問題，能夠在數(shù)據(jù)之上有更豐富的處理能力、計算能力。

它解決的第二個問題是成本問題，因為對象存儲相對比較便宜，把數(shù)據(jù)存在對象存儲之上能夠減少我們的存儲成本。

隨著技術(shù)的發(fā)展，慢慢地會產(chǎn)生更好的平臺或引擎，它們具有多種計算的能力，這個時候?qū)男枨缶蜁販p少。所以隨著技術(shù)的發(fā)展，我認(rèn)為湖的場景會變得越來越少，甚至湖就成了倉庫的一部分，變成了房間里的一個游泳池。

所以我覺得湖倉一體的最終形態(tài)可能是湖被完全吸收到了一個功能更加強(qiáng)大，成本更低的數(shù)倉之中。

章文嵩：我覺得沒有什么沖突，因為大部分的數(shù)據(jù)無論是結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù)都會匯聚到類似對象存儲上面去。對象存儲之后，因為存算分離上面的計算部分可以有多種多樣的計算引擎，這并不矛盾，因為如果我們把所有的數(shù)據(jù)匯聚到對象存儲一個統(tǒng)一的存儲層，那上面可以支撐所有的，因為統(tǒng)一的數(shù)據(jù)視圖對任何一家公司、任何一個組織來說是至關(guān)重要的，在上面我可以堆疊很多種引擎。

我覺得終極的形態(tài)，首先上面肯定是更多地用自然語言來使用這樣一個平臺，量仔也在嘗試能不能通過自然語言生成 SQL，這個準(zhǔn)確度肯定是會隨著時間不斷地提高的。另一方面，計算引擎之上肯定更多的 AI 的程序會來使用。我們現(xiàn)在數(shù)據(jù)分析師做決策，大部分都是分析師在那看，未來是更多的程序，更多的 AI 程序查看數(shù)據(jù)，所以我覺得未來肯定是這兩個趨勢。

李飛飛（飛刀）：為什么我那個斷言里面提到了很重要的另外一個詞叫云計算，我覺得算力的基礎(chǔ)設(shè)施化，一定會讓我們計算資源的解耦變成一個現(xiàn)實，比如說現(xiàn)在的存儲計算分離，甚至下一代，我認(rèn)為在計算這一層， CPU 和內(nèi)存也會分離，內(nèi)存也會池化。這樣就帶來一個顯而易見的趨勢，就是最底下的一層存儲肯定是統(tǒng)一了，成本低，但延遲可能比較高，比如說像對象存儲這樣一層。然后為了計算加速，要有存儲的專屬格式，這是為什么以前有各種各樣的數(shù)據(jù)系統(tǒng)的一個根因。但是存計分離以后，有三層的分離以后，專屬格式可以在成本比較高的存儲這一層再來實現(xiàn)，最低那一層的存儲，就是一個通用的存儲格式。所有標(biāo)準(zhǔn)層的，不管你上面是什么類型的，到那層統(tǒng)一掉，然后在上面這一層，比如說塊存儲，甚至本地盤，甚至到內(nèi)存池化這一層，再轉(zhuǎn)化成專屬格式來做計算加速，然后計算有多個計算引擎，計算引擎計算可以是無狀態(tài)的。

只要對用戶做到元數(shù)據(jù)的統(tǒng)一管理、隔離、安全、AccessControl，并保證體驗的統(tǒng)一，邏輯上來講還是多個引擎，但是對用戶側(cè)來說，感知是完全統(tǒng)一的。我覺得未來大概率是往這個方向去演進(jìn)。

4 如何衡量數(shù)據(jù)系統(tǒng)的物理極限？

InfoQ：量仔之前接受過我們的一個采訪，當(dāng)時你提到了一個新的名詞 Data Warebase，這應(yīng)該是一個比較新的詞，能否再給我們闡釋一下？

蔣曉偉（量仔）：好的。最近馬斯克在他的 X 平臺發(fā)布了一個分享，他說評價一個產(chǎn)品正確的方式，不是跟競爭對手比（太容易），而應(yīng)當(dāng)跟物理極限比。如果我們把追求物理極限當(dāng)做一個數(shù)據(jù)系統(tǒng)的目標(biāo)，那我們應(yīng)該從哪幾個維度來評價物理極限呢？技術(shù)到最后還是要服務(wù)于業(yè)務(wù)，我認(rèn)為從業(yè)務(wù)的視角來看，它有三個核心的需求：性能、正確性和實時性。

第一個需求是性能，它也是最顯然的一個需求，性能也是過去 20 年里大數(shù)據(jù)蓬勃發(fā)展背后最主要的推動力，特別是在 AI 時代，數(shù)據(jù)量急劇增長，AI 對性能的需求也在不斷地提升，用戶希望數(shù)據(jù)系統(tǒng)能夠滿足 AI 所帶來的無論多么高的性能需求，這是一個方面。第二個同樣在 AI 時代，用戶使用數(shù)據(jù)的方式也會變得越來越多樣，場景也會越來越復(fù)雜。作為一個好的追求極限的數(shù)據(jù)系統(tǒng)，它能夠滿足數(shù)據(jù)任意使用方式的性能需求。

第二點是數(shù)據(jù)的正確性，正確性就意味著任何時候存儲在系統(tǒng)之中的數(shù)據(jù)都是正確且一致的，當(dāng)我們做任何一個查詢，返回的結(jié)果也都是正確的、一致的，只有做到這一點，在數(shù)據(jù)系統(tǒng)之上用 AI 所做的各種智能決策才能夠有堅實的基礎(chǔ)。但數(shù)據(jù)的錯誤往往比較隱蔽，因此這一點比較容易被忽略，但是對于一個追求極限的數(shù)據(jù)系統(tǒng)來說，這必須是一個業(yè)務(wù)最核心，而且最基本的需求之一。

第三點是數(shù)據(jù)的實時性，不同的系統(tǒng)可能對數(shù)據(jù)的實時性要求不一樣，有的系統(tǒng)達(dá)到小時級的實時性就夠了，有的系統(tǒng)需要分鐘級甚至秒級實時性。在有了 AI 之后，就可以通過 AI 讓系統(tǒng)自動地做出很多決定，因此數(shù)據(jù)鏈路的實時性往往決定決策鏈路整體的實時性，這也會影響數(shù)據(jù)所能產(chǎn)生的業(yè)務(wù)價值。作為一個追求極致的數(shù)據(jù)系統(tǒng)，我們自然也希望它能夠滿足最苛刻業(yè)務(wù)的實時性需求，也就是它的數(shù)據(jù)延遲性必須做到任意的低。

我認(rèn)為從業(yè)務(wù)這三個核心需求出發(fā)，接下來會涌現(xiàn)出一類全新的數(shù)據(jù)產(chǎn)品，它就是分布式 Data Warebase。Data Warebase 是 Data Warehouse（數(shù)據(jù)倉庫）和 Database （數(shù)據(jù)庫）這兩個詞的融合，它意味著這樣一個系統(tǒng)同時具備了數(shù)倉和數(shù)據(jù)庫的所有能力。分布式 Data Warebase 在數(shù)據(jù)庫的場景將會是一個更好的數(shù)據(jù)庫，因為它解決了數(shù)據(jù)庫水平擴(kuò)展的問題。分布式 Data Warebase 在數(shù)倉場景也會是一個更好的數(shù)倉，因為它同時解決了數(shù)倉場景數(shù)據(jù)正確性和實時性的問題。

所以分布式 Data Warebase 是從業(yè)務(wù)的三個核心需求——性能、正確性和實時性出發(fā)得到的一個必然推論。它不是一個發(fā)明，而是一個發(fā)現(xiàn)。

章文嵩：針對量仔說的這三點，我覺得應(yīng)該再增加兩點。第一個點是成本，因為是不是以最低的成本滿足業(yè)務(wù)的需求，實際上是我們永遠(yuǎn)追求的。我的系統(tǒng)有沒有足夠多的彈性？隨著業(yè)務(wù)的需求的增長，成本是逐漸增加的。另外就是安全性對吧？我們做任何系統(tǒng)怎么確保數(shù)據(jù)的安全，怎么確保用戶的隱私，數(shù)據(jù)的保護(hù)，任何異常的行為，都要確保安全性，這樣才會有業(yè)務(wù)的安全。

InfoQ：量仔其實提出過一句話，叫“從業(yè)務(wù)本質(zhì)需求出發(fā)，探索數(shù)據(jù)系統(tǒng)物理極限”。所以前面的回答是在闡釋這句話？

蔣曉偉（量仔）：是的，如何衡量數(shù)據(jù)系統(tǒng)的物理極限，我們剛才說到了性能、正確性和實時性。文嵩老師又加了一個成本，在我看來成本其實是性能的一部分。

章文嵩：我覺得可能我們可以綜合一下，這 5 點有可能是我們做系統(tǒng)永無止境追求的目標(biāo)。

蔣曉偉（量仔）：是的，非常同意。

5 數(shù)據(jù)和 AI 的基礎(chǔ)設(shè)施協(xié)同目前已經(jīng)達(dá)到有效的方式了嗎？

InfoQ：文嵩老師其實一直在深耕數(shù)據(jù)基礎(chǔ)設(shè)施層面的工作，在您看來，當(dāng)前這個情況下，數(shù)據(jù)的基礎(chǔ)設(shè)施和 AI 基礎(chǔ)設(shè)施它們的協(xié)同目前已經(jīng)達(dá)到一個有效的方式了嗎？還是說我們還可以有一個更好的方式讓它們更好地協(xié)同起來？

章文嵩：因為數(shù)據(jù)跟 AI 本身就是一體的，AI 需要數(shù)據(jù)，在數(shù)據(jù)上我們能產(chǎn)生更多的智能，但是我們知道 AI 成功的三個主要要素，我覺得是人、數(shù)據(jù)還有算力。為什么說人，我覺得人在里面是最關(guān)鍵的，人包括領(lǐng)域的人才、算法的人才，還有工程的人才，實際上要聚合這么多的人才并不容易，這實際上使得 AI 的門檻相對來說是比較高的。所以怎么樣復(fù)用這些人才的經(jīng)驗，你要有數(shù)據(jù)的基礎(chǔ)設(shè)施，包括 AI 應(yīng)用的基礎(chǔ)設(shè)施，能不能讓更多的用戶來使用 AI 的基礎(chǔ)設(shè)施，搭建應(yīng)用更方便。前面郭東白老師的分享中提到他是做應(yīng)用架構(gòu)的，要做很多的選擇，其中一個考量點是要不要做 AI 大模型，我實際上有不同的觀點。因為 AI 的模型實際上規(guī)模越來越大，從幾千億的參數(shù)到幾萬億、幾十萬億，未來 GPT6 要到 100 萬億這樣參數(shù)的規(guī)模，這些 AI 的大規(guī)模訓(xùn)練成本不是中小企業(yè)能承擔(dān)的，也不應(yīng)該是中小企業(yè)要考慮的范圍。所以我們更多地要用第三方的基礎(chǔ)大模型服務(wù)，或者基于開源已經(jīng)訓(xùn)練好的開源大模型來做，因為上面有更多靈活性。

所以上面你剛剛提到的兩者，云原生的數(shù)據(jù)基礎(chǔ)設(shè)施跟云原生的 AI 基礎(chǔ)設(shè)施，肯定是相互協(xié)同的，因為數(shù)據(jù)基礎(chǔ)設(shè)施提供了統(tǒng)一的、共享的數(shù)據(jù)平臺，然后 AI 的基礎(chǔ)設(shè)施之上開發(fā)應(yīng)用會更加方便，更加快捷。我覺得在大模型時代， AI 應(yīng)用的模型各方面的開發(fā)門檻會大幅降低，越來越多的中小企業(yè)甚至個人都可以做自己的 AI Agent。

6 數(shù)據(jù)安全領(lǐng)域的新挑戰(zhàn)與發(fā)展方向

張凱：在當(dāng)下的應(yīng)用來講，生成式 AI 的特性已經(jīng)模糊了我們傳統(tǒng)安全的邊界，所以帶來了大量的不確定性。主要包括三塊：

第一塊是數(shù)據(jù)層面，數(shù)據(jù)層面按照大模型的生命周期來講，最早是要做預(yù)訓(xùn)練。預(yù)訓(xùn)練的時候，喂大量 PB 級別的數(shù)據(jù)進(jìn)去之后要祛毒，包括里面的一些數(shù)據(jù)安全、倫理安全等等，需要快速甄別海量數(shù)據(jù)的安全挑戰(zhàn)，這是第一塊。

第二塊是預(yù)訓(xùn)練結(jié)束之后需要進(jìn)入到微調(diào)階段。微調(diào)階段其實核心是考驗數(shù)據(jù)標(biāo)注的準(zhǔn)確性，數(shù)據(jù)標(biāo)注的準(zhǔn)確性可以幫助我們讓大模型的價值往我們想要的那個方向往前發(fā)展。

但是這兩塊其實也只是基礎(chǔ)，再往前走的話，其實是應(yīng)用層面。應(yīng)用層面我們螞蟻團(tuán)隊現(xiàn)在在做一個產(chǎn)品，叫蟻天鑒。它分為兩部分，一個叫蟻鑒，蟻鑒是給大模型做體檢的，包括大模型本身的數(shù)據(jù)安全、內(nèi)容安全以及科技倫理等等，就看整體大模型的一些風(fēng)險程度，確保這塊是沒問題的；另外一部分叫天鑒，相當(dāng)于我們在大模型的外部設(shè)置了一個圍欄，確保整體大模型在應(yīng)用層面有邊界保障。

InfoQ：當(dāng)前在數(shù)據(jù)安全領(lǐng)域，老師觀察到有哪些讓您覺得很興奮的，或者說讓您覺得非常有潛力的應(yīng)用方向嗎？

張凱：確實有幾塊，一塊是數(shù)據(jù)層面，比方說像合成數(shù)據(jù)，合成數(shù)據(jù)大家可以關(guān)注一下做合成數(shù)據(jù)的一些，像美國的一些公司，估值都非常高，不亞于大模型廠商的一些估值。

然后我們看了一些研究報告的評估，有一份研究報告，比方說像 AI Epoch research，它預(yù)估在 2026 年之后，現(xiàn)有的能夠提供給大模型訓(xùn)練的真實數(shù)據(jù)基本上已經(jīng)被耗盡，這個大概率是一個趨勢，那么在 2026 年之后合成數(shù)據(jù)的應(yīng)用可能會成為一個必然。

第二塊就是我剛才提到的 AI 標(biāo)注，也就是大模型的數(shù)據(jù)標(biāo)注。這塊我們其實剛才提到 ScaleAI 這個公司，我們其實沒有看到在國內(nèi)有真正對標(biāo)這家企業(yè)去為整個大模型產(chǎn)業(yè)鏈條提供服務(wù)的自動化的標(biāo)注廠商，所以這塊其實我們也是在積極地往前做探索。

最后就是我自己的本業(yè)，大模型安全這一塊。

章文嵩：說到安全領(lǐng)域，我覺得有兩個主要的方向，因為我曾經(jīng)向安全領(lǐng)域的技術(shù)大佬請教過，安全主要做哪些事情，他給我三個關(guān)鍵詞：可感、可控、業(yè)務(wù)優(yōu)先。可感，你能感知到整體的安全形態(tài)怎么樣，然后如果有危險、有風(fēng)險的話要可控，安全響應(yīng)系統(tǒng)是怎么樣？當(dāng)然業(yè)務(wù)優(yōu)先，當(dāng)安全跟業(yè)務(wù)發(fā)生沖突的時候，那個是一個價值的判斷，一定要滿足業(yè)務(wù)要求，然后我們最大的安全能做到怎么樣。

所以在這里面我覺得可感、可控方面，這是安全里面的兩個最大的領(lǐng)域?？筛?、可控，實際上 AI 技術(shù)怎么來應(yīng)用到里面去，因為全局的安全事態(tài)感知系統(tǒng)，包括全局的安全響應(yīng)系統(tǒng)，實際上這里面我覺得有很多值得去探討的。

李飛飛（飛刀）：如果把人當(dāng)做一個智能的計算體的話，本質(zhì)上有三個關(guān)鍵步驟，一個是感知，文嵩和張凱講到的這個感知這部分，就是可感、感知。

第二就是計算，獲取感知以后，把它轉(zhuǎn)化成各種腦能夠處理的信號做計算，那么在計算過程中，需要確保不出差池。整個最后的結(jié)果是有邏輯性的，有推導(dǎo)條理的，這就要有安全的保障。所以總結(jié)就三件事，就是感知、計算、安全，大模型能否夠幫助我們把這三件事做得更好，是挺令人激動的一件事情。

7 總結(jié)：數(shù)據(jù)智能時代的未來趨勢

蔣曉偉（量仔）：過去的這么多年，業(yè)務(wù)發(fā)展非?？?，數(shù)據(jù)量變得越來越大，大家都疲于奔命去解決系統(tǒng)的性能問題。這些性能問題有很多是由于場景變得越來越豐富，特別是 AI 所帶來的。隨著技術(shù)的發(fā)展，性能問題逐漸得到解決，在大部分場景已經(jīng)不再是業(yè)務(wù)的主要阻礙，而當(dāng)性能問題解決之后，我們就必然會看到更深層次的一些需求。比如說剛才我們提到的幾個需求（性能、正確性和實時性）。除此之外更重要的是大家必然會對體驗更加重視，接下來對體驗的重視會使一些新的產(chǎn)品涌現(xiàn)，體驗將會成為區(qū)分下一代新產(chǎn)品一個很重要的標(biāo)準(zhǔn)。

此外，AI 時代會給整個數(shù)據(jù)系統(tǒng)帶來一個新的使命，就是讓數(shù)據(jù)涌現(xiàn)智能。 我希望和大家一起來探索下一代的數(shù)據(jù)系統(tǒng)。

張凱：昨天我們內(nèi)部看馬老師寫了一封長信，鼓勵大家繼續(xù)上路，其中他也提到了 AI 這一塊，跟大家共勉，大概意思是說 AI 時代已來，但是我們現(xiàn)在其實才剛剛上路。我自己其實也是這樣一個心態(tài)，作為一個初學(xué)者在路上，但是仍然會覺得非常興奮。 AI 相關(guān)的這些數(shù)據(jù)模型，包括安全等等，我自己還是蠻期待未來幾年這個行業(yè)的一些變化的。

李飛飛（飛刀）：其實挺難總結(jié)的，我覺得數(shù)據(jù)與 AI，兩者缺一不可。未來如果大家從事相關(guān)工作、真想把 AI 做好，不是只做上面的應(yīng)用，而是希望真正在這方面有一些貢獻(xiàn)并真正產(chǎn)生影響力的話，底層數(shù)據(jù)系統(tǒng)的構(gòu)建原理，是值得花時間去思考的。

章文嵩：我覺得智能化第四次的科技革命可以持續(xù) 100 年，所以在這 100 年里面，我們其實有很多工作值得去做，云原生的數(shù)據(jù)基礎(chǔ)設(shè)施，云原生的 AI 基礎(chǔ)設(shè)施，可以大幅降低 AI 應(yīng)用的門檻，未來一定會有大量的 AI 應(yīng)用涌現(xiàn)出來。