4 月 11 日,由極客邦旗下 InfoQ 中國主辦的 QCon 全球軟件開發(fā)大會暨智能軟件開發(fā)生態(tài)展在北京國測國際會議會展中心正式召開。主論壇壓軸的圓桌對話環(huán)節(jié),AutoMQ 聯(lián)合創(chuàng)始人 & 首席戰(zhàn)略官章文嵩、ProtonBase 研究員蔣曉偉、阿里云數(shù)據(jù)庫產(chǎn)品事業(yè)部負(fù)責(zé)人李飛飛、螞蟻集團(tuán) AI 安全商業(yè)化總經(jīng)理張凱圍繞“大模型時代的數(shù)據(jù)智能新趨勢”主題展開了巔峰對談。 以下是對談實錄,經(jīng)過不改變原意的整理和簡化(感謝 ProtonBase 對稿件整理的大力支持): 接下來我們討論的第一部分話題是 AI 與數(shù)據(jù),它們的生產(chǎn)關(guān)系是不是發(fā)生了變化?這次 QCon 展區(qū)懸掛了一些條幅,有咱們四位嘉賓的金句以及 slogan。其中飛刀的條幅上寫的是算力驅(qū)動與數(shù)據(jù)驅(qū)動助力智能化時代加速進(jìn)化,云原生與智能化推動結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)走向一體化、一站式處理。您能否解讀一下這個觀點? 李飛飛(飛刀):我覺得大模型本質(zhì)上是一個數(shù)據(jù)驅(qū)動的 scaling law,從量變到質(zhì)變發(fā)生作用的這么一個過程。今天這個趨勢是很明顯的,人工智能的經(jīng)典理論體系里面是有符號主義和連接主義的,實際上這兩個路線一直在螺旋式上升,有一段時間連接主義是看到一些曙光,但后來沉寂了很久,實際上我大學(xué)上本科的時候就有 Neural Network(神經(jīng)網(wǎng)絡(luò))這個概念了,但當(dāng)時根本沒有看到它的潛力,但它的基本框架很早就有了。 后來我們又轉(zhuǎn)到了以知識圖譜為代表的三元組的這種符號主義,邏輯推理等,直到今天的大模型,我覺得有點像《指環(huán)王》里面的王者回歸。好像連接主義 dominate everything,本質(zhì)上是這么一個簡單的總結(jié)過程。為什么我會說算力和數(shù)據(jù)驅(qū)動會讓數(shù)據(jù)的處理變成一體化和一站式,核心就是數(shù)據(jù)有這么幾種形態(tài)——結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化。在我們數(shù)據(jù)管理系統(tǒng)的歷史發(fā)展長河中,到現(xiàn)在為止,我們做的比較好的是結(jié)構(gòu)化數(shù)據(jù)的處理,從傳統(tǒng)的數(shù)據(jù)庫再到數(shù)據(jù)倉庫,再到從數(shù)據(jù)倉庫衍生出來的大數(shù)據(jù)的體系,基本上還是圍繞結(jié)構(gòu)化數(shù)據(jù)來處理的。 非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的處理說實話是淺嘗輒止的,但是我覺得大模型的突破,尤其是 scaling law 的進(jìn)一步發(fā)展,有可能會打通符號主義和連接主義,這是我個人的一個判斷。當(dāng)這件事發(fā)生以后,我覺得結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的一體化一站式處理將變成現(xiàn)實,我覺得這是非常激動人心的一個時刻。 在另外一個經(jīng)典的模型里面叫 DIKW——Data ,Information, Knowledge, Wisdom(數(shù)據(jù)、信息、知識、最后再到智慧)。Data 是最底下一層,我覺得我斷言句的核心邏輯是我認(rèn)為在接下來的 3~5 年,一個非常大的機(jī)會點是如何將多模態(tài)、各種類型的數(shù)據(jù)做到統(tǒng)一處理。統(tǒng)一未必是說通過一個引擎、一個平臺,這個未必,可以是多個引擎,比如說存儲統(tǒng)一、元數(shù)據(jù)管理統(tǒng)一,其中還是有多個引擎的。但是數(shù)據(jù)之間的流轉(zhuǎn)、語義的理解、上下文的理解、任務(wù)的轉(zhuǎn)發(fā)、數(shù)據(jù)流的這種處理,我覺得是可以被自動化或者被屏蔽掉的。從最終的業(yè)務(wù)視角來看,就是數(shù)據(jù)的一體化一站式的處理。這是我對斷言的一個簡單的解讀。 蔣曉偉(量仔):我非常同意飛飛老師,此外再補(bǔ)充兩句。整個數(shù)據(jù)庫和大數(shù)據(jù)所做的事情就是試圖去理解數(shù)據(jù),什么是結(jié)構(gòu)化數(shù)據(jù)和什么是非結(jié)構(gòu)化數(shù)據(jù),它們的定義其實是在不斷變化的。在關(guān)系型數(shù)據(jù)庫出現(xiàn)之前,可能我們認(rèn)為所有的數(shù)據(jù)都是非結(jié)構(gòu)化的數(shù)據(jù),但是關(guān)系型數(shù)據(jù)庫引入了表的這種抽象,我們就開始給數(shù)據(jù)庫表的結(jié)構(gòu)。 在過去的兩年之中,大語言模型對自然語言有了越來越深的了解,通過嵌入向量這種形式,給我們傳統(tǒng)上認(rèn)為是非結(jié)構(gòu)化的文本數(shù)據(jù)賦予一種新的結(jié)構(gòu)。這正是大數(shù)據(jù)和數(shù)據(jù)庫對數(shù)據(jù)理解的下一個階段。 隨著從 AI 開始向 AGI 邁進(jìn),下一步自然就是給數(shù)據(jù)賦予智能的結(jié)構(gòu),接下來數(shù)據(jù)系統(tǒng)會有一個巨大的改變,數(shù)據(jù)系統(tǒng)新的使命將會是讓數(shù)據(jù)涌現(xiàn)智能。 章文嵩:我其實跟他們兩個的觀點是一樣的,實際上未來是更多的數(shù)據(jù),多模態(tài)的數(shù)據(jù),包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。另外尤其是現(xiàn)在的大模型,實際上是我們用大模型生成 embedding 很多向量數(shù)據(jù),向量數(shù)據(jù)大部分是 AI 程序在用,我們現(xiàn)在在關(guān)系型數(shù)據(jù)庫、數(shù)倉里面實際上存的都是基于關(guān)系型的數(shù)據(jù),未來大模型更多使用的可能是基于概率的數(shù)據(jù),這些向量數(shù)據(jù)。所以我覺得這個市場未來會非常大,因為關(guān)系型數(shù)據(jù)庫的市場是一年幾千億美金的市場,未來云原生的向量數(shù)據(jù)庫市場可能也規(guī)模不小。 張凱:螞蟻今年有一個大的背景, AI First 也就是人工智能優(yōu)先是我們集團(tuán)的三大戰(zhàn)略之一,所以從整個集團(tuán)層面非常重視 AI 的投入。我所在的是安全相關(guān)的領(lǐng)域,我們自己內(nèi)部有一句口號叫“AI 需要安全,安全需要 AI”,其實是形成一個自閉環(huán)。從生產(chǎn)關(guān)系的角度就是 AI 跟數(shù)據(jù),我覺得第一點是數(shù)據(jù)本身已經(jīng)成為生產(chǎn)關(guān)系的一個制高點,因為我們原先在訓(xùn)練模型的時候,更多的是模型驅(qū)動,數(shù)據(jù)本身對于模型的效能的占比不會特別大。隨著大模型的出現(xiàn),整個數(shù)據(jù)量級,包括數(shù)據(jù)的復(fù)雜度,數(shù)據(jù)已經(jīng)成為生產(chǎn)關(guān)系的一個制高點。 第二點就是 AI 作為一個新的生產(chǎn)力,包括今年政府兩會的報告也經(jīng)常提出新質(zhì)生產(chǎn)力這樣一個新的名詞。其實本質(zhì)上我是覺得 AI 本身作為生產(chǎn)的一個生意,它已經(jīng)具備了人腦的一些能力,我們經(jīng)常說 AI 助手或者 AI 助理,不是說它在體力方面能夠幫助我們?nèi)プ鍪裁?,而是因為它在智力層面已?jīng)具備了一定的能力。從生產(chǎn)力的角度來看,這是一個非常大的升級。 最后一點我覺得 AI 跟數(shù)據(jù)本身已經(jīng)形成了一個自閉環(huán),包括我們現(xiàn)在通過 AI 的自動化技術(shù)去做數(shù)據(jù)標(biāo)注,包括像醫(yī)療、金融等垂類的一些數(shù)據(jù)標(biāo)注的服務(wù),也包括現(xiàn)在比較火的,像合成數(shù)據(jù),通過 AI 去生成一些新的數(shù)據(jù)。其實本身 AI 跟數(shù)據(jù)在這層生產(chǎn)關(guān)系上其實已經(jīng)形成了閉環(huán)。 章文嵩:對,關(guān)鍵是你說的數(shù)據(jù)架構(gòu)指的是什么?是整個數(shù)據(jù)鏈路的工程實現(xiàn)嗎?如果是底層的系統(tǒng)工程實現(xiàn),AI 怎么作為一個輔助力量,類似 Github 的 Copilot。當(dāng)我們在編寫程序的時候,它可能會給我們一些幫助,一些提示,但是還是得我們自己來選擇。因為我覺得現(xiàn)在深層次的人工智能,它本身是并不理解這個結(jié)果的,因為它根據(jù)歷史的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后針對問題,根據(jù)過去預(yù)訓(xùn)練出來的這些概率統(tǒng)計、組合生成一個結(jié)果,我覺得模型本身對這個結(jié)果是不理解的,所以有時候我們看到它一本正經(jīng)地胡說八道。當(dāng)然并不否定這個模型本身的有效性,它能把人類所有的文本知識都壓縮在網(wǎng)絡(luò)里面,如果我們會問問題,能很高效地找到想要的知識的話。當(dāng)然,對生成的結(jié)果我們自己也要判斷。所以我們做數(shù)據(jù)鏈路的工程實現(xiàn)上,整體的架構(gòu)設(shè)計我們要理解需求是什么,要知道很多架構(gòu)設(shè)計背后各方面的開銷是什么,最終進(jìn)行取舍。我覺得目前的大模型取代不了這方面的工作,最多是一個輔助的手段。 李飛飛(飛刀):文嵩剛才講到的其中一部分,比如說代碼生成 Github Copilot,我們在大量的實踐中發(fā)現(xiàn)目前的這種 Copilot,它對比如說前端代碼的生成已經(jīng)做到幾乎非常完美了,還有比如說生成 UT 我們基于通義的靈碼做得已經(jīng)非常完備了,但是真正的底層系統(tǒng)架構(gòu)的這些內(nèi)核的代碼,說實話目前還是有挑戰(zhàn)的。 核心的原因還是因為今天的大模型是基于連接主義的,本質(zhì)上它是一個壓縮總結(jié),然后概率性地預(yù)測的一個邏輯,所以它的可解釋性以及推理能力還沒有那么強(qiáng),當(dāng)然這塊是有可能會被顛覆的,因為如果它真的就是一個 scaling law 堆積的過程,可能它最終會從連接組里面自動地帶出符號主義,就是所謂的智能涌現(xiàn)這個能力,真的就是 AGI 了。當(dāng)然至少目前這件事還沒發(fā)生是吧?我也不知道會不會發(fā)生,這是第一點。 第二點實際上在 AI 輔助這個事情上,我覺得這是大概率會滲透到我們的方方面面。在接下來的 2~3 年,我覺得一定會看到這件事的發(fā)生,不光是在代碼生成這一個場景,可能在很多的場景下,通過 multi-agent 的這種應(yīng)用,Agent 之間的,API 的,如果說我們的數(shù)字世界各個模塊的 API 構(gòu)建得足夠地標(biāo)準(zhǔn)、完善,我覺得 AI 驅(qū)動的 multi-agent 會確定性地發(fā)生,當(dāng)然前提是我們各個模塊的 API 要足夠標(biāo)準(zhǔn),足夠模塊化。 最后一點我想講的是,至少在目前看來,AIGC 適合沒有非常嚴(yán)苛要求的場景,比如說生成一個文本,生成一個 transcript,生成一個圖片。對有非常嚴(yán)苛的正確性要求的,我剛才和量仔還在底下交流,這種有極其嚴(yán)苛要求的任務(wù),至少目前的大模型的能力還沒有做到完全取代人的作用。這是我對這個問題的幾個回應(yīng)。 蔣曉偉(量仔):我非常同意文嵩和飛飛老師所說的,智能其實分為兩個部分,第一個部分是人的直覺,見到一個事情,我覺得什么是對的。第二個部分是推理能力。我給了一個證明,我是不是能夠讀懂這個證明,這個證明是不是嚴(yán)格,來做這么一個判斷?,F(xiàn)在的大語言模型,生成式 AI,在直覺上我認(rèn)為已經(jīng)達(dá)到了人類水平,甚至已經(jīng)超過了人類水平,但是在推理能力上與人類還有很大的差距。 而推理能力的完善其實就是通向 AGI 之路,一旦它有了嚴(yán)格的推理能力之后,我們就已經(jīng)跨越了奇點,達(dá)到了 AGI。在那步達(dá)到之前,我們需要選擇對錯誤有容忍的場景。比如我們讓它寫代碼,有錯誤的時候可能就會有問題,需要人去查看。但是如果讓它寫測試代碼,測試一些錯誤,它的容忍度會相對高一些,所以我們就需要在工作之中去發(fā)現(xiàn)、挖掘這種場景。 蔣曉偉(量仔):現(xiàn)在還在初期,我們嘗試著用大模型寫一些測試,這也還是初期的一些嘗試,同時我們也試圖去用大模型從文本生成一些 SQL,效果現(xiàn)在還是有待改進(jìn)。 李飛飛(飛刀):我具體講兩個例子。一個是代碼生成,當(dāng)然我們在公司內(nèi)部不可能用 Github Copilot,因為安全的問題,我們自己基于通義做的靈碼效果也非常好,我們現(xiàn)在全員用靈碼做代碼生成,尤其是前端代碼,還有像測試 UT 等等,還有像一些任務(wù)流的生成,效果非常好,對我們 LOC 的提升是非常明顯的,這是第一個。 第二個是比如說在應(yīng)用側(cè) NL2SQL,借助大模型的能力去構(gòu)建新的和數(shù)據(jù)庫、大數(shù)據(jù)系統(tǒng)的交互方式,這塊我覺得也是取得了非常好的業(yè)務(wù)進(jìn)展。 張凱:大模型螞蟻這兒其實是三類,第一類就是基座大模型或者是通用大模型,因為大模型大家現(xiàn)在看到它最強(qiáng)的能力其實是它的通用能力,也是為什么我們叫它 AGI 的原因,它能回答你各種各樣的文科問題、理科問題等等,這是一類。 第二類其實我們會結(jié)合螞蟻的稟賦去做一些垂類模型,比方說金融的大模型或者是醫(yī)療的大模型,大家在支付寶上可以看到,我們在 4 月初上線了一個醫(yī)療服務(wù)的大模型助手,因為我本人其實就頭疼去醫(yī)院掛號,專家問詢等等。 第三類其實就是我的專業(yè)領(lǐng)域相關(guān)的安全大模型或者是大模型安全。因為大模型本身的一些內(nèi)生的,像內(nèi)容安全、數(shù)據(jù)安全等,一會兒我們可能會展開聊這塊。 章文嵩:前面飛飛已經(jīng)提到過了,多種來源的數(shù)據(jù)肯定最好是在一個平臺把它存起來,在一個平臺進(jìn)行加工處理。這個肯定是湖倉一體,這是大趨勢。 章文嵩:湖倉一體的終極形態(tài)就是要集成多種數(shù)據(jù)源的存儲處理,包括上面的使用。然后跟現(xiàn)有的很多系統(tǒng)應(yīng)該可以對接起來,應(yīng)該可以把更多的數(shù)據(jù)匯集到最終的一個平臺上面來。 蔣曉偉(量仔):我的觀點可能稍微有點爭議。湖倉一體我們首先得理解它解決的問題是什么,我覺得數(shù)據(jù)湖主要解決兩個問題:第一個問題是我們在一份數(shù)據(jù)之上需要有各種各樣的數(shù)據(jù)處理能力和計算能力,現(xiàn)在沒有一個系統(tǒng)能夠具有所有的數(shù)據(jù)計算和處理的能力,所以我們就開始有了用多個引擎在同一份數(shù)據(jù)上處理的能力,所以我們把數(shù)據(jù)放到 S3,放在對象存儲之中,這就形成了一個湖。這是它需要解決的第一個問題,能夠在數(shù)據(jù)之上有更豐富的處理能力、計算能力。 它解決的第二個問題是成本問題,因為對象存儲相對比較便宜,把數(shù)據(jù)存在對象存儲之上能夠減少我們的存儲成本。 隨著技術(shù)的發(fā)展,慢慢地會產(chǎn)生更好的平臺或引擎,它們具有多種計算的能力,這個時候?qū)男枨缶蜁販p少。所以隨著技術(shù)的發(fā)展,我認(rèn)為湖的場景會變得越來越少,甚至湖就成了倉庫的一部分,變成了房間里的一個游泳池。 所以我覺得湖倉一體的最終形態(tài)可能是湖被完全吸收到了一個功能更加強(qiáng)大,成本更低的數(shù)倉之中。 章文嵩:我覺得沒有什么沖突,因為大部分的數(shù)據(jù)無論是結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù)都會匯聚到類似對象存儲上面去。對象存儲之后,因為存算分離上面的計算部分可以有多種多樣的計算引擎,這并不矛盾,因為如果我們把所有的數(shù)據(jù)匯聚到對象存儲一個統(tǒng)一的存儲層,那上面可以支撐所有的,因為統(tǒng)一的數(shù)據(jù)視圖對任何一家公司、任何一個組織來說是至關(guān)重要的,在上面我可以堆疊很多種引擎。 我覺得終極的形態(tài),首先上面肯定是更多地用自然語言來使用這樣一個平臺,量仔也在嘗試能不能通過自然語言生成 SQL,這個準(zhǔn)確度肯定是會隨著時間不斷地提高的。另一方面,計算引擎之上肯定更多的 AI 的程序會來使用。我們現(xiàn)在數(shù)據(jù)分析師做決策,大部分都是分析師在那看,未來是更多的程序,更多的 AI 程序查看數(shù)據(jù),所以我覺得未來肯定是這兩個趨勢。 李飛飛(飛刀):為什么我那個斷言里面提到了很重要的另外一個詞叫云計算,我覺得算力的基礎(chǔ)設(shè)施化,一定會讓我們計算資源的解耦變成一個現(xiàn)實,比如說現(xiàn)在的存儲計算分離,甚至下一代,我認(rèn)為在計算這一層, CPU 和內(nèi)存也會分離,內(nèi)存也會池化。這樣就帶來一個顯而易見的趨勢,就是最底下的一層存儲肯定是統(tǒng)一了,成本低,但延遲可能比較高,比如說像對象存儲這樣一層。然后為了計算加速,要有存儲的專屬格式,這是為什么以前有各種各樣的數(shù)據(jù)系統(tǒng)的一個根因。但是存計分離以后,有三層的分離以后,專屬格式可以在成本比較高的存儲這一層再來實現(xiàn),最低那一層的存儲,就是一個通用的存儲格式。所有標(biāo)準(zhǔn)層的,不管你上面是什么類型的,到那層統(tǒng)一掉,然后在上面這一層,比如說塊存儲,甚至本地盤,甚至到內(nèi)存池化這一層,再轉(zhuǎn)化成專屬格式來做計算加速,然后計算有多個計算引擎,計算引擎計算可以是無狀態(tài)的。 只要對用戶做到元數(shù)據(jù)的統(tǒng)一管理、隔離、安全、AccessControl,并保證體驗的統(tǒng)一,邏輯上來講還是多個引擎,但是對用戶側(cè)來說,感知是完全統(tǒng)一的。我覺得未來大概率是往這個方向去演進(jìn)。 蔣曉偉(量仔):好的。最近馬斯克在他的 X 平臺發(fā)布了一個分享,他說評價一個產(chǎn)品正確的方式,不是跟競爭對手比(太容易),而應(yīng)當(dāng)跟物理極限比。如果我們把追求物理極限當(dāng)做一個數(shù)據(jù)系統(tǒng)的目標(biāo),那我們應(yīng)該從哪幾個維度來評價物理極限呢?技術(shù)到最后還是要服務(wù)于業(yè)務(wù),我認(rèn)為從業(yè)務(wù)的視角來看,它有三個核心的需求:性能、正確性和實時性。 第一個需求是性能,它也是最顯然的一個需求,性能也是過去 20 年里大數(shù)據(jù)蓬勃發(fā)展背后最主要的推動力,特別是在 AI 時代,數(shù)據(jù)量急劇增長,AI 對性能的需求也在不斷地提升,用戶希望數(shù)據(jù)系統(tǒng)能夠滿足 AI 所帶來的無論多么高的性能需求,這是一個方面。第二個同樣在 AI 時代,用戶使用數(shù)據(jù)的方式也會變得越來越多樣,場景也會越來越復(fù)雜。作為一個好的追求極限的數(shù)據(jù)系統(tǒng),它能夠滿足數(shù)據(jù)任意使用方式的性能需求。 第二點是數(shù)據(jù)的正確性,正確性就意味著任何時候存儲在系統(tǒng)之中的數(shù)據(jù)都是正確且一致的,當(dāng)我們做任何一個查詢,返回的結(jié)果也都是正確的、一致的,只有做到這一點,在數(shù)據(jù)系統(tǒng)之上用 AI 所做的各種智能決策才能夠有堅實的基礎(chǔ)。但數(shù)據(jù)的錯誤往往比較隱蔽,因此這一點比較容易被忽略,但是對于一個追求極限的數(shù)據(jù)系統(tǒng)來說,這必須是一個業(yè)務(wù)最核心,而且最基本的需求之一。 第三點是數(shù)據(jù)的實時性,不同的系統(tǒng)可能對數(shù)據(jù)的實時性要求不一樣,有的系統(tǒng)達(dá)到小時級的實時性就夠了,有的系統(tǒng)需要分鐘級甚至秒級實時性。在有了 AI 之后,就可以通過 AI 讓系統(tǒng)自動地做出很多決定,因此數(shù)據(jù)鏈路的實時性往往決定決策鏈路整體的實時性,這也會影響數(shù)據(jù)所能產(chǎn)生的業(yè)務(wù)價值。作為一個追求極致的數(shù)據(jù)系統(tǒng),我們自然也希望它能夠滿足最苛刻業(yè)務(wù)的實時性需求,也就是它的數(shù)據(jù)延遲性必須做到任意的低。 我認(rèn)為從業(yè)務(wù)這三個核心需求出發(fā),接下來會涌現(xiàn)出一類全新的數(shù)據(jù)產(chǎn)品,它就是分布式 Data Warebase。Data Warebase 是 Data Warehouse(數(shù)據(jù)倉庫)和 Database (數(shù)據(jù)庫)這兩個詞的融合,它意味著這樣一個系統(tǒng)同時具備了數(shù)倉和數(shù)據(jù)庫的所有能力。分布式 Data Warebase 在數(shù)據(jù)庫的場景將會是一個更好的數(shù)據(jù)庫,因為它解決了數(shù)據(jù)庫水平擴(kuò)展的問題。分布式 Data Warebase 在數(shù)倉場景也會是一個更好的數(shù)倉,因為它同時解決了數(shù)倉場景數(shù)據(jù)正確性和實時性的問題。 所以分布式 Data Warebase 是從業(yè)務(wù)的三個核心需求——性能、正確性和實時性出發(fā)得到的一個必然推論。它不是一個發(fā)明,而是一個發(fā)現(xiàn)。 章文嵩:針對量仔說的這三點,我覺得應(yīng)該再增加兩點。第一個點是成本,因為是不是以最低的成本滿足業(yè)務(wù)的需求,實際上是我們永遠(yuǎn)追求的。我的系統(tǒng)有沒有足夠多的彈性?隨著業(yè)務(wù)的需求的增長,成本是逐漸增加的。另外就是安全性對吧?我們做任何系統(tǒng)怎么確保數(shù)據(jù)的安全,怎么確保用戶的隱私,數(shù)據(jù)的保護(hù),任何異常的行為,都要確保安全性,這樣才會有業(yè)務(wù)的安全。 蔣曉偉(量仔):是的,如何衡量數(shù)據(jù)系統(tǒng)的物理極限,我們剛才說到了性能、正確性和實時性。文嵩老師又加了一個成本,在我看來成本其實是性能的一部分。 章文嵩:我覺得可能我們可以綜合一下,這 5 點有可能是我們做系統(tǒng)永無止境追求的目標(biāo)。 蔣曉偉(量仔):是的,非常同意。 章文嵩:因為數(shù)據(jù)跟 AI 本身就是一體的,AI 需要數(shù)據(jù),在數(shù)據(jù)上我們能產(chǎn)生更多的智能,但是我們知道 AI 成功的三個主要要素,我覺得是人、數(shù)據(jù)還有算力。為什么說人,我覺得人在里面是最關(guān)鍵的,人包括領(lǐng)域的人才、算法的人才,還有工程的人才,實際上要聚合這么多的人才并不容易,這實際上使得 AI 的門檻相對來說是比較高的。所以怎么樣復(fù)用這些人才的經(jīng)驗,你要有數(shù)據(jù)的基礎(chǔ)設(shè)施,包括 AI 應(yīng)用的基礎(chǔ)設(shè)施,能不能讓更多的用戶來使用 AI 的基礎(chǔ)設(shè)施,搭建應(yīng)用更方便。前面郭東白老師的分享中提到他是做應(yīng)用架構(gòu)的,要做很多的選擇,其中一個考量點是要不要做 AI 大模型,我實際上有不同的觀點。因為 AI 的模型實際上規(guī)模越來越大,從幾千億的參數(shù)到幾萬億、幾十萬億,未來 GPT6 要到 100 萬億這樣參數(shù)的規(guī)模,這些 AI 的大規(guī)模訓(xùn)練成本不是中小企業(yè)能承擔(dān)的,也不應(yīng)該是中小企業(yè)要考慮的范圍。所以我們更多地要用第三方的基礎(chǔ)大模型服務(wù),或者基于開源已經(jīng)訓(xùn)練好的開源大模型來做,因為上面有更多靈活性。 所以上面你剛剛提到的兩者,云原生的數(shù)據(jù)基礎(chǔ)設(shè)施跟云原生的 AI 基礎(chǔ)設(shè)施,肯定是相互協(xié)同的,因為數(shù)據(jù)基礎(chǔ)設(shè)施提供了統(tǒng)一的、共享的數(shù)據(jù)平臺,然后 AI 的基礎(chǔ)設(shè)施之上開發(fā)應(yīng)用會更加方便,更加快捷。我覺得在大模型時代, AI 應(yīng)用的模型各方面的開發(fā)門檻會大幅降低,越來越多的中小企業(yè)甚至個人都可以做自己的 AI Agent。 張凱:在當(dāng)下的應(yīng)用來講,生成式 AI 的特性已經(jīng)模糊了我們傳統(tǒng)安全的邊界,所以帶來了大量的不確定性。主要包括三塊: 第一塊是數(shù)據(jù)層面,數(shù)據(jù)層面按照大模型的生命周期來講,最早是要做預(yù)訓(xùn)練。預(yù)訓(xùn)練的時候,喂大量 PB 級別的數(shù)據(jù)進(jìn)去之后要祛毒,包括里面的一些數(shù)據(jù)安全、倫理安全等等,需要快速甄別海量數(shù)據(jù)的安全挑戰(zhàn),這是第一塊。 第二塊是預(yù)訓(xùn)練結(jié)束之后需要進(jìn)入到微調(diào)階段。微調(diào)階段其實核心是考驗數(shù)據(jù)標(biāo)注的準(zhǔn)確性,數(shù)據(jù)標(biāo)注的準(zhǔn)確性可以幫助我們讓大模型的價值往我們想要的那個方向往前發(fā)展。 但是這兩塊其實也只是基礎(chǔ),再往前走的話,其實是應(yīng)用層面。應(yīng)用層面我們螞蟻團(tuán)隊現(xiàn)在在做一個產(chǎn)品,叫蟻天鑒。它分為兩部分,一個叫蟻鑒,蟻鑒是給大模型做體檢的,包括大模型本身的數(shù)據(jù)安全、內(nèi)容安全以及科技倫理等等,就看整體大模型的一些風(fēng)險程度,確保這塊是沒問題的;另外一部分叫天鑒,相當(dāng)于我們在大模型的外部設(shè)置了一個圍欄,確保整體大模型在應(yīng)用層面有邊界保障。 張凱:確實有幾塊,一塊是數(shù)據(jù)層面,比方說像合成數(shù)據(jù),合成數(shù)據(jù)大家可以關(guān)注一下做合成數(shù)據(jù)的一些,像美國的一些公司,估值都非常高,不亞于大模型廠商的一些估值。 然后我們看了一些研究報告的評估,有一份研究報告,比方說像 AI Epoch research,它預(yù)估在 2026 年之后,現(xiàn)有的能夠提供給大模型訓(xùn)練的真實數(shù)據(jù)基本上已經(jīng)被耗盡,這個大概率是一個趨勢,那么在 2026 年之后合成數(shù)據(jù)的應(yīng)用可能會成為一個必然。 第二塊就是我剛才提到的 AI 標(biāo)注,也就是大模型的數(shù)據(jù)標(biāo)注。這塊我們其實剛才提到 ScaleAI 這個公司,我們其實沒有看到在國內(nèi)有真正對標(biāo)這家企業(yè)去為整個大模型產(chǎn)業(yè)鏈條提供服務(wù)的自動化的標(biāo)注廠商,所以這塊其實我們也是在積極地往前做探索。 最后就是我自己的本業(yè),大模型安全這一塊。 章文嵩:說到安全領(lǐng)域,我覺得有兩個主要的方向,因為我曾經(jīng)向安全領(lǐng)域的技術(shù)大佬請教過,安全主要做哪些事情,他給我三個關(guān)鍵詞:可感、可控、業(yè)務(wù)優(yōu)先。可感,你能感知到整體的安全形態(tài)怎么樣,然后如果有危險、有風(fēng)險的話要可控,安全響應(yīng)系統(tǒng)是怎么樣?當(dāng)然業(yè)務(wù)優(yōu)先,當(dāng)安全跟業(yè)務(wù)發(fā)生沖突的時候,那個是一個價值的判斷,一定要滿足業(yè)務(wù)要求,然后我們最大的安全能做到怎么樣。 所以在這里面我覺得可感、可控方面,這是安全里面的兩個最大的領(lǐng)域??筛?、可控,實際上 AI 技術(shù)怎么來應(yīng)用到里面去,因為全局的安全事態(tài)感知系統(tǒng),包括全局的安全響應(yīng)系統(tǒng),實際上這里面我覺得有很多值得去探討的。 李飛飛(飛刀):如果把人當(dāng)做一個智能的計算體的話,本質(zhì)上有三個關(guān)鍵步驟,一個是感知,文嵩和張凱講到的這個感知這部分,就是可感、感知。 第二就是計算,獲取感知以后,把它轉(zhuǎn)化成各種腦能夠處理的信號做計算,那么在計算過程中,需要確保不出差池。整個最后的結(jié)果是有邏輯性的,有推導(dǎo)條理的,這就要有安全的保障。所以總結(jié)就三件事,就是感知、計算、安全,大模型能否夠幫助我們把這三件事做得更好,是挺令人激動的一件事情。 蔣曉偉(量仔):過去的這么多年,業(yè)務(wù)發(fā)展非???,數(shù)據(jù)量變得越來越大,大家都疲于奔命去解決系統(tǒng)的性能問題。這些性能問題有很多是由于場景變得越來越豐富,特別是 AI 所帶來的。隨著技術(shù)的發(fā)展,性能問題逐漸得到解決,在大部分場景已經(jīng)不再是業(yè)務(wù)的主要阻礙,而當(dāng)性能問題解決之后,我們就必然會看到更深層次的一些需求。比如說剛才我們提到的幾個需求(性能、正確性和實時性)。除此之外更重要的是大家必然會對體驗更加重視,接下來對體驗的重視會使一些新的產(chǎn)品涌現(xiàn),體驗將會成為區(qū)分下一代新產(chǎn)品一個很重要的標(biāo)準(zhǔn)。 此外,AI 時代會給整個數(shù)據(jù)系統(tǒng)帶來一個新的使命,就是讓數(shù)據(jù)涌現(xiàn)智能。 我希望和大家一起來探索下一代的數(shù)據(jù)系統(tǒng)。 張凱:昨天我們內(nèi)部看馬老師寫了一封長信,鼓勵大家繼續(xù)上路,其中他也提到了 AI 這一塊,跟大家共勉,大概意思是說 AI 時代已來,但是我們現(xiàn)在其實才剛剛上路。我自己其實也是這樣一個心態(tài),作為一個初學(xué)者在路上,但是仍然會覺得非常興奮。 AI 相關(guān)的這些數(shù)據(jù)模型,包括安全等等,我自己還是蠻期待未來幾年這個行業(yè)的一些變化的。 李飛飛(飛刀):其實挺難總結(jié)的,我覺得數(shù)據(jù)與 AI,兩者缺一不可。未來如果大家從事相關(guān)工作、真想把 AI 做好,不是只做上面的應(yīng)用,而是希望真正在這方面有一些貢獻(xiàn)并真正產(chǎn)生影響力的話,底層數(shù)據(jù)系統(tǒng)的構(gòu)建原理,是值得花時間去思考的。 章文嵩:我覺得智能化第四次的科技革命可以持續(xù) 100 年,所以在這 100 年里面,我們其實有很多工作值得去做,云原生的數(shù)據(jù)基礎(chǔ)設(shè)施,云原生的 AI 基礎(chǔ)設(shè)施,可以大幅降低 AI 應(yīng)用的門檻,未來一定會有大量的 AI 應(yīng)用涌現(xiàn)出來。 |
|