隨著各大廠商參與競逐,市場正在分化為通用與垂直兩大路徑,兩者在參數(shù)級別、應用場景、商業(yè)模式等方面差異已逐步顯現(xiàn)。 這類企業(yè)往往有著強大的技術(shù)團隊和資金支持,且有著自己的場景和流量優(yōu)勢。比如百度、阿里、騰訊、字節(jié)、華為等,在搜索、社交、電商、辦公等領(lǐng)域都有著自己的通用AI大模型。 相較之下,創(chuàng)業(yè)公司、細分領(lǐng)域企業(yè)很難在這樣的競爭中獲得先發(fā)優(yōu)勢或者差異化優(yōu)勢。 而垂直AI大模型只關(guān)注某個特定的領(lǐng)域或者場景,它能夠利用行業(yè)的數(shù)據(jù)和知識,提供更精準和高效的解決方案,更好地滿足用戶在某個領(lǐng)域或者場景下的需求和期待,如:醫(yī)療、金融、教育等。 同時,它可以利用一些開源或者閉源的通用AI大模型作為基礎(chǔ),然后在其上進行指令微調(diào)(instruction tuning),來適應自己的目標領(lǐng)域或者場景。 因此,它的參數(shù)規(guī)模比通用大模型低一個量級,如果讓數(shù)據(jù)飛輪和模型訓練能夠很好結(jié)合,在某些特定領(lǐng)域甚至比通用大模型的效果更好、成本更低。 在這樣的背景下,越來越多的企業(yè)加入了垂直大模型的賽道。 5月18日,深信服發(fā)布國內(nèi)首個自研安全大模型,成為安全領(lǐng)域GPT技術(shù)應用首秀; 5月5日,學而思宣布正在進行自研數(shù)學大模型的研發(fā),命名為MathGPT,面向全球數(shù)學愛好者和科研機構(gòu); 3月,達觀數(shù)據(jù)公布正在開發(fā)曹植系統(tǒng),專注于金融、政務、制造等垂直領(lǐng)域的大語言模型。 明確的商業(yè)化落地場景和更低的算力成本,為各類企業(yè)打開了進軍垂直大模型的大門。 垂直大模型的優(yōu)勢在于不夠大:算力不夠大、算法難度低,但并不代表垂直大模型誰都能做。 眾所周知,AI大模型三要素:算力、算法、數(shù)據(jù),都是喂養(yǎng)AI的“飼料”。 先說算力。 大模型之所以“大”,就是因為參數(shù)眾多和數(shù)據(jù)量龐大。AI大模型所需要的計算量,大致上相當于參數(shù)量與數(shù)據(jù)量的乘積。 過去5年,AI大模型的參數(shù)量幾乎每年提升一個數(shù)量級,例如GPT-4參數(shù)量是GPT-3的16倍,達到1.6萬億個。 隨著圖像、音視頻等多模態(tài)數(shù)據(jù)的引入,大模型的數(shù)據(jù)量也在飛速膨脹。這意味著想要玩轉(zhuǎn)大模型,必須擁有大算力。 而一套垂直大模型的訓練和推理成本,做個參考,在數(shù)字人垂類技術(shù)場景中,可以做到比Open AI同參數(shù)規(guī)模的模型低一個量級,像啟元世界的戰(zhàn)略總監(jiān)王思捷就曾提到:先構(gòu)建更小的垂類模型(比如百億參數(shù)、十億參數(shù)),讓數(shù)據(jù)飛輪和模型訓練能夠很好結(jié)合,垂類模型在某些領(lǐng)域可能比Open AI的效果更好成本更低。 即便垂直大模型在算力要求上已遠遠低于通用大模型,但對算力基礎(chǔ)設(shè)施的投入依然會阻擋部分小公司的入局。 再說算法。 在三要素中,算法的研發(fā)難度相對較低,每家公司都有自己實現(xiàn)大模型的路徑算法,且有眾多開源項目可作為參考,中國公司最容易縮短甚至抹平差距。 最后說數(shù)據(jù)。 高質(zhì)量的數(shù)據(jù)是助力AI訓練與調(diào)優(yōu)的關(guān)鍵,足夠多、足夠豐富的數(shù)據(jù),是AI大模型的根基。 OpenAI此前披露,為了AI像人類那樣流暢交談,研發(fā)人員給GPT-3.5提供多達45TB的文本語料,相當于472萬套中國“四大名著”。這些語料的來源包括維基百科、網(wǎng)絡文章、書籍期刊等,甚至還將代碼開源平臺Github納入其中。 但是聚焦到細分行業(yè),數(shù)據(jù)的獲取就沒那么容易了。 興業(yè)證券公開表示,要訓練專業(yè)的行業(yè)大模型,優(yōu)質(zhì)的行業(yè)數(shù)據(jù)、公共數(shù)據(jù)至關(guān)重要。 就國內(nèi)數(shù)據(jù)市場而言,據(jù)發(fā)改委官方批露,我國政府數(shù)據(jù)資源占全國數(shù)據(jù)資源的比重超過3/4,但開放規(guī)模不足美國的10%,個人和企業(yè)可以利用的規(guī)模更是不及美國的7%。 而行業(yè)數(shù)據(jù)更是非常核心的私域數(shù)據(jù),私域數(shù)據(jù)量越大,質(zhì)量越高,就越有價值。 比如,一個醫(yī)療公司擁有大量醫(yī)療數(shù)據(jù)、病例數(shù)據(jù),那么它就能開發(fā)出醫(yī)療垂直大模型類的產(chǎn)品。同理,建筑行業(yè)的項目數(shù)據(jù)、金融行業(yè)的用戶畫像數(shù)據(jù)、海運行業(yè)的船位數(shù)據(jù)等,都是賦能垂直大模型的關(guān)鍵。 但是這些私域數(shù)據(jù)都攥在企業(yè)自己手中,而且為了數(shù)據(jù)安全和合規(guī),絕大部分機構(gòu)是要本地化部署才會嘗試大模型訓練,很難想象企業(yè)會把自己的核心數(shù)據(jù)拿給別人去訓練。 此外,如何合理地給數(shù)據(jù)打上分級標簽、做好標注也非常重要。數(shù)據(jù)分級分類能夠幫助產(chǎn)品提效,而高精度的標注數(shù)據(jù)能夠進一步提升大模型的專業(yè)表現(xiàn)。 但現(xiàn)階段垂直行業(yè)想要獲取高精度標注數(shù)據(jù)的成本較高,而在公開數(shù)據(jù)庫中,行業(yè)專業(yè)數(shù)據(jù)也較少,因此對垂直大模型的建構(gòu)提出了很高的要求。 總體而言,想要做好垂直大模型,數(shù)據(jù)的重要性,遠超過算力和算法。 數(shù)據(jù),已成為企業(yè)突破垂直大模型的“卡點”。 垂類大模型講求應用與場景先行的邏輯,而在國內(nèi)更是強調(diào)產(chǎn)業(yè)側(cè)的價值。 一方面,在當前中國的智能化浪潮下,產(chǎn)業(yè)側(cè)數(shù)字化革新本就有廣闊的市場需求;另一方面,在toB生態(tài)下,基于垂直應用的實踐也有利于形成數(shù)據(jù)飛輪與場景飛輪。 而這一切的前提,是推出垂類大模型的公司在該行業(yè)已建立技術(shù)壁壘與護城河,即“人無我有”的競爭優(yōu)勢。 如此看來,在垂直行業(yè)深耕多年的企業(yè)或?qū)⒂懈蟮内A面。 這類企業(yè)在數(shù)據(jù)層面、大模型以及知識圖譜方面都有較為深厚的積累,對于大模型的優(yōu)化更具優(yōu)勢。同時,它們對于to B客戶需求和落地場景有很深的理解,能夠更好地保證垂直大模型產(chǎn)品的可信和可靠,滿足企業(yè)級對于安全可控合規(guī)的需求。 目前,已有一些垂類大模型在金融、教育、醫(yī)藥、營銷等場景中得到試煉。 例如,彭博社利用自身豐富的金融數(shù)據(jù)源,基于開源的GPT-3框架再訓練,開發(fā)出了金融專屬大模型BloombergGPT; 網(wǎng)易有道則面向教育場景,推出自研的類ChatGPT模型“子曰”; 在ChatGPT發(fā)布后僅幾周,谷歌公布了一個專門用于回答醫(yī)療保健相關(guān)問題的大型醫(yī)用語言模型Med-PaLM...... 相信隨著越來越多企業(yè)入局,垂直大模型在各個行業(yè)和細分領(lǐng)域中將大量涌現(xiàn)。而那些能將一個垂直領(lǐng)域做專、做透,用高質(zhì)量的數(shù)據(jù)持續(xù)優(yōu)化模型,跑通商業(yè)閉環(huán),構(gòu)建起產(chǎn)業(yè)生態(tài)的企業(yè),最終將把價值鏈做到足夠長。 |
|