近年來大模型的熱潮席卷全球,行業(yè)發(fā)展從局域向智能方向不斷演進。如今,“百模大戰(zhàn)”進入下半場,如何快速實現(xiàn)產(chǎn)業(yè)落地成了剛需。最近國家工業(yè)信息安全發(fā)展研究中心、工信部電子知識產(chǎn)權(quán)中心發(fā)布的《中國AI大模型創(chuàng)新和專利技術(shù)分析報告》顯示,軟件業(yè)、制造業(yè)或成AI大模型應(yīng)用的主戰(zhàn)場。 關(guān)于大模型技術(shù)演進情況與未來有哪些投資機會?近期鈦資本邀請王昊奮進行分享,主題是:2024大模型技術(shù)演進與產(chǎn)業(yè)落地趨勢展望。他是同濟大學百人計劃成員,特聘研究員和博士生導師,同時擔任中國計算機學會術(shù)語工委副主任、SIGKG主席、自然語言處理專委會秘書長、中國中文信息學會理事、語言與知識計算專委會副秘書長、上海市計算機學會自然語言處理專委會副主任等職務(wù)。他同時也是全球最大的中文開放知識圖譜聯(lián)盟OpenKG發(fā)起人之一,負責參與多項國家級AI相關(guān)項目,發(fā)表100余篇AI領(lǐng)域高水平論文,構(gòu)建了全球首個可交互養(yǎng)成的虛擬偶像“琥珀·虛顏”。本次分享主持人是鈦資本董事總經(jīng)理黃倜,他長期關(guān)注人工智能領(lǐng)域。以下為分享實錄: 新機遇:大模型掀起邁向AGI的浪潮我們目前正處于人工智能第三個階段的下半場。從最早的專家系統(tǒng)時期,到后來的淺層機器學習時期,再到2012年以后,深度學習的崛起,在圖像、語音、視頻等領(lǐng)域取得了顯著進展。隨著各種需求的出現(xiàn),尤其是在自動駕駛和安防領(lǐng)域,我們看到了一些變化。 為什么我們現(xiàn)在處于第三次人工智能浪潮的下半場呢?主要原因在于它出現(xiàn)的時間不早不晚,正是在2017年。不知大家是否還記得,2017年由谷歌提出《Attention is All You Need》。其中提到多頭注意力機制,模擬了人腦的記憶和理解方式,正式拉開了我們進入預(yù)訓練模型階段的序幕。直到GPT的出現(xiàn),我們正式進入了真正的大模型時代。 在第一次浪潮下,專家系統(tǒng)時代,我們通常在編寫規(guī)則。從傳統(tǒng)的機器學習時代過渡,這時我們需要進行的是特征工程。對于任何任務(wù),都必須將其拆分成幾個子任務(wù)來處理,這就導致了能夠處理的任務(wù)有限。同時多個子任務(wù)之間的串接容易產(chǎn)生錯誤傳遞和放大,因此,在這個階段,即使一個任務(wù)的準確率達到了90%,但如果有四個任務(wù)串接,準確率可能只有60%左右。這也是長期以來限制了傳統(tǒng)機器學習發(fā)展的一個問題。 這時,深度學習出現(xiàn)了,中間是一個端到端的過程,孕育出了表征學習。我們可以定義任務(wù)的輸入和輸出,并通過輸入和輸出讓模型自動學習各個層面的特征,從基本的標準到高層的語義標準,無需人工干預(yù)。 對于圖像、語音或視頻等無法簡單定義特征的領(lǐng)域,深度學習允許我們在結(jié)構(gòu)化數(shù)據(jù)庫和非結(jié)構(gòu)化文本之外,處理各種多模態(tài)或多媒體的數(shù)據(jù)。這也帶來了一個新問題,即每個定義的問題如果應(yīng)用在不同領(lǐng)域,或者希望在一個應(yīng)用場景中完成多個任務(wù)時,整體解決方案可能不僅僅是一個特定任務(wù)。我們必須用相同的方法訓練多個模型,即使是相同的任務(wù),在不同場景下進行遷移時,也可能存在局限性,于是產(chǎn)生了一個更貪心的想法,即既要端到端,又要使一個模型能夠解決多個問題。這就是大模型誕生的動力,能夠同時支持多個下游任務(wù)。而在當前階段,GPT符合這個任務(wù)。 為什么大家對GPT的評價如此高呢?傳統(tǒng)對人工智能的研究或工業(yè)實踐基本上是從不同側(cè)面來看的。比如,我們會將其分為紫色部分,即感知智能,感知智能更多地模擬我們的五官,能夠更好地看見、聽見和觸摸等等能力。而對于我們認知中的紅色區(qū)域,它對應(yīng)的是我們大腦部分,包括推理能力、知識能力、學習能力、上下文建模能力、規(guī)劃能力和創(chuàng)造能力。藍色部分對應(yīng)的是我們對外部世界和環(huán)境的理解。而綠色和紅色部分代表了我們的消化和思考。然后,我們還需要對外展示一些行為,這時綠色部分就稱之為決策智能或者交互智能。 大模型作為基礎(chǔ)提供接口為什么GPT如此強大呢?實際上,它孕育出了一種新的職業(yè)——提示工程師。因為模型能力很強,不再需要大量標注數(shù)據(jù)來理解一個單一任務(wù)的輸出,而是可以通過幾個示例就能舉一反三。這就使得我們大量的提示可以通過自然語言來進行描述。在企業(yè)服務(wù)中,我們關(guān)注的一些平臺,比如低代碼或無代碼的平臺,基本上可以在接口層和任務(wù)層通過描述來調(diào)用大模型返回結(jié)果。 無論是零樣本的提示、小樣本的提示、上下文情境學習還是指令學習等,基本上都符合這樣一種思路。這種思路又推動著我們?nèi)ニ伎家粋€問題,即我們過去從PC時代的GUI或者TUI這樣的交互范式,到手機中的多點觸控和手勢交互,再到現(xiàn)在大模型的時代,我們其實經(jīng)歷了NUI的過程。當然,大家都知道科研現(xiàn)在推進得非???,有一個叫做預(yù)印本的應(yīng)用,每天都可以看到很多關(guān)于大模型的工作,其中也包括很多標題黨的工作,比如一些關(guān)鍵詞,如通用、零樣本、接口學習、規(guī)劃器、推理器等。這讓人們發(fā)現(xiàn)大模型在各種任務(wù)中展現(xiàn)出了各種潛力。但同時,這個過程中也產(chǎn)生了很多泡沫和為了吸引資金而產(chǎn)生的浮躁現(xiàn)象。 大模型產(chǎn)業(yè)落地1、基本范式 大家開始思考在整個大模型落地的過程中,我們希望它能夠完成什么。其實有兩種不同的大模型落地范式。一種是為了啟發(fā)自己,進行更多的探索性、感知性或創(chuàng)造性的任務(wù)。在這個過程中,我們不僅僅依賴于語言類大模型,還包括各種多模態(tài)的大模型。通過自然的人機交互界面,幫助我們進行多方面的交互。通過提示工程,甚至可以根據(jù)特定場景和數(shù)據(jù)微調(diào)適應(yīng)不同領(lǐng)域或任務(wù)的反饋。但另一方面,在OpenAI的開發(fā)者日以及之前,國內(nèi)外各大模型廠商紛紛推出許多插件和機制。這是因為在很多嚴肅的場景中,我們希望強調(diào)數(shù)據(jù)的可靠性、結(jié)果的確定性和計算的精準性。 雖然我們?nèi)匀幌M褂米匀蝗藱C交互的界面,但是在非確定性系統(tǒng)中,單獨完成上述的人機需求是不可能的。我們需要通過某種方式,無論是插件機制、中間件機制還是各種橋接機制,與我們熟悉但又不夠高級的確定性系統(tǒng)進行對接,包括規(guī)則引擎、數(shù)據(jù)庫系統(tǒng)以及現(xiàn)在較流行的大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)倉庫等。 2、連接與合縱 在互聯(lián)網(wǎng)時代,我們通常討論“互聯(lián)網(wǎng)+”和“+互聯(lián)網(wǎng)”,“互聯(lián)網(wǎng)+”是通過互聯(lián)網(wǎng)技術(shù)應(yīng)用于各行各業(yè),而“+互聯(lián)網(wǎng)”則站在某個特定領(lǐng)域的基本面上,理性而合理地采用互聯(lián)網(wǎng)技術(shù)。各大模型廠商在這個過程中,采用一種插件聯(lián)盟的方式攻克各種垂直領(lǐng)域。另一方面,對于某個垂直領(lǐng)域,比如金融行業(yè)或醫(yī)療領(lǐng)域的輔助診斷等,我們希望在這個過程中提升整個領(lǐng)域的能力。因此,與插件聯(lián)盟相比,它更像是互聯(lián)網(wǎng)的模式,根據(jù)需求調(diào)用適用的大模型,甚至需要對大模型進行私有化部署,并在這個過程中實現(xiàn)各種能力的滿足和對接。 在這個過程中產(chǎn)生了微軟和其他云廠商強力推進的大模型方式,即針對特定領(lǐng)域和用戶的按需調(diào)用,形成一種Copilot模式。即在特定領(lǐng)域應(yīng)用中,按需調(diào)用大模型。在提出請求時,需要按需訪問相應(yīng)的數(shù)據(jù)。在這個過程中,按需調(diào)用各種工具的能力,包括API的能力、RPC的能力、各種模型的選擇能力和各種命令執(zhí)行的shell腳本的能力。按需編織所需的數(shù)據(jù),編排服務(wù),并調(diào)用相關(guān)的大模型返回相應(yīng)的結(jié)果。對于這些結(jié)果還需要進行額外的引證,包括對數(shù)據(jù)的額外查詢、外部調(diào)用的復雜推理和結(jié)果的包裝。最近,搜索引擎似乎可以被大模型替代,但是新的搜索引擎不斷涌現(xiàn)。 大模型落地的限制在大模型的落地過程中,存在許多問題。首先,大模型通常是在公開的語料數(shù)據(jù)上進行訓練的,因此在行業(yè)方面相對較弱。本質(zhì)上,它是一個在通用知識上非常充裕、能言善辯,但在領(lǐng)域知識和認知方面相對薄弱的選手。對于工程落地的領(lǐng)域問題,它缺乏解決的能力,在知識層面上相對欠缺。 其次,涉及到黑盒可解釋性。在許多領(lǐng)域應(yīng)用中,我們需要大模型是可信、可解釋和可追溯的。然而,大模型本身的黑盒效應(yīng)會導致許多應(yīng)用在過程中受到阻力,即使它在完成過程中表現(xiàn)良好,但因為它具有張冠李戴和幻覺的問題,一旦出現(xiàn)問題,其危害程度就會非常高。 再次,涉及到數(shù)據(jù)的合規(guī)性。這也是為什么國家成立了數(shù)據(jù)局,各地成立了數(shù)據(jù)中心,并在上海、北京、深圳和浙江設(shè)立了數(shù)據(jù)交易所。數(shù)據(jù)的合規(guī)性和數(shù)據(jù)本身的意識形態(tài),都非常重要,大家都知道大模型與人類的價值觀對齊是很重要的。 最后是成本。不僅涉及到高昂的訓練成本,許多內(nèi)部的運行和訓練過程都涉及到探索和嘗試,因此在這個過程中,我們可能走彎路,增加額外的成本。另外,由于對N卡的限制,很多時候需要使用國產(chǎn)芯片,軟硬件協(xié)同和一體化也存在問題。 另外,推理成本高。例如,像GPT Turbo的速度就非常慢。在高并發(fā)等許多環(huán)境中,它對資源的占用和對算力的需求都非常大,這加劇了在生產(chǎn)環(huán)境中部署大模型的成本開銷。這也是谷歌等搜索引擎,遲遲不愿意全面使用已經(jīng)訓練和驗證的大規(guī)模大模型的原因。 大模型的改進思路在討論大模型的改進思路時,我建議對于這些問題感興趣的人可以參考圖靈獎獲得者、卷積神經(jīng)網(wǎng)絡(luò)的推崇者之一,也是META公司首席科學家兼研究院院長Yann LeCun的觀點。他是推出目前最成功的開源大模型的倡導者之一。 在他看來,現(xiàn)有的大模型在許多方面存在問題。首先,缺乏復雜的推理能力。其次,我們需要學會使用工具的能力。我們提到了Copilot,其重要之處在于能夠按需調(diào)用外部資源和工具。當我們需要進行數(shù)學計算時,是選擇計算器還是使用大模型完成,其實并沒有固定規(guī)定,但顯然計算器是非常簡單且精準的工具,為什么要通過大模型來完成計算呢?另外,大模型需要與外部世界進行交互,這就涉及到一種行為能力。無論是自動駕駛還是各種人形機器人,大模型的客觀發(fā)展需要對這些方面進行增強。 過去,大家一直在通往通用大模型的道路上狂奔,但現(xiàn)在,我們正在從通用大模型逐漸轉(zhuǎn)向領(lǐng)域大模型。如前所述,這包括金融行業(yè)、司法行業(yè)、政務(wù)行業(yè)、醫(yī)療行業(yè)以及自動駕駛等多個領(lǐng)域。在這個過程中,出現(xiàn)了各種類型的領(lǐng)域大模型。 比如Bloomberg GPT使用的大約51%的數(shù)據(jù),不是來自公開互聯(lián)網(wǎng),而是來自Bloomberg多年來經(jīng)營和積累的數(shù)據(jù)。擁有充足的領(lǐng)域數(shù)據(jù)成為其巨大的壁壘。正如GPT時的AI首席科學家Elia所說,“Training data is technology”。在他的GPT-4技術(shù)文檔中,沒有公開任何有關(guān)模型細節(jié)或數(shù)據(jù)細節(jié)的信息。這也解釋了為什么各大模型公司正在瘋狂購買各種數(shù)據(jù)工具和高質(zhì)量數(shù)據(jù),這對于創(chuàng)業(yè)團隊來說是一個挑戰(zhàn)。 因此,最近出現(xiàn)了三種大模型優(yōu)化的方法。第一種,提示工程,即不對大模型進行修改,是最輕量級的一種手段,就像馴獸師一樣,通過各種技巧來引導這個“動物”完成任務(wù)。第二種,指令微調(diào),通過不斷訓練讓大模型熟悉和了解需要完成的任務(wù)。第三種,檢索增強,通過外部庫以一種開放的方式與大模型互動。 微調(diào)在知識密度不高的情況下非常有價值,比如行為模擬、行為模仿或風格克隆。當我們對知識有很高要求,而且這些知識經(jīng)常更新、需要復雜處理時,RAG就成為一個很好的選擇。當然,最終我們可能需要兩者兼具,即既具有一定風格的協(xié)調(diào)性,又要將領(lǐng)域知識納入考量。這種情況在問答中尤為重要,需要高復雜度的領(lǐng)域知識和良好的語言表達能力相結(jié)合。 大家對于大模型的狂熱不再滿足于通用大模型的狂奔。在大模型增強的過程中,大模型雖然充滿了各種知識,但似乎不具備記憶能力。另外,對于如何調(diào)用外部工具也是陌生的。因此,在我們?nèi)绾巫尮ぞ哒{(diào)用、內(nèi)存訪問,甚至形成自己的規(guī)劃方面,大模型需要擴展傳統(tǒng)人工智能中智能體的概念。 這樣一來,大模型不僅具備知識,還具備了記憶、規(guī)劃和工具使用等技能,最終形成了一個代理體。在這個過程中,具備自省、自我批評、思維鏈和子目標分解等高階規(guī)劃和推理能力,使其具有人類具備的一些高級智能。 大模型之戰(zhàn)剛剛開始。逐漸從能說會道過渡到了突破多模態(tài),再通過人機交互形成各種指令。甚至在此之后,形成了人機混合、智能和自主智能的各種更高級的能力。這個領(lǐng)域已經(jīng)成為新的競爭之地。 不過,也會有新的設(shè)定,最近硅谷有一些新的硬件和硬科技嘗試,也代表著這樣一種趨勢正在逐漸外溢并形成到每個行業(yè)、領(lǐng)域和應(yīng)用,都在思考如何與大模型結(jié)合。 問答Q1:談?wù)勱P(guān)于'Agent'的話題。你認為它能夠在商業(yè)上投入使用嗎?需要具備哪些能力呢? A:我們可以分成兩種情況。一是對于本身數(shù)字化和信息化建設(shè)相對較好的團隊,可以在這個時機快速完成換道和智能化升級。最近大家能看到很多AI+BI的工作,比如Bing Chat等,基本上都屬于這個范疇。這一領(lǐng)域,如果你的數(shù)據(jù)積累較好,再加上一定的記憶能力,就是一個快速實現(xiàn)的方向。二是強人工智能需要更強大的能力,例如在機器人或者復雜決策場景中,甚至需要進行推理的過程。在這方面會有一些障礙和機會。 但我認為目前Agent還處于狂奔的狀態(tài),尚未明確出適用典型場景以及需要具備的具體能力。當然,這里也有一些新的概念,比如RAG。在RAG中,主要涉及對內(nèi)存的使用和規(guī)劃。這方面更側(cè)重于一些具有較高壁壘的點,不是所有的玩家都可以做到,需要有特定的基礎(chǔ)和依據(jù)。 Q2:現(xiàn)在大模型不斷增強。在國內(nèi),有些公司選擇自研大模型,這樣做是否有意義呢? A:首先,需要視情況而定,是否有必要重新造輪子。其次,各國都有自主的生態(tài)系統(tǒng),你也必須擁有自己的大模型,不能讓步。因為大模型不僅是硬件方面,還有很多軟件方面的插件和生態(tài)系統(tǒng)。例如,GBT產(chǎn)生了GB store,就是為了建立自己的軟件生態(tài)系統(tǒng)。這與我們的算力和芯片有關(guān)。微軟有自主設(shè)計和制造的芯片,谷歌有TPU,這與很多基礎(chǔ)軟件有關(guān),包括操作系統(tǒng)、數(shù)據(jù)庫。再次,會影響上游的數(shù)據(jù)和下游的應(yīng)用。我認為這是有必要自研的,這是價值的一個最基本源泉。 另外,我是反對在狂奔階段做大模型技術(shù)為驅(qū)動的創(chuàng)業(yè),因為這種創(chuàng)業(yè)非常危險。首先,你的人力和財力是非常有限的,而且大模型是一個綜合技術(shù),這會導致你很難找到非常細分的市場,因為大模型的邏輯是支持各種各樣的下游任務(wù),所以它一定是以壟斷為主導的經(jīng)濟思維方式來執(zhí)行其邏輯。 在這個過程中,一個小團隊去做,很容易被大公司或者開源的努力直接覆蓋掉,淹沒在這個浪潮中。 Q3:在AI的基礎(chǔ)設(shè)施層面,例如工具和公共學科。在這方面是否有足夠的空間可以讓我們的團隊進行實踐? A:首先要圍繞大模型本身做適配的和工具鏈的開發(fā)是非常有必要的。其實是to D,就像GitHub,實際是面向大模型的廠商。那么誰需要新的芯片?比如說大模型的MPU芯片。 因為大模型升級和更新之后,有些工具可能就不再需要了。這些工具和努力是否只是一個臨時的解決方案,是需要思考的。 為什么大家都更多地去做數(shù)據(jù)呢?因為不論模型發(fā)展到什么階段,甚至在沒有真實數(shù)據(jù)的情況下,通過給模型提供生成的AIGC數(shù)據(jù),模型是否還能夠增長呢?因此,模型數(shù)據(jù)的清洗、生成和增長等自動化的事情是非常有必要的。 Q4:未來幾年的人工智能產(chǎn)業(yè)鏈是否會聚焦于記憶、規(guī)劃、工具等插件的細分供應(yīng)鏈機會?其次,目前市場上行業(yè)維度的模型是否以行業(yè)龍頭為主? A:人工智能產(chǎn)業(yè)鏈肯定會發(fā)生供應(yīng)鏈和產(chǎn)業(yè)鏈的重塑,但是很難得出最終的結(jié)論。畢竟大模型的發(fā)展只有短短一年的時間。對于第二個問題,我覺得相對可以回答。像 Bloomberg 這樣的企業(yè),本身就具有非常強的信息化和數(shù)字化的能力。因為有數(shù)據(jù),所以并不需要幫忙,一定是行業(yè)龍頭自己去做的。但是也有很多行業(yè),其行業(yè)龍頭在于渠道,有獲取原材料或者原始數(shù)據(jù)的閉環(huán)。但是信息部分相對薄弱,那么就有兩種策略,一是自建團隊,因為本身也有資金;二是給供應(yīng)商提供機會。 Q5:在垂直領(lǐng)域的創(chuàng)新方向為什么說AI需要很重的服務(wù),或者說要有項目值來定制化一些東西? A:產(chǎn)品不是規(guī)劃出來的,產(chǎn)品是做出來的。Agent更像是一種產(chǎn)品,更符合海外分工相對明確的需求。FAE或者是一些實施工程師可以做得更快。永遠會存在內(nèi)部和外部的產(chǎn)品,因為考驗?zāi)沩椖康哪芰υ谟跇藴驶潭群蛻?yīng)對的能力,以及成本等情況。 Q6:關(guān)于聚生智能的技術(shù)現(xiàn)狀,我們需要突破哪些限制因素以及在哪些場景下會率先商業(yè)化? A:我認為聚生智能目前在人形機器人領(lǐng)域進行探索。在工業(yè)場景可能更容易實現(xiàn)落地,現(xiàn)在看到的送餐機器人以及酒店機器人等已經(jīng)相對成熟。在大模型的支持下,這些場景可以做得更好。然而,在開放的場景或完成更復雜的任務(wù),尤其是家庭服務(wù)機器人方面,仍然有許多需要解決的問題。 我認為目前做得還不夠好。一方面,機器人缺乏規(guī)劃和任務(wù)理解能力。盡管在大模型的支持下,這方面的能力得到了顯著提升,但問題在于機械電子、電機控制等方面的精準控制,以及在操控層面上的問題,對設(shè)備和傳感器等提出了更高的要求。另一方面,大模型的成功在于發(fā)現(xiàn)了它具有縮放法則。也就是說,模型指數(shù)增長時,模型性能會線性增加,并且在超過一定規(guī)模時,模型的大小會導致涌現(xiàn)現(xiàn)象。然而,這在機器人大模型中尚未被普遍發(fā)現(xiàn),這意味著我們?nèi)蕴幱谝粋€發(fā)展的階段。 此外,由于聚生智能依賴于視覺和多模態(tài)?,F(xiàn)在還沒有出現(xiàn)視覺大模型,即具有涌現(xiàn)和真正能解決我們對理解、感知、認知和決策一體化的需求的大模型。因此,在這個過程中,我們之前認為相對領(lǐng)先的東西,因為大模型的出現(xiàn),變成了一個瓶頸。 所以我認為這兩點肯定會螺旋上升,最先會落地的場景一定是相對封閉的、以前可能做得不太好的。在大模型的支持下,這些場景可以更好地完成任務(wù)。但一定不要期望家庭服務(wù)性的場景,工業(yè)場景可能會更加先進。因此,我們先交給工業(yè)場景,推動很多燈塔工廠或智能制造等領(lǐng)域進一步催生和落地,然后逐漸延伸到我們的TC行業(yè)或其他相關(guān)行業(yè)。這可能是一條相對切實可行、可能性較大的路徑。 鈦資本研究院觀察這一輪的AI進入新模式階段,有望引發(fā)產(chǎn)業(yè)競爭格局重構(gòu)。展望未來,人工智能進入大模型時代,其應(yīng)用性能會發(fā)生質(zhì)的改變,千行萬業(yè)或?qū)⑾蚋嘣姆较虬l(fā)展,鈦資本將與各投資者共同關(guān)注大模型格局下的行業(yè)發(fā)展,發(fā)現(xiàn)投資機會。 |
|
來自: mrjiangkai > 《我的圖書館》