大模型時(shí)代，商湯怎么做？

天承辦公室 2023-04-12 發(fā)布于江蘇

展開全文

「日日新」大模型體系，全面開放 API。

作者 | 凌梓郡
編輯 | 鄭玄

當(dāng)人們紛紛猜測，GPT-4 的參數(shù)量，將會(huì)在 GPT-3 的 1750 億參數(shù)的基礎(chǔ)上如何再增加時(shí)，OpenAI 選擇了不公布。這種期待也反應(yīng)出了一種普遍認(rèn)知：隨著參數(shù)量級的增加，模型的能力會(huì)再次躍升。

「今天我們衡量一個(gè)模型能力的時(shí)候，不能夠簡單來看模型的參數(shù)量，而是在以有限的計(jì)算量的前提下，來分配資源給參數(shù)或者是訓(xùn)練的數(shù)據(jù)?！? 月 10 日商湯的科技交流會(huì)上，CEO 徐立在開場給出了自己的觀點(diǎn)。

這場為時(shí)長一個(gè)半小時(shí)的發(fā)布會(huì)上，大部分的時(shí)間用于實(shí)時(shí)演示。跟隨著在舞臺(tái)一側(cè)、連接大屏幕的電腦，觀眾看到了商湯大模型，用于多輪對話、文本和圖像生成、3D 視覺生成、以及實(shí)時(shí)互動(dòng)的各項(xiàng)能力。

大模型是計(jì)算「暴力美學(xué)」的勝利，描述模型的能力，需要用到參數(shù)規(guī)模和訓(xùn)練的數(shù)據(jù)集。商湯認(rèn)為，大模型的參數(shù)量乘以處理的數(shù)據(jù)量，就能得到模型的計(jì)算量。「未來討論大模型，希望大家討論的是它的計(jì)算量，這才是它的能力。」

扎進(jìn)人工智能領(lǐng)域 9 年，見證了深度學(xué)習(xí)到大模型時(shí)代更替，商湯也以這場技術(shù)交流會(huì)，展示了自己將擁抱大模型，并提供全面服務(wù)的姿態(tài)。

這既包括在通用大模型上的持續(xù)推進(jìn)，也包括結(jié)合已有的場景、數(shù)據(jù)、算力設(shè)施優(yōu)勢，推進(jìn)大模型的行業(yè)應(yīng)用。商湯認(rèn)為，多模態(tài)大模型的下一步，將是通用人工智能，「我們也會(huì)將 AGI 作為核心的發(fā)展目標(biāo)，在未來幾年持續(xù)推動(dòng)大模型和 AGI 技術(shù)的突破?！剐炝⒄f。

日日新大模型體系

在技術(shù)交流會(huì)上，商湯科技董事長兼 CEO 徐立發(fā)布了「日日新 SenseNova」大模型體系，分別展示了在自然語言生成、圖片視頻內(nèi)容生成、3D 建模實(shí)時(shí)交互上的能力。

之所起名為「日日新」，是寓指大模型通過數(shù)據(jù)閉環(huán)，不斷提升能力?！高@代表人工智能大模型，在以周為單位的數(shù)據(jù)輸入上，可以日日更新，能力日日增強(qiáng)。」

商湯 CEO 徐立介紹「日日新 sensenova」大模型體系

技術(shù)路線圖顯示，商湯在 2019 年開始探索大模型，訓(xùn)練了 10 億參數(shù)級別的視覺大模型，到了 2022 年，已經(jīng)訓(xùn)練了 320 億參數(shù)級別的大模型。

前不久的 3 月，商湯開源了有 30 億參數(shù)的書生 2.5 多模態(tài)大模型。在架構(gòu)上，運(yùn)用兼容解碼的 Uni- Perceiver 架構(gòu)。這是為了將圖像、視頻、語言不同模態(tài)的信息，以同一種方式在一個(gè)空間進(jìn)行編碼。這樣的設(shè)計(jì)也體現(xiàn)了商湯對未來模型發(fā)展的思考，希望能夠以一個(gè)更強(qiáng)大的底層模型，兼容不同的下游任務(wù)。

此次的「日日新 SenseNova」大模型體系不同場景的演示，也展示了商湯較為全面的技術(shù)積累。

自研語言大模型「商量」

作為商湯自研的中文語言大模型應(yīng)用平臺(tái)，「商量」具有語言理解、生成能力，現(xiàn)場演示了不同場景、領(lǐng)域的應(yīng)用。

在文字創(chuàng)作方面，通過多輪對話，「商量」能夠按要求生成宣傳語，并在此基礎(chǔ)上寫作新產(chǎn)品邀請函；而通過對話引導(dǎo)，它也能夠輔助寫作適合兒童閱讀的童話故事。此外，「商量」也具有處理長文本的能力，能夠閱讀 PDF 后，回答用戶提出的針對性問題。

除了基本的語言模型，發(fā)布會(huì)現(xiàn)場還展示了基于語言能力的兩個(gè)擴(kuò)展場景：編碼能力、以及基于醫(yī)學(xué)專業(yè)知識(shí)的對話咨詢。徐立表示，「商量」接入了自然語言編程的能力后，80% 的代碼可以通過提示詞生成，人工手寫的部分只剩下 20%。此外，使用某個(gè)垂直領(lǐng)域的公司代碼進(jìn)行微調(diào)后，即能夠幫助公司內(nèi)部的程序員共享編程經(jīng)驗(yàn)，增加開發(fā)能力。商湯內(nèi)部實(shí)測顯示，使用了編程工具后，代碼的編寫效率提升了 62%。

文生圖大模型「秒畫」

AI 作畫的能力已經(jīng)成為大模型的「標(biāo)配」，發(fā)布會(huì)現(xiàn)場展示了基于一長串的修飾詞的 Prompt 生成圖片的能力。修改 Prompt 里的個(gè)別描述短語（比如「穿西裝」改為「穿漢服」），模型能夠快速生成與之相匹配的圖片。

除此之外，「秒畫」還支持用戶上傳 20 張圖片，供模型學(xué)習(xí)風(fēng)格。在現(xiàn)場的演示中，工作人員上傳了 20 張「港風(fēng)」的明星圖片，幾分鐘后，學(xué)習(xí)完成，模型就能夠?qū)W會(huì)生成具有「港風(fēng)」的人像。

數(shù)字人生成平臺(tái)「如影」

基于「如影」平臺(tái)，用戶上傳一段符合要求的視頻，即可生成自己的孿生數(shù)字人，并在此基礎(chǔ)上使用平臺(tái)的工具，生成想要的背景圖片、文字段落、以及根據(jù)文字生成語音，最終集成為一段數(shù)字人做演示的短視頻。

在現(xiàn)場展示中，工作人員讓 AI 生成一段介紹絲綢之路的文字，再分別翻譯為英語、阿拉伯語兩種不同的文字，讓數(shù)字人分別用對應(yīng)的語言進(jìn)行介紹。

3D 內(nèi)容生成平臺(tái)「瓊宇」與「格物」

在 3D 建模的生成領(lǐng)域，商湯分別展示了城市空間、建筑、園區(qū)的生成平臺(tái)「瓊宇」，與對普通物品掃描后進(jìn)行 3D 建模的「格物」。

基于這兩個(gè)平臺(tái)，以及「如影」的數(shù)字人平臺(tái)的綜合能力，能夠?qū)崿F(xiàn)人、物、場的便捷編輯創(chuàng)作。徐立介紹，要實(shí)現(xiàn)便捷的編輯能力，難點(diǎn)在于實(shí)現(xiàn)實(shí)時(shí)的渲染。這一能力能夠應(yīng)用到游戲設(shè)計(jì)、空間效果的創(chuàng)意設(shè)計(jì)、虛擬人直播等領(lǐng)域。

從「小模型」到「大模型」，

帶來研發(fā)體系變革

從 2018 年谷歌的 Bert、GPT-1 先后誕生，大模型的技術(shù)路線便初露雛形。到了 2022 年底，ChatGPT 這樣的現(xiàn)象級產(chǎn)品，正式標(biāo)志了人工智能大模型的產(chǎn)業(yè)時(shí)代來臨?！窤I2.0 時(shí)代的平臺(tái)式變革」、「AI 的 IPhone 時(shí)刻」、「不亞于 PC 和互聯(lián)網(wǎng)的誕生」，人們用不同的方式去形容這一時(shí)刻。

大模型突破了以往深度神經(jīng)網(wǎng)絡(luò)處理個(gè)別任務(wù)的性能天花板。在到達(dá)了百億參數(shù)級別后，模型在處理任務(wù)的表現(xiàn)上出現(xiàn)了明顯突破；其次，一個(gè)底層的通用模型，具備了泛化能力，在不同的任務(wù)上都有出色的表現(xiàn)。

通用人工智能大模型帶來了人工智能范式的變化，商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛表示，在這個(gè)時(shí)間點(diǎn)上，「也帶來商湯自身研發(fā)體系的變革」。

在過去，AI 落地的方式是「小模型+場景」，這種形式下，針對每個(gè)不同的場景，都會(huì)訓(xùn)練一個(gè)專用的模型。這就導(dǎo)致了成千上萬個(gè)模型散落在不同的長尾場景中，研發(fā)成本高，周期長，每解決一個(gè)新問題，就需要訓(xùn)練新的模型。

以輔助駕駛系統(tǒng)的為例，在「學(xué)校區(qū)域」指示牌前需要減速這個(gè)指令的執(zhí)行，每一個(gè)環(huán)節(jié)都是一個(gè)針對子任務(wù)的專用模型進(jìn)行執(zhí)行。首先需要經(jīng)過「物體檢測」識(shí)別指示牌；其次需要通過「文字識(shí)別」理解指示牌的文字內(nèi)容；最后通過「決策模型」進(jìn)行決策，確定減速。

當(dāng)有了大模型的多模態(tài)和思維鏈能力后，給定圖片后，只需要輸入「這個(gè)圖標(biāo)是什么意思？我們應(yīng)該做什么？」大模型就能夠根據(jù)已有的信息進(jìn)行推理，作出將降低車速的決定。這也是 GPT-4 最新展現(xiàn)出的基于多模態(tài)信息的推理能力。

「大模型出現(xiàn)后，可以不斷的去解鎖這個(gè)模型新的功能，以極低的成本，非常高效的方式去不斷的去解決各個(gè)領(lǐng)域里面新出現(xiàn)的各種開放性的任務(wù)。」王曉剛介紹。

除了以更高效的方式解決問題，大模型還能夠帶來系統(tǒng)能力的提升。商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群副總裁陳宇恒介紹，視覺大模型能夠解決小模型時(shí)代自動(dòng)駕駛中 Corner Case 的痛點(diǎn)。以往的模型會(huì)在吸收新的 Corner Case 的時(shí)候遺忘更早期的數(shù)據(jù)，而大模型的學(xué)習(xí)能力能夠解決數(shù)據(jù)遺忘的問題。

因此，大模型可以通過數(shù)據(jù)驅(qū)動(dòng)、參數(shù)規(guī)模不斷突破性能，而在實(shí)際應(yīng)用中，可以通過知識(shí)蒸餾等方法，以小模型的方式，將大模型的能力部署到車輛或者其他端側(cè)，實(shí)現(xiàn)高性價(jià)比的方案。

商湯首席科學(xué)家王曉剛介紹數(shù)據(jù)標(biāo)注服務(wù)

商湯的技術(shù)強(qiáng)項(xiàng)是計(jì)算機(jī)視覺，通過預(yù)訓(xùn)練大模型，也能夠更有效地做圖像數(shù)據(jù)的預(yù)標(biāo)注和篩選?！缚梢钥焖俚亟鉀Q原來海量的數(shù)據(jù)回流后的數(shù)據(jù)預(yù)篩選和標(biāo)注的問題?！瓜嚓P(guān)的標(biāo)注效率能夠提升 4 倍以上。

王曉剛稱，比此前人工智能產(chǎn)業(yè)化面臨的問題「周期長、落地成本比較高」，而大模型的出現(xiàn)將為行業(yè)帶來新的轉(zhuǎn)機(jī)，「能夠以一個(gè)模型去解決各個(gè)場景里面的這些問題，會(huì)極大的推廣各個(gè)領(lǐng)域的應(yīng)用?！?/span>

大裝置+大模型，

AI 服務(wù)的延伸

大模型需要在多張卡上實(shí)現(xiàn)超大規(guī)模并行計(jì)算，這就涉及到分布式計(jì)算的工程實(shí)現(xiàn)和算力調(diào)配等關(guān)鍵能力。

這次的技術(shù)交流日，在上海的臨港 AI 大裝置進(jìn)行。這也是 2022 年初正式啟動(dòng)的「商湯人工智能計(jì)算中心」。目前是亞洲最大的智算平臺(tái)之一。這也是商湯大模型體系所展示的多項(xiàng)能力的算力基礎(chǔ)。

商湯介紹，目前大裝置擁有超過 27000 張 GPU 卡，可以輸出 5000PetaFlops 的算力。大模型的基礎(chǔ)條件是算力資源，ChatGPT 依托微軟的智算集群，才能實(shí)現(xiàn)暴力計(jì)算后的優(yōu)異結(jié)果。而為了更好地服務(wù)大模型的訓(xùn)練，微軟也專門為其打造了基礎(chǔ)設(shè)施?！溉ピ斐?AI 計(jì)算機(jī)去完成任務(wù)，訓(xùn)練人工智能大模型，我認(rèn)為是工程的奇跡。」陳恒宇表示。

在多卡的并行計(jì)算上，商湯很早就開始探索。在 2018 年，商湯就探索了 1000 塊 GPU 的并行計(jì)算能力。目前，大裝置能夠最大以 4000 卡的規(guī)模集群進(jìn)行單任務(wù)訓(xùn)練，并且可以做到七天以上的不間斷穩(wěn)定訓(xùn)練。陳宇恒介紹，這背后有兩個(gè)方面的技術(shù)難點(diǎn)。

首先，要保證多卡并聯(lián)的計(jì)算效率。這需要「通過一個(gè)很好的系統(tǒng)架構(gòu)和網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)，把這么多 GPU 高效地連接起來去做通訊，使它們可以有非常高的并行效率」。目前，商湯在千卡級也能夠達(dá)到 90% 以上的線性度。這意味著 GPU 規(guī)模增加的情況下，單卡性能依舊發(fā)揮出色。

其次，要實(shí)現(xiàn)長時(shí)間、無故障的運(yùn)行時(shí)間。用 100 張卡去做聯(lián)合訓(xùn)練的情況下，每天會(huì)有 0.1 張卡的故障。隨著集群增加，故障的卡數(shù)就會(huì)隨之增長。因此，大規(guī)模的 GPU 運(yùn)算需要解決硬件的可靠性、軟件的容錯(cuò)度，這在分布式系統(tǒng)的設(shè)計(jì)上和軟件框架的設(shè)計(jì)上，提出了很大的挑戰(zhàn)。

「商湯得益于過去的經(jīng)驗(yàn)，在這兩方面也有很好的技術(shù)積累?！龟愑詈惚硎尽?/span>

在 2022 年，大裝置除了支持自己的大模型體系訓(xùn)練，商湯已經(jīng)作為算力服務(wù)方，服務(wù)了其他 8 家客戶的大模型訓(xùn)練。王曉剛表示，商湯的特殊之處在于，這些年一直將自己作為「人工智能的平臺(tái)型的公司」，投入了很大的資源進(jìn)行基礎(chǔ)設(shè)施建設(shè)。

大模型能力是在原有算力能力上新的疊加層?！干虦珱]有云，其實(shí)是個(gè)誤解?！龟惡阌畋硎?，商湯一直對外提供 AI 原生的算力、存儲(chǔ)網(wǎng)絡(luò)、軟件等不同的服務(wù)。

生成式 AI 大火后，商湯也提供大模型的訓(xùn)練、推理、數(shù)據(jù)管理，以及基于「日日新」大模型體系的 API 服務(wù)，甚至是提升生產(chǎn)效率的整套工具鏈，讓政府和行業(yè)客戶去高效地開發(fā)人工智能大模型。

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天承辦公室 > 《019科技巨搫》

舉報(bào)/認(rèn)領(lǐng)