解耦——盤古大模型 3.0 來得晚,但瞄得準。 作者 | 宛辰 編輯 | 鄭玄
今天,華為在大模型領(lǐng)域狠狠秀了一把「肌肉」。 7 月 7 日,2023 華為開發(fā)者大會(HDC 2023)開幕。下午兩個多小時的主題演講里,華為云首次詳細披露了盤古大模型的進展,不僅發(fā)布面向行業(yè)的盤古大模型 3.0,還詳細介紹了華為發(fā)展大模型的基礎(chǔ)技術(shù)能力。 盤古大模型 3.0 包括「5+N+X」三層架構(gòu),三層分別指 L0 層的 5 個基礎(chǔ)大模型、L1 層的 N 個行業(yè)通用大模型、以及 L2 層可以讓用戶自主訓(xùn)練的更多細化場景模型。其采用完全的分層解耦設(shè)計,企業(yè)用戶可以基于自己的業(yè)務(wù)需要選擇適合的大模型開發(fā)、升級或精調(diào),從而適配千行百業(yè)多變的需求。 華為輪值董事長胡厚崑在日前的 WAIC 大會上表示,華為發(fā)展大模型的核心是關(guān)注算力和應(yīng)用。一方面是深耕算力,打造強有力的算力底座,來支撐中國的人工智能事業(yè)的發(fā)展。另一方面就是結(jié)合大模型,從通用大模型到行業(yè)大模型的研究創(chuàng)新,來真正讓人工智能服務(wù)好千行百業(yè),服務(wù)好科學(xué)研究。 華為是國內(nèi)最早布局大模型的云服務(wù)商之一,早在 2021 年就已經(jīng)發(fā)布了盤古大模型。在發(fā)展大模型的道路上,華為從最底層構(gòu)建了以鯤鵬和昇騰為基礎(chǔ)的 AI 算力云平臺,以及異構(gòu)計算架構(gòu) CANN、全場景 AI 框架昇思 MindSpore,AI 開發(fā)生產(chǎn)線 ModelArts 等技術(shù)能力。除了大模型和算力底座,會上,華為云還重點介紹了盤古大模型與具體行業(yè)結(jié)合的典型案例,涉及的行業(yè)包括政務(wù)、氣象、鐵路、制造、金融,以及多個升級、重塑華為云旗下軟件產(chǎn)品和服務(wù)的應(yīng)用案例。不論是基礎(chǔ)的技術(shù)能力,AI + 云的產(chǎn)品服務(wù)體系,還是落到具體行業(yè)的應(yīng)用案例,華為云均展示出了高度成熟、成體系化的業(yè)務(wù)能力,這著實給行業(yè)帶來驚喜。在大家還在爭論誰是中國的 OpenAI 時,華為云已經(jīng)開辟出了一條相當(dāng)成熟的大模型發(fā)展道路。華為在用自己的實踐證明,大模型很重要,但更重要的是用大模型解決行業(yè)和產(chǎn)品的痛點問題,做出能讓企業(yè)和用戶買單的產(chǎn)品和服務(wù),為千行百業(yè)真正創(chuàng)造價值。解耦,是今天發(fā)布的盤古大模型 3.0 的關(guān)鍵詞。這也是過去幾個月來,實際調(diào)用大模型的行業(yè)客戶一個普遍的訴求。一位頭部 SaaS 廠商在發(fā)布自己的大模型升級應(yīng)用時表示,「我們不自研大模型,而是在不同的業(yè)務(wù)場景中,哪個大模型擅長什么事情,就接那個模型。」為了可以在不同的大模型之間切換,「我們自身產(chǎn)品架構(gòu)上要做到與底層大模型無關(guān),或者說松耦合。」「盤古大模型的解耦設(shè)計,就是為行業(yè)著想」,在華為開發(fā)者大會上,華為常務(wù)董事、華為云 CEO 張平安給出了盤古大模型的差異化路線。其核心是把盤古大模型的的各種層和能力解耦,讓行業(yè)用戶根據(jù)自己的需求去開發(fā)。具體來說,盤古大模型 3.0 是一個面向行業(yè)的大模型系列,包括「5+N+X」三層架構(gòu):「5」代表 L0 層的五個基礎(chǔ)大模型:包括自然語言、視覺、多模態(tài)、預(yù)測、科學(xué)計算大模型,提供滿足行業(yè)場景中的多種技能需求。盤古 3.0 為客戶提供 100 億參數(shù)、380 億參數(shù)、710 參數(shù)和 1000 億參數(shù)的系列化基礎(chǔ)大模型,匹配客戶不同場景、不同時延、不同響應(yīng)速度的行業(yè)多樣化需求。同時提供全新能力集,包括 NLP 大模型的知識問答、文案生成、代碼生成,以及多模態(tài)大模型的圖像生成、圖像理解等能力,這些技能都可以供客戶和伙伴企業(yè)直接調(diào)用。無論多大參數(shù)規(guī)模的大模型,盤古提供一致的能力集。「5+N+X」三層架構(gòu)中的「N」,代表 L1 層的 N 個行業(yè)大模型。行業(yè)大模型的提供方式有兩種:一方面,華為云可以提供使用行業(yè)公開數(shù)據(jù)訓(xùn)練的行業(yè)通用大模型,包括政務(wù),金融,制造,礦山,氣象等大模型;另一方面,可以基于行業(yè)客戶的自有數(shù)據(jù),在盤古大模型的 L0 和 L1 層上,為客戶訓(xùn)練自己的專有大模型。張平安表示:「盤古一出生就是為行業(yè)服務(wù),提供了多種大模型的部署、開發(fā)和推理形態(tài),可以像華為生成盤古大模型一樣,生成自己的行業(yè)大模型,只需要輸入自己的私有數(shù)據(jù)?!共⑶?,訓(xùn)練數(shù)據(jù)也和大模型解耦。「5+N+X」中的 X,則代表 L2 層為客戶提供了更多細化場景的模型,更加專注于政務(wù)熱線、網(wǎng)點助手、先導(dǎo)藥物篩選、傳送帶異物檢測、臺風(fēng)路徑預(yù)測等具體行業(yè)應(yīng)用或特定業(yè)務(wù)場景,為客戶提供「開箱即用」的模型服務(wù)。通過「5+N+X」的這三層大模型,華為云構(gòu)建了自己的大模型底座。在昨天的世界人工智能大會上,華為輪值董事長胡厚崑形象地闡述道:「最基層對標的是通用大模型,我們叫做基礎(chǔ)大模型。這層我們形象的叫做讀萬卷書,就是要做好海量的基礎(chǔ)知識的學(xué)習(xí)。這一層之上還打造了行業(yè)模型和場景模型,叫做行萬里路。從讀萬卷書到行萬里路還有很多的挑戰(zhàn)要克服,很關(guān)鍵的一點就是要把各行各業(yè)的知識與大模型進行充分的匹配和融合,華為正在和各個行業(yè)的伙伴一起進行努力?!?/span>此外,大模型的創(chuàng)新不僅僅是模型自身的創(chuàng)新,更依賴于 AI 的各項根技術(shù)創(chuàng)新。會上,華為諾亞方舟實驗室主任姚駿介紹了盤古大模型的技術(shù)底座。華為在最底層構(gòu)建了以鯤鵬和昇騰為基礎(chǔ)的 AI 算力云平臺,以及異構(gòu)計算架構(gòu) CANN、全場景 AI 框架昇思 MindSpore,AI 開發(fā)生產(chǎn)線 ModelArts 等,為大模型開發(fā)和運行提供分布式并行加速,算子和編譯優(yōu)化、集群級通信優(yōu)化等關(guān)鍵能力。基于華為的 AI 根技術(shù),大模型訓(xùn)練效能可以調(diào)優(yōu)到業(yè)界主流 GPU 的 1.1 倍。算力是訓(xùn)練大模型的基礎(chǔ)。在本次大會上,張平安宣布單集群 2000P Flops 算力的昇騰 AI 云服務(wù)在華為云的烏蘭察布和貴安 AI 算力中心同時上線。昇騰 AI 云服務(wù)除了支持華為全場景 AI 框架昇思 MindSpore 外,還支持 Pytorch、Tensorflow 等主流 AI 框架。同時,這些框架中 90% 的算子,都可以通過華為端到端的遷移工具平滑遷移到昇騰平臺。例如,美圖僅用 30 天就將 70 個模型遷移到了昇騰,同時華為云和美圖團隊一起進行了 30 多個算子的優(yōu)化以及流程的并行加速,AI 性能較原有方案提升了 30%。此外,在大模型訓(xùn)練過程中經(jīng)常會遇到 GPU 故障,研發(fā)人員不得不經(jīng)常重啟訓(xùn)練,時間長,代價大。昇騰 AI 云服務(wù)可以提供更長穩(wěn)的 AI 算力服務(wù),千卡訓(xùn)練 30 天長穩(wěn)率達到 90%,斷點恢復(fù)時長不超過 10 分鐘。任正非此前曾表示,「人工智能軟件平臺公司對人類社會的直接貢獻可能不到 2%,98% 都是對工業(yè)社會、農(nóng)業(yè)社會的促進。但是應(yīng)用平臺不是我們的選項,我們會做 AI 的底層算力平臺。」讓大模型走進千行百業(yè),已經(jīng)成為華為發(fā)展大模型的工作重心。會上,華為云介紹了盤古大模型在政務(wù)、鐵路、氣象、金融等七個領(lǐng)域的應(yīng)用案例。在政務(wù)領(lǐng)域,華為云攜手深圳市福田區(qū)政務(wù)服務(wù)數(shù)據(jù)管理局,上線了基于盤古政務(wù)大模型的福田政務(wù)智慧助手小福,能夠精準理解民眾咨詢意圖,改變傳統(tǒng)的一網(wǎng)通辦模式。通過對超過 20 萬條政務(wù)數(shù)據(jù)進行精調(diào),包括 12345 熱線、政策文件、政務(wù)百科等,政務(wù)助手掌握了豐富的法律法規(guī)、辦事流程等行業(yè)知識。華為云介紹,盤古政務(wù)大模型的核心,是認知能力。讓城市公共系統(tǒng)從看得見到看得懂,完成從感知,到認知、處置的閉環(huán)。并根據(jù)不同場景,提供問答、文案生成、視頻感知、多模態(tài)理解等不同的能力。華為云介紹了兩個典型場景:首先是一個咨詢場景,企業(yè)用戶向政務(wù)助手咨詢相關(guān)的投資扶持政策,政務(wù)助手可以介紹相關(guān)的法規(guī)政策,并為咨詢者提供適當(dāng)?shù)慕ㄗh;第二個場景,如上圖所示,是一個基于對話和多模態(tài)能力的政務(wù)處理場景,工作人員可以根據(jù)攝像頭拍攝的圖片,智能分析圖片中的違規(guī)情況。在鐵路領(lǐng)域,華為展示了貨車檢測助手的應(yīng)用案例。傳統(tǒng)列檢員每天要檢測數(shù)百萬張列車圖片,檢測鐵路網(wǎng)絡(luò)運行的貨車是否存在故障問題。引入盤古大模型后,可以精準識別現(xiàn)網(wǎng)運行的 67 種貨車、430 多種故障,無故障圖片篩除率高達 95%。換言之,列檢員只需要檢測過去 1/20 的列車圖片,相當(dāng)于提高了 20 倍的工作效率。在煤礦領(lǐng)域,盤古礦山大模型已經(jīng)在全國 8 個礦井規(guī)模使用,一個大模型可以覆蓋煤礦的采、掘、機、運、通、洗選等業(yè)務(wù)流程下的 1000 多個細分場景,讓更多的煤礦工人能夠在地面上作業(yè),不僅能讓煤礦工人的工作環(huán)境更加舒適,而且可以極大地減少安全事故。氣象領(lǐng)域是華為云發(fā)布會上介紹的重點,就在幾天前,盤古氣象大模型的研究成果發(fā)表在國外頂級期刊《Nature》,被審稿人評價為:讓我們重新審視氣象預(yù)測的未來。原來預(yù)測一個臺風(fēng)未來 10 天的路徑,需要在 3000 臺服務(wù)器的高性能計算機集群上花費 5 小時進行仿真?,F(xiàn)在基于預(yù)訓(xùn)練的盤古氣象大模型,通過 AI 推理的方式,研究者只需單臺服務(wù)器上單卡配置,10 秒內(nèi)就可以獲得更精確的預(yù)測結(jié)果。目前,盤古氣象大模型可以用于預(yù)測海浪、高溫、臺風(fēng)、寒潮等氣象,相比傳統(tǒng)的氣象預(yù)測速度更快、準確率也更高。此前盤古和氣象局合作,提前 10 天預(yù)測了「瑪娃」的路徑。此外,盤古也提前兩天預(yù)測到了芬蘭寒潮到來,相比歐洲氣象局的預(yù)測。盤古的預(yù)測也更接近真實氣溫,在金融領(lǐng)域,盤古大模型與工商銀行合作,打造了一系列探索性的應(yīng)用。其中一個典型的場景是提高銀行柜員的工作效率。工行在全國有數(shù)萬個網(wǎng)點,20 萬網(wǎng)點柜員。他們需要在各種業(yè)務(wù)間切換,這會浪費大量的時間。盤古金融大模型對銀行的各種操作、政策、案例文檔進行預(yù)訓(xùn)練,能根據(jù)客戶的問題,為柜臺工作人員自動生成流程和操作指導(dǎo),將原來需要平均 5 次的操作降低為 1 次,辦結(jié)時間縮短 5 分鐘以上。而這只是最初級的應(yīng)用,華為正在與金融行業(yè)探索,未來將大模型運用到信貸分析等更多的金融場景。華為本身也是一家制造企業(yè),其生產(chǎn)制造的硬件產(chǎn)品,涉及通信基站、手機、汽車、芯片等多個領(lǐng)域。基于過去積累的經(jīng)驗,華為將盤古大模型引入到生產(chǎn)制造領(lǐng)域。過去單產(chǎn)線制定器件分配計劃,往往要花費 3 個小時以上才能做齊 1 天的生產(chǎn)計劃。盤古制造大模型學(xué)習(xí)了華為產(chǎn)線上各種器件數(shù)據(jù)、業(yè)務(wù)流程及規(guī)則以后,能夠?qū)I(yè)務(wù)需求進行準確的意圖理解,并調(diào)用天籌 AI 求解器插件,1 分鐘即可做出未來 3 天的生產(chǎn)計劃。在藥物研發(fā)領(lǐng)域,原來一款新藥研發(fā)平均需要 10 年時間、花費 10 億美金。盤古藥物分子大模型助力西安交通大學(xué)第一附屬醫(yī)院劉冰教授團隊發(fā)現(xiàn)全球 40 年來首個新靶點、新類別的抗生素,并將先導(dǎo)藥物研發(fā)周期縮短至 1 個月、研發(fā)成本降低 70%。除了在千行百業(yè)的落地實踐,華為云盤古大模型也深度融入了華為云的產(chǎn)品服務(wù),重構(gòu)產(chǎn)品創(chuàng)新。盤古大模型加持下,華為云一系列 B 端產(chǎn)品服務(wù)被升級重構(gòu)。會上,華為云介紹了資料服務(wù)、云客服、BI、云搜索四項服務(wù)升級的細節(jié)。在資料服務(wù)中,通過盤古大模型的文案生成和代碼生成技術(shù),能夠提升資料撰寫和前端代碼編寫效率,將新產(chǎn)品上市周期大為縮短。 在云客服,通過嵌入行業(yè)知識庫和意圖挖掘能力的對話問答,實現(xiàn)全流程 AI 優(yōu)先作答,提升客服工作效率 30%。 在 BI,通過 NL2SQL 和 AutoGraph 智能路由,實現(xiàn) SQL 到可視化圖表的自動推薦,通過多輪自然語言交互,讓人人都能便捷地從數(shù)據(jù)中洞察業(yè)務(wù)細節(jié)。 在云搜索,通過多模態(tài) Embedding 和 NL2API 技術(shù),實現(xiàn)視頻、文本、圖譜等廣泛場景搜索,借助強大的語義理解和泛化能力,讓搜索準確率提高 15%。 華為云將 CodeArts 研發(fā)工具與盤古大模型相結(jié)合,正式發(fā)布了面向開發(fā)者的智能編程助手 CodeArts Snap。該工具訓(xùn)練了 760 億行精選代碼、1300 萬篇技術(shù)文檔,具備智能生成、智能問答、智能協(xié)同三大核心功能,可以實現(xiàn)一句對話讓代碼生成、一次點擊即可自動注釋和生成測試用例,一條指令即可智能部署,讓每個軟件開發(fā)者都有自己的編程助手。華為云通過盤古基礎(chǔ)大模型賦能 MetaStudio 數(shù)字內(nèi)容生產(chǎn)線,打造了盤古數(shù)字人大模型,提供模型生成和模型驅(qū)動兩大服務(wù),并已經(jīng)使用了 20 萬小時音視頻數(shù)據(jù)進行了預(yù)訓(xùn)練。基于這兩大服務(wù),開發(fā)者可以快速生成和驅(qū)動數(shù)字人模型,賦能在線教育、文娛直播、企業(yè)會議等行業(yè)應(yīng)用,讓每個企業(yè)員工實現(xiàn)「數(shù)字人自由」。例如,用戶只需在華為云 MetaStudio 的服務(wù)頁面上傳 20 秒的個人視頻,就可以快速生成個性化的數(shù)字人講解視頻,過去 3 個研發(fā)人員 3 天完成的工作,現(xiàn)在只需要 3 分鐘就可以完成。會上,華為云還提到了盤古大模型在機器人領(lǐng)域的應(yīng)用,并演示了一段視頻。過去向機器人下命令需要開發(fā)者進行編程,而基于盤古大模型的自然語言理解能力,機器人可以識別自然語言,執(zhí)行命令,并具備全域感知引導(dǎo)的自主智能。會上,華為演示了一段視頻,用戶不需要輸入程序命令,只需要用自然語言向機器人下令,機器人就可以完成拿取物品等命令,過程中會根據(jù)所處的環(huán)境情況作出自主判斷(比如移開擋住目標物體的雜物),從而完成任務(wù)。華為介紹,上述演示并非概念視頻,而是來自真實的產(chǎn)品,并在 HDC 大會期間在會場展出。張平安表示,「為了幫助全球客戶、伙伴、開發(fā)者訓(xùn)練和使用大模型,我們致力于為全球客戶打造世界 AI 另一極,為所有 AI 開發(fā)者提供新的選擇」。甚至更早之前,早在今年 3 月,任正非就曾在公司內(nèi)部表達過相似的意思。他表示 AI 大模型上會風(fēng)起云涌,不只是微軟一家。任正非的理由,其實也是今天華為云努力的方向,即人工智能軟件平臺公司對人類社會的直接貢獻可能不到 2%,98% 都是對工業(yè)社會、農(nóng)業(yè)社會的促進。比如在中國、德國的工廠,都在推進人工智能對工業(yè)的促進,從而實現(xiàn)無人化的生產(chǎn);比如天津港口的碼頭,貨物裝卸也試了無人化,代碼一輸入,從船上自動把集裝箱搬運過來,然后用汽車運走;比如山西的煤礦,在地下采用 5G+人工智能后,人員減少了 60-70%,大多數(shù)人在地面的控制室穿西裝工作。這些都是過去數(shù)年 AI 已經(jīng)大規(guī)模運用到產(chǎn)業(yè)側(cè)的實例,這些產(chǎn)業(yè)的共同點是有龐大的規(guī)模和產(chǎn)值,一點點效率的提升都能帶來巨大的收益。而大模型的出現(xiàn),實質(zhì)上是提供了更加高效的生產(chǎn)力工具。一方面,對于這些原本已經(jīng)在擁抱 AI 的產(chǎn)業(yè),意味著更高的效率和更快的改造進程;而效率更高,也意味著對更多行業(yè)來說,更容易算好「經(jīng)濟賬」,AI 有潛力從變革所謂幾大行業(yè),變成改造千行百業(yè)。這是華為為什么要堅決走進產(chǎn)業(yè)的原因,實際上阿里云、騰訊云、火山云和百度云等國內(nèi)主要的云服務(wù)大廠,也是相近的思路。而方向一致、起點接近的情況下,在這場競賽中誰能跑的最快,比拼的就是從算力、大模型底座、平臺、產(chǎn)品到具體解決方案的全鏈條能力。因為眾所周知的原因,華為拿不到當(dāng)下公認的全球最先進的計算芯片,看起來在這場競賽中先天不足。但從今天的發(fā)布會來看,華為完全看不到受上游掣肘而落后于人,在大模型的關(guān)鍵鏈條上,都拿出了成熟的產(chǎn)品、案例,解耦化的盤古大模型架構(gòu)更是讓人眼前一亮。事實上,考慮到今天國產(chǎn)化的需求,在算力上不落后于人的華為,被卡脖子的劣勢,很可能變成自主可控的優(yōu)勢。大模型成為華為的新機遇,看起來正在成為現(xiàn)實。
|