終于,華為的大模型動向來了! 盤古大模型3.0,今天正式發(fā)布。 最底層的基礎(chǔ)大模型包括100億參數(shù)、380億參數(shù)、710億參數(shù)和1000億參數(shù)四個版本,預訓練使用了超3萬億tokens。 但和早先的傳言不同,盤古大模型3.0并非是盤古版ChatGPT,而是一個面向行業(yè)的大模型系列。 用華為自己的話來說就是:
(而且現(xiàn)場全程沒有cue到“生成式”這個關(guān)鍵詞) 所以在慣例的現(xiàn)場演示環(huán)節(jié),華為也都是派行業(yè)大模型出戰(zhàn)。 比如讓政務大模型判斷照片中除了貨車外還有哪些車輛違規(guī),可以看到大模型標出了三輛小轎車,而且給出了原因。 與此同時,可提供2000P Flops單集群的昇騰AI云服務在烏蘭察布和貴安同時上線。 “千億規(guī)模大模型具備涌現(xiàn)、思維鏈能力”不想作詩的盤古大模型3.0,想做的事是面向行業(yè)。 這從它的架構(gòu)上就可以感受到,盤古大模型3.0分為三層:
其中L0層的基礎(chǔ)大模型負責提供通用技能。 模型可分為自然語言大模型和多模態(tài)大模型兩類。能力覆蓋了對話問答、文案生成、圖像生成、圖像理解等。 預訓練數(shù)據(jù)中包含了超過3萬億tokens,使用了超過1000+TB數(shù)據(jù)訓練,指令微調(diào)數(shù)據(jù)也在千萬級。 并且盤古基礎(chǔ)大模型是一個可伸縮、高可擴展的稀疏-稠密語言大模型。 千億級別稠密模型已經(jīng)具備涌現(xiàn)、思維鏈能力,構(gòu)成了底座;通過稀疏化使其成為不同“行業(yè)專家”,這樣可使得推理過程更加高效。 L1層由N個行業(yè)大模型構(gòu)成。 在這方面,華為使用行業(yè)公開數(shù)據(jù)訓練了多個行業(yè)通用大模型,如政務、金融、制造、礦山、氣象等。 比如氣象方面,盤古氣象大模型的最新成果剛剛登上Nature正刊,只需要1.4秒就能完成24小時全球氣象預報。 此外,行業(yè)可以換也能基于自有數(shù)據(jù)在L0、L1基礎(chǔ)上,訓練自己的專用大模型。 L2層則提供更加細化場景的模型,主打“開箱即用”??蓪W⒂谡諢峋€、網(wǎng)點助手、先導藥物篩選、傳送帶異物檢測、臺風路徑預測等具體行業(yè)應用或特定業(yè)務場景。 據(jù)了解,為快速適配、快速滿足行業(yè)需求,盤古大模型采用完全的分層解耦設計。 在L0和L1大模型的基礎(chǔ)上,華為云還提供了大模型行業(yè)開發(fā)套件,通過對自有數(shù)據(jù)二次訓練,就可以擁有自己的專屬行業(yè)大模型。 同時,根據(jù)客戶不同的數(shù)據(jù)安全與合規(guī)訴求,盤古大模型還提供了公用云、大模型云專區(qū)、混合云多樣化的部署形態(tài)。 華為在最底層構(gòu)建了以鯤鵬和昇騰為基礎(chǔ)的AI算力云平臺,以及異構(gòu)計算架構(gòu)CANN、全場景AI框架昇思MindSpore,AI開發(fā)生產(chǎn)線ModelArts等,能為大模型開發(fā)和運行提供分布式并行加速,算子和編譯優(yōu)化、集群級通信優(yōu)化等關(guān)鍵能力。 基于華為的AI根技術(shù),大模型訓練效能可以調(diào)優(yōu)到業(yè)界主流GPU的1.1倍。 華為云2000P Flops單集群的昇騰AI云服務在烏蘭察布和貴安同時上線。 披露數(shù)據(jù)表明,昇騰云AI服務的千卡訓練30天長穩(wěn)率達到90%,斷點恢復時長不超過10分鐘。 除了支持華為的AI框架Mindspore外,還支持Pytorch,Tensorflow等主流AI框架,框架中的90%算子,都可以通過華為的遷移工具從GPU平滑遷移到昇騰。 例如,美圖僅用30天就將70個模型遷移到了昇騰,同時華為云和美圖團隊一起進行了30多個算子的優(yōu)化以及流程的并行加速,AI性能較原有方案提升了30%。 氣象大模型登上Nature正刊在展示盤古大模型3.0的基礎(chǔ)能力后,華為也對盤古大模型的一系列行業(yè)應用做了數(shù)據(jù)披露。 最近,盤古氣象大模型登上Nature的消息刷屏了。 據(jù)悉,盤古氣象大模型是首個精度超過傳統(tǒng)數(shù)值預報方法的AI預測模型,同時預測速度也有大幅提升。 原來預測一個臺風未來10天的路徑,需要在3000臺服務器的高性能計算機集群上花費5小時進行仿真?,F(xiàn)在基于預訓練的盤古氣象大模型,通過AI推理的方式,研究者只需單臺服務器上單卡配置,10秒內(nèi)就可以獲得更精確的預測結(jié)果。 在藥物研發(fā)領(lǐng)域,原來一款新藥研發(fā)平均需要10年時間、花費10億美金。盤古藥物分子大模型助力西安交通大學第一附屬醫(yī)院劉冰教授團隊發(fā)現(xiàn)全球40年來首個新靶點、新類別的抗生素,并將先導藥物研發(fā)周期縮短至1個月、研發(fā)成本降低70%。 在鐵路領(lǐng)域,盤古鐵路大模型能精準識別現(xiàn)網(wǎng)運行的67種貨車、430多種故障,無故障圖片篩除率高達95%,成為貨運列檢員身邊有力的數(shù)字助手,將列檢員從每日數(shù)百萬張的“圖?!睓z測中解放出來。 華為常務董事、華為云CEO張平安給最新動向,做了最凝練的總結(jié):
— 完 — 量子位 QbitAI · 頭條號簽約 關(guān)注我們,第一時間獲知前沿科技動態(tài) |
|