大模型這場(chǎng)硬仗還得華為昇騰來打

愛收藏的烏鴉 2022-06-18 發(fā)布于廣東

展開全文

楊凈明敏發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

為什么這年頭，大模型可以這么火？！

這不前幾天，谷歌研究員說“AI有人格”，結(jié)果震驚整個(gè)科技圈……

背后其實(shí)就是大模型的鍋。

在大家的認(rèn)知里，AI大模型真的很全能——能說會(huì)唱、寫詩(shī)作畫樣樣精通，甚至還能像人一樣跟你聊天。

而且性能精度和泛化能力兼具~光看最近屢次出圈的AI作畫就知道了。

既然大模型這么多好處，如果應(yīng)用到了產(chǎn)業(yè)界，這不得把企業(yè)的開發(fā)者們都給饞哭了。

一直以來，大模型似乎都是大廠、高校及科研機(jī)構(gòu)的專利。

其他企業(yè)倒也不是不能用。

且不論從規(guī)劃、開發(fā)到部署各個(gè)環(huán)節(jié)有多難，光是個(gè)中成本也不敢讓企業(yè)輕易試錯(cuò)。

從規(guī)劃到部署一個(gè)大模型到底有多難？

首先從AI大模型的規(guī)劃應(yīng)用上，垂直行業(yè)就很容易遇到隔行如隔山的問題。

比如制造業(yè)中的檢驗(yàn)環(huán)節(jié)。

質(zhì)檢專業(yè)人員清楚知曉零件需要達(dá)到多少精確度、流水線的運(yùn)轉(zhuǎn)速度如何。

但問題就在于，用什么樣的AI大模型，能配合生產(chǎn)線的運(yùn)轉(zhuǎn)呢？

△紫東.太初訓(xùn)練的“小初”在紡織生產(chǎn)線上聲音質(zhì)檢

類似的場(chǎng)景，在電力、金融、醫(yī)藥等垂直領(lǐng)域中也會(huì)發(fā)生。

也就是說，在開發(fā)還未開始時(shí)，困難就已經(jīng)找上門了。

而更大的問題，還在后面。

即便垂直領(lǐng)域企業(yè)終于明晰了自己要開發(fā)什么樣的算法，但是居高不下的開發(fā)門檻、部署成本，依舊是“攔路虎”。

要知道，大模型是應(yīng)對(duì)AI應(yīng)用碎片化趨勢(shì)的一個(gè)有效解。

傳統(tǒng)AI時(shí)代，由于模型參數(shù)量小、泛化性差，一個(gè)模型大多只能對(duì)應(yīng)單個(gè)場(chǎng)景。

動(dòng)不動(dòng)就從0開始、獨(dú)立調(diào)優(yōu)、艱難迭代、推倒重來的模式，于企業(yè)而言實(shí)在是太勞民傷財(cái)了。

由此，垂直行業(yè)的目光自然而然放到了泛化性強(qiáng)、只需要微調(diào)的大模型上。

但問題是，動(dòng)輒千億、萬(wàn)億規(guī)模的大模型，開發(fā)周期勢(shì)必會(huì)相應(yīng)拉長(zhǎng)、對(duì)開發(fā)人員的技術(shù)能力要求也更高。

到部署環(huán)節(jié)中，大模型部署成本高是業(yè)內(nèi)的重要難題。更別說還要考量硬件適配性、功耗、成本、性價(jià)比等問題。

一個(gè)個(gè)難題到來，都意味著企業(yè)想要憑一己之力煉出大模型，實(shí)在是關(guān)山難越。

或許有人會(huì)說，垂直行業(yè)面臨的問題，似乎都是AI專業(yè)能力不夠強(qiáng)導(dǎo)致的。

那AI領(lǐng)域?yàn)槭裁床荒苤苯幽贸霈F(xiàn)成可用的行業(yè)大模型？

這也就看到了行業(yè)大模型難煉的B面——垂直行業(yè)的專業(yè)知識(shí)，同樣是AI技術(shù)人員的“攔路虎”。

還是從規(guī)劃部分說起。

盡管面對(duì)質(zhì)檢環(huán)節(jié)，AI技術(shù)人員知道可以應(yīng)用CV算法，但算法要達(dá)到多快的識(shí)別速度？非行業(yè)人士很難知曉。

而且算法開發(fā)的重要環(huán)節(jié)，就是海量數(shù)據(jù)訓(xùn)練。

一方面，如金融、保險(xiǎn)、醫(yī)藥等行業(yè)數(shù)據(jù)涉及隱私保護(hù)，數(shù)據(jù)集收集會(huì)變得尤為困難。

另一方面，涉及到大量垂直領(lǐng)域?qū)I(yè)知識(shí)的數(shù)據(jù)，AI領(lǐng)域技術(shù)人員將其整合為數(shù)據(jù)集的難度也進(jìn)一步升高。

最后回到部署上。

想要與實(shí)際生產(chǎn)環(huán)節(jié)緊密配合、讓AI算法實(shí)現(xiàn)更大價(jià)值，如果沒有對(duì)應(yīng)行業(yè)內(nèi)人士的意見參考，AI技術(shù)人員也是束手無(wú)策。

最終可能算法性能卓越，但卻走不出實(shí)驗(yàn)室。

綜上幾點(diǎn)不難看出，大模型在產(chǎn)業(yè)界落地遇到的問題，是貫穿開發(fā)應(yīng)用全流程的，而且要集合AI行業(yè)和對(duì)應(yīng)專業(yè)領(lǐng)域的智慧，共同解決這些困難。

怎么做？當(dāng)下產(chǎn)業(yè)界、AI界的目光，自然而然聚焦于此。

大模型全流程使能體系，了解一下？

AI大廠作為技術(shù)輸送方，對(duì)AI大模型的特點(diǎn)、容易遇到的問題和困難，自然有著更為深入的了解。

剛好在華為開發(fā)者大會(huì)上，華為昇騰給出了一套生態(tài)構(gòu)建方案——

大模型全流程使能體系。

雖說是大模型生態(tài)構(gòu)建方案，但仔細(xì)一看，無(wú)論是整體體系、還是流程開發(fā)套件，核心思想都是降低AI大模型開發(fā)、應(yīng)用門檻，都是直擊企業(yè)和開發(fā)者的痛點(diǎn)。

整個(gè)體系很清晰，直接按照流程劃分，分成規(guī)劃、開發(fā)和部署三個(gè)環(huán)節(jié)。

每個(gè)環(huán)節(jié)，都有相應(yīng)的支撐。

首先是規(guī)劃環(huán)節(jié)。

當(dāng)前大模型最前沿主要在這幾個(gè)方向，以華為云盤古CV大模型為代表的計(jì)算機(jī)視覺、以鵬程.盤古為代表的自然語(yǔ)言處理、還有紫東·太初為代表的多模態(tài)、語(yǔ)音、博弈智能、人工智能科學(xué)計(jì)算。

但對(duì)于產(chǎn)業(yè)界來說，具體到現(xiàn)實(shí)落地需要什么，就成為一個(gè)不可忽略的問題。大模型沙盤正是來規(guī)劃和牽引產(chǎn)業(yè)界的企業(yè)做出需要的大模型。

此前，基于昇騰AI的能力，業(yè)內(nèi)就已經(jīng)先后推出華為云盤古系列、鵬程.盤古、鵬程.神農(nóng)、紫東.太初、武漢.Luojia等有影響力的大模型。

接著就是最為關(guān)鍵的開發(fā)環(huán)節(jié)。

前面提到，企業(yè)要想開發(fā)一個(gè)大模型，需要考慮基礎(chǔ)開發(fā)、行業(yè)適配、實(shí)際部署等問題。

這一次，華為直接給出了大模型開發(fā)使能平臺(tái)，覆蓋從數(shù)據(jù)準(zhǔn)備、基礎(chǔ)模型開發(fā)、行業(yè)應(yīng)用適配到推理部署一整個(gè)開發(fā)流程都給安排上了。

核心發(fā)布了三個(gè)套件：大模型開發(fā)套件、大模型微調(diào)套件以及大模型部署套件。

大模型開發(fā)套件，昇思MindSpore與ModelArts結(jié)合既提供了像算法開發(fā)基礎(chǔ)能力，還具備了像并行計(jì)算、存儲(chǔ)優(yōu)化、斷點(diǎn)續(xù)訓(xùn)這種特殊能力。

在算法開發(fā)這塊上，昇思MindSpore提供了易用編程API，既能滿足多種需求，算法還特別簡(jiǎn)單。百行代碼就可以實(shí)現(xiàn)千億參數(shù)Transformer模型開發(fā)。

至于并行計(jì)算能力，自然是昇思MindSpore的傳統(tǒng)藝能了，昇思提供的數(shù)據(jù)并行、模型并行、流水并行、優(yōu)化器并行、子圖并行等業(yè)界領(lǐng)先的6維混合并行計(jì)算技術(shù)，開發(fā)者只需一行代碼就能實(shí)現(xiàn)模型自動(dòng)切分、分布式并行計(jì)算。

而存儲(chǔ)優(yōu)化、斷點(diǎn)續(xù)訓(xùn)則是針對(duì)日常訓(xùn)練時(shí)遇到耗內(nèi)存、訓(xùn)練中斷等問題。

使用NPU/CPU/NVMe自動(dòng)存儲(chǔ)優(yōu)化，復(fù)用多級(jí)存儲(chǔ)，512張顯卡可以跑10萬(wàn)億參數(shù)模型。
訓(xùn)練被意外中斷時(shí)候，觸發(fā)軟硬件協(xié)同保護(hù)，讓千億級(jí)模型在2-3分鐘內(nèi)無(wú)損修復(fù)。

開發(fā)完了之后，就到大模型下一個(gè)任務(wù)——行業(yè)應(yīng)用適配環(huán)節(jié)。

換言之，就是讓基礎(chǔ)模型來學(xué)習(xí)行業(yè)數(shù)據(jù)，以此來滿足相應(yīng)的需求。

對(duì)產(chǎn)業(yè)界來說，大模型內(nèi)部的專業(yè)參數(shù)過于復(fù)雜，不知道如何調(diào)參，調(diào)哪些參數(shù)。

昇騰MindX提供大模型微調(diào)套件，功能包括兩部分：一鍵式微調(diào)、低參數(shù)調(diào)優(yōu)。

總的來說，就是通過預(yù)置典型行業(yè)任務(wù)微調(diào)模板、小樣本學(xué)習(xí)等手段，直接凍結(jié)局部參數(shù)，自動(dòng)提示或者直接激活特定的參數(shù)。

如此一來，減少參數(shù)調(diào)優(yōu)工作量，讓下游任務(wù)靈活配置，可以快速適配到各種行業(yè)應(yīng)用之中，比如現(xiàn)在的生物醫(yī)藥、智慧城市、遙感、電力等等。

推理部署，是制約大模型應(yīng)用的一大因素。

在這方面，昇騰AI在MindStudio中提供了分布式推理服務(wù)化、模型輕量化、動(dòng)態(tài)加密部署三方面能力。

通過多機(jī)多卡分布式推理，可以大幅提高計(jì)算吞吐量，即便1000人，甚至是1萬(wàn)人都可以同時(shí)調(diào)用這個(gè)能力，不至于并發(fā)崩潰

模型輕量化是指，利用剪枝、蒸餾、量化等小型化工具，讓模型實(shí)現(xiàn)至少10倍級(jí)的壓縮率。

動(dòng)態(tài)加密部署，則是注重模型部署的安全性。為了防止黑客搬遷數(shù)據(jù)，從而反向解析模型結(jié)構(gòu)。

昇騰就提供了動(dòng)態(tài)模型混淆，對(duì)模型增加動(dòng)態(tài)密鑰，性能開銷小于5%。

最后，就是大模型的產(chǎn)業(yè)應(yīng)用落地階段。這也是當(dāng)下產(chǎn)業(yè)界最為困擾的問題。

盡管學(xué)術(shù)界的大模型呈現(xiàn)井噴之勢(shì)，但是真正走到規(guī)模化產(chǎn)業(yè)部署的，還寥寥無(wú)幾。

科研創(chuàng)新和實(shí)際應(yīng)用之間，尚存巨大鴻溝?？缭进櫆系年P(guān)鍵，還是要凝聚各方的力量。也就是打通產(chǎn)學(xué)研用之間的斷點(diǎn)，以大模型為核心，建立產(chǎn)業(yè)聯(lián)盟。

產(chǎn)業(yè)聯(lián)盟的出現(xiàn)，就是為讓產(chǎn)業(yè)的力量聚焦在一處，從而自然加快大模型創(chuàng)新、應(yīng)用孵化的步伐。在這方面，昇騰已經(jīng)打好了兩個(gè)樣板出來。

去年，圍繞武漢.LuoJia，智能遙感開源生態(tài)聯(lián)盟正式成立，匯聚企業(yè)、高校等31家成員。

以紫東.太初為核心，多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟也相應(yīng)成立，包括新華社技術(shù)局、長(zhǎng)安汽車、中國(guó)移動(dòng)等30個(gè)成員單位已經(jīng)加盟。

今年，昇騰還將支撐伙伴成立AI流體力學(xué)、 AI生物醫(yī)藥以及智慧育種領(lǐng)域的產(chǎn)業(yè)聯(lián)盟。值得一提的是，在會(huì)上，華為還發(fā)布了昇騰科研創(chuàng)新使能計(jì)劃。國(guó)內(nèi)高校和科研院所可以用上昇騰人工智能基礎(chǔ)軟硬件平臺(tái)，以此來展開創(chuàng)新大模型的開發(fā)。

從科研創(chuàng)新，到應(yīng)用開發(fā)，再到的產(chǎn)業(yè)落地，如此一來形成大模型產(chǎn)學(xué)研用生態(tài)閉環(huán)。大模型在多行業(yè)大規(guī)模應(yīng)用的節(jié)點(diǎn)，已然顯現(xiàn)。

大模型來到多行業(yè)應(yīng)用前夕

在大模型如雨后春筍誕生的另一邊，AI行業(yè)重磅玩家，紛紛基于主流AI框架，積極探索支持大模型的技術(shù)。

比如英偉達(dá)、微軟基于PyTorch，谷歌基于TensorFlow。它們不約而同地開始從并行技術(shù)、存儲(chǔ)優(yōu)化上，探索支持大模型。

其中，基于PyTorch擴(kuò)展的框架，根據(jù)Transformer定制并行策略?；赥ensorFlow的框架，也提出了算子級(jí)模型并行、MoE并行等策略。

而這些鋪墊，其實(shí)都是為了大模型的落地應(yīng)用打基礎(chǔ)。

聚焦到更為細(xì)節(jié)處。國(guó)內(nèi)已經(jīng)出現(xiàn)了垂直行業(yè)依托大模型，打造出行業(yè)產(chǎn)品的案例。

在湖南，千博信息基于紫東.太初大模型，開發(fā)出了手語(yǔ)多模態(tài)模型，開創(chuàng)性地將手語(yǔ)動(dòng)作與示意圖片和文字實(shí)現(xiàn)聯(lián)動(dòng)。

基于手語(yǔ)多模態(tài)模型，他們還開發(fā)出了手語(yǔ)教考一體機(jī)，讓聽障學(xué)生的日常學(xué)習(xí)、考試變得更為便捷。目前，一體機(jī)已經(jīng)在湘潭特校等數(shù)十個(gè)學(xué)校陸續(xù)上線。

還有像鵬程.神農(nóng)平臺(tái)已逐步進(jìn)入生物制藥行業(yè)，幫助抗菌肽快速生成，傳統(tǒng)可能需要40年的多肽生成，現(xiàn)在通過大模型和分類器，生產(chǎn)時(shí)間壓縮至數(shù)月。

種種現(xiàn)象之下，大模型向行業(yè)深入的特點(diǎn)也已開始顯現(xiàn)。

一方面，在大模型標(biāo)準(zhǔn)制定上，開始趨向于更加細(xì)分、更加垂直。在谷歌聯(lián)合442位作者、耗時(shí)2年提出的大語(yǔ)言模型新基準(zhǔn)BIG-bench中，包含了204個(gè)任務(wù)內(nèi)容涵蓋語(yǔ)言學(xué)、兒童發(fā)展、數(shù)學(xué)、常識(shí)推理、生物學(xué)、物理學(xué)、社會(huì)偏見、軟件開發(fā)等方面的問題。

另一方面，模型在開發(fā)應(yīng)用流程上，也逐漸更加規(guī)范和系統(tǒng)化。比如昇騰最近提出的大模型全流程使能體系，正是將過去幾年在各個(gè)熱點(diǎn)領(lǐng)域做的積累，全面總結(jié)并進(jìn)一步創(chuàng)新。

以進(jìn)一步牽引、規(guī)范大模型規(guī)劃、開發(fā)、應(yīng)用流程，為大模型的多行業(yè)應(yīng)用提供更為標(biāo)準(zhǔn)化的參考。

最后，在大模型多行業(yè)應(yīng)用前夕，產(chǎn)業(yè)界到底應(yīng)該如何做？參考昇騰提出的方案，可得到以下幾點(diǎn)啟示：

第一、凝聚創(chuàng)新力量，提供有序的創(chuàng)新規(guī)劃，提升技術(shù)開發(fā)的有效性。

第二、降低大模型開發(fā)、部署門檻，讓垂直行業(yè)也能輕松用上AI大模型。

第三、匯聚產(chǎn)業(yè)界力量，打通產(chǎn)學(xué)研用之間斷點(diǎn)，讓AI大模型不再被束之高閣，而是深入落地到各行各業(yè)。

一言以蔽之，共筑中國(guó)大模型生態(tài)是當(dāng)下發(fā)展之必然。

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

關(guān)注我們，第一時(shí)間獲知前沿科技動(dòng)態(tài)

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：愛收藏的烏鴉 > 《人工智能》

舉報(bào)/認(rèn)領(lǐng)