為什么這年頭,大模型可以這么火?! 這不前幾天,谷歌研究員說“AI有人格”,結(jié)果震驚整個(gè)科技圈…… 背后其實(shí)就是大模型的鍋。 在大家的認(rèn)知里,AI大模型真的很全能——能說會(huì)唱、寫詩(shī)作畫樣樣精通,甚至還能像人一樣跟你聊天。 而且性能精度和泛化能力兼具~光看最近屢次出圈的AI作畫就知道了。 既然大模型這么多好處,如果應(yīng)用到了產(chǎn)業(yè)界,這不得把企業(yè)的開發(fā)者們都給饞哭了。 一直以來,大模型似乎都是大廠、高校及科研機(jī)構(gòu)的專利。 其他企業(yè)倒也不是不能用。 且不論從規(guī)劃、開發(fā)到部署各個(gè)環(huán)節(jié)有多難,光是個(gè)中成本也不敢讓企業(yè)輕易試錯(cuò)。 從規(guī)劃到部署一個(gè)大模型到底有多難?首先從AI大模型的規(guī)劃應(yīng)用上,垂直行業(yè)就很容易遇到隔行如隔山的問題。 比如制造業(yè)中的檢驗(yàn)環(huán)節(jié)。 質(zhì)檢專業(yè)人員清楚知曉零件需要達(dá)到多少精確度、流水線的運(yùn)轉(zhuǎn)速度如何。 但問題就在于,用什么樣的AI大模型,能配合生產(chǎn)線的運(yùn)轉(zhuǎn)呢? △紫東.太初訓(xùn)練的“小初”在紡織生產(chǎn)線上聲音質(zhì)檢類似的場(chǎng)景,在電力、金融、醫(yī)藥等垂直領(lǐng)域中也會(huì)發(fā)生。 也就是說,在開發(fā)還未開始時(shí),困難就已經(jīng)找上門了。 而更大的問題,還在后面。 即便垂直領(lǐng)域企業(yè)終于明晰了自己要開發(fā)什么樣的算法,但是居高不下的開發(fā)門檻、部署成本,依舊是“攔路虎”。 要知道,大模型是應(yīng)對(duì)AI應(yīng)用碎片化趨勢(shì)的一個(gè)有效解。 傳統(tǒng)AI時(shí)代,由于模型參數(shù)量小、泛化性差,一個(gè)模型大多只能對(duì)應(yīng)單個(gè)場(chǎng)景。 動(dòng)不動(dòng)就從0開始、獨(dú)立調(diào)優(yōu)、艱難迭代、推倒重來的模式,于企業(yè)而言實(shí)在是太勞民傷財(cái)了。 由此,垂直行業(yè)的目光自然而然放到了泛化性強(qiáng)、只需要微調(diào)的大模型上。 但問題是,動(dòng)輒千億、萬(wàn)億規(guī)模的大模型,開發(fā)周期勢(shì)必會(huì)相應(yīng)拉長(zhǎng)、對(duì)開發(fā)人員的技術(shù)能力要求也更高。 到部署環(huán)節(jié)中,大模型部署成本高是業(yè)內(nèi)的重要難題。更別說還要考量硬件適配性、功耗、成本、性價(jià)比等問題。 一個(gè)個(gè)難題到來,都意味著企業(yè)想要憑一己之力煉出大模型,實(shí)在是關(guān)山難越。 或許有人會(huì)說,垂直行業(yè)面臨的問題,似乎都是AI專業(yè)能力不夠強(qiáng)導(dǎo)致的。 那AI領(lǐng)域?yàn)槭裁床荒苤苯幽贸霈F(xiàn)成可用的行業(yè)大模型? 這也就看到了行業(yè)大模型難煉的B面——垂直行業(yè)的專業(yè)知識(shí),同樣是AI技術(shù)人員的“攔路虎”。 還是從規(guī)劃部分說起。 盡管面對(duì)質(zhì)檢環(huán)節(jié),AI技術(shù)人員知道可以應(yīng)用CV算法,但算法要達(dá)到多快的識(shí)別速度?非行業(yè)人士很難知曉。 而且算法開發(fā)的重要環(huán)節(jié),就是海量數(shù)據(jù)訓(xùn)練。 一方面,如金融、保險(xiǎn)、醫(yī)藥等行業(yè)數(shù)據(jù)涉及隱私保護(hù),數(shù)據(jù)集收集會(huì)變得尤為困難。 另一方面,涉及到大量垂直領(lǐng)域?qū)I(yè)知識(shí)的數(shù)據(jù),AI領(lǐng)域技術(shù)人員將其整合為數(shù)據(jù)集的難度也進(jìn)一步升高。 最后回到部署上。 想要與實(shí)際生產(chǎn)環(huán)節(jié)緊密配合、讓AI算法實(shí)現(xiàn)更大價(jià)值,如果沒有對(duì)應(yīng)行業(yè)內(nèi)人士的意見參考,AI技術(shù)人員也是束手無(wú)策。 最終可能算法性能卓越,但卻走不出實(shí)驗(yàn)室。 綜上幾點(diǎn)不難看出,大模型在產(chǎn)業(yè)界落地遇到的問題,是貫穿開發(fā)應(yīng)用全流程的,而且要集合AI行業(yè)和對(duì)應(yīng)專業(yè)領(lǐng)域的智慧,共同解決這些困難。 怎么做?當(dāng)下產(chǎn)業(yè)界、AI界的目光,自然而然聚焦于此。 大模型全流程使能體系,了解一下?AI大廠作為技術(shù)輸送方,對(duì)AI大模型的特點(diǎn)、容易遇到的問題和困難,自然有著更為深入的了解。 剛好在華為開發(fā)者大會(huì)上,華為昇騰給出了一套生態(tài)構(gòu)建方案—— 大模型全流程使能體系。 雖說是大模型生態(tài)構(gòu)建方案,但仔細(xì)一看,無(wú)論是整體體系、還是流程開發(fā)套件,核心思想都是降低AI大模型開發(fā)、應(yīng)用門檻,都是直擊企業(yè)和開發(fā)者的痛點(diǎn)。 整個(gè)體系很清晰,直接按照流程劃分,分成規(guī)劃、開發(fā)和部署三個(gè)環(huán)節(jié)。 每個(gè)環(huán)節(jié),都有相應(yīng)的支撐。 首先是規(guī)劃環(huán)節(jié)。 當(dāng)前大模型最前沿主要在這幾個(gè)方向,以華為云盤古CV大模型為代表的計(jì)算機(jī)視覺、以鵬程.盤古為代表的自然語(yǔ)言處理、還有紫東·太初為代表的多模態(tài)、語(yǔ)音、博弈智能、人工智能科學(xué)計(jì)算。 但對(duì)于產(chǎn)業(yè)界來說,具體到現(xiàn)實(shí)落地需要什么,就成為一個(gè)不可忽略的問題。大模型沙盤正是來規(guī)劃和牽引產(chǎn)業(yè)界的企業(yè)做出需要的大模型。 此前,基于昇騰AI的能力,業(yè)內(nèi)就已經(jīng)先后推出華為云盤古系列、鵬程.盤古、鵬程.神農(nóng)、紫東.太初、武漢.Luojia等有影響力的大模型。 接著就是最為關(guān)鍵的開發(fā)環(huán)節(jié)。 前面提到,企業(yè)要想開發(fā)一個(gè)大模型,需要考慮基礎(chǔ)開發(fā)、行業(yè)適配、實(shí)際部署等問題。 這一次,華為直接給出了大模型開發(fā)使能平臺(tái),覆蓋從數(shù)據(jù)準(zhǔn)備、基礎(chǔ)模型開發(fā)、行業(yè)應(yīng)用適配到推理部署一整個(gè)開發(fā)流程都給安排上了。 核心發(fā)布了三個(gè)套件:大模型開發(fā)套件、大模型微調(diào)套件以及大模型部署套件。 大模型開發(fā)套件,昇思MindSpore與ModelArts結(jié)合既提供了像算法開發(fā)基礎(chǔ)能力,還具備了像并行計(jì)算、存儲(chǔ)優(yōu)化、斷點(diǎn)續(xù)訓(xùn)這種特殊能力。 在算法開發(fā)這塊上,昇思MindSpore提供了易用編程API,既能滿足多種需求,算法還特別簡(jiǎn)單。百行代碼就可以實(shí)現(xiàn)千億參數(shù)Transformer模型開發(fā)。 至于并行計(jì)算能力,自然是昇思MindSpore的傳統(tǒng)藝能了,昇思提供的數(shù)據(jù)并行、模型并行、流水并行、優(yōu)化器并行、子圖并行等業(yè)界領(lǐng)先的6維混合并行計(jì)算技術(shù),開發(fā)者只需一行代碼就能實(shí)現(xiàn)模型自動(dòng)切分、分布式并行計(jì)算。 而存儲(chǔ)優(yōu)化、斷點(diǎn)續(xù)訓(xùn)則是針對(duì)日常訓(xùn)練時(shí)遇到耗內(nèi)存、訓(xùn)練中斷等問題。
開發(fā)完了之后,就到大模型下一個(gè)任務(wù)——行業(yè)應(yīng)用適配環(huán)節(jié)。 換言之,就是讓基礎(chǔ)模型來學(xué)習(xí)行業(yè)數(shù)據(jù),以此來滿足相應(yīng)的需求。 對(duì)產(chǎn)業(yè)界來說,大模型內(nèi)部的專業(yè)參數(shù)過于復(fù)雜,不知道如何調(diào)參,調(diào)哪些參數(shù)。 昇騰MindX提供大模型微調(diào)套件,功能包括兩部分:一鍵式微調(diào)、低參數(shù)調(diào)優(yōu)。 總的來說,就是通過預(yù)置典型行業(yè)任務(wù)微調(diào)模板、小樣本學(xué)習(xí)等手段,直接凍結(jié)局部參數(shù),自動(dòng)提示或者直接激活特定的參數(shù)。 如此一來,減少參數(shù)調(diào)優(yōu)工作量,讓下游任務(wù)靈活配置,可以快速適配到各種行業(yè)應(yīng)用之中,比如現(xiàn)在的生物醫(yī)藥、智慧城市、遙感、電力等等。 推理部署,是制約大模型應(yīng)用的一大因素。 在這方面,昇騰AI在MindStudio中提供了分布式推理服務(wù)化、模型輕量化、動(dòng)態(tài)加密部署三方面能力。 通過多機(jī)多卡分布式推理,可以大幅提高計(jì)算吞吐量,即便1000人,甚至是1萬(wàn)人都可以同時(shí)調(diào)用這個(gè)能力,不至于并發(fā)崩潰 模型輕量化是指,利用剪枝、蒸餾、量化等小型化工具,讓模型實(shí)現(xiàn)至少10倍級(jí)的壓縮率。 動(dòng)態(tài)加密部署,則是注重模型部署的安全性。為了防止黑客搬遷數(shù)據(jù),從而反向解析模型結(jié)構(gòu)。 昇騰就提供了動(dòng)態(tài)模型混淆,對(duì)模型增加動(dòng)態(tài)密鑰,性能開銷小于5%。 最后,就是大模型的產(chǎn)業(yè)應(yīng)用落地階段。這也是當(dāng)下產(chǎn)業(yè)界最為困擾的問題。 盡管學(xué)術(shù)界的大模型呈現(xiàn)井噴之勢(shì),但是真正走到規(guī)模化產(chǎn)業(yè)部署的,還寥寥無(wú)幾。 科研創(chuàng)新和實(shí)際應(yīng)用之間,尚存巨大鴻溝??缭进櫆系年P(guān)鍵,還是要凝聚各方的力量。也就是打通產(chǎn)學(xué)研用之間的斷點(diǎn),以大模型為核心,建立產(chǎn)業(yè)聯(lián)盟。 產(chǎn)業(yè)聯(lián)盟的出現(xiàn),就是為讓產(chǎn)業(yè)的力量聚焦在一處,從而自然加快大模型創(chuàng)新、應(yīng)用孵化的步伐。在這方面,昇騰已經(jīng)打好了兩個(gè)樣板出來。 去年,圍繞武漢.LuoJia,智能遙感開源生態(tài)聯(lián)盟正式成立,匯聚企業(yè)、高校等31家成員。 以紫東.太初為核心,多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟也相應(yīng)成立,包括新華社技術(shù)局、長(zhǎng)安汽車、中國(guó)移動(dòng)等30個(gè)成員單位已經(jīng)加盟。 今年,昇騰還將支撐伙伴成立AI流體力學(xué)、 AI生物醫(yī)藥以及智慧育種領(lǐng)域的產(chǎn)業(yè)聯(lián)盟。值得一提的是,在會(huì)上,華為還發(fā)布了昇騰科研創(chuàng)新使能計(jì)劃。國(guó)內(nèi)高校和科研院所可以用上昇騰人工智能基礎(chǔ)軟硬件平臺(tái),以此來展開創(chuàng)新大模型的開發(fā)。 從科研創(chuàng)新,到應(yīng)用開發(fā),再到的產(chǎn)業(yè)落地,如此一來形成大模型產(chǎn)學(xué)研用生態(tài)閉環(huán)。大模型在多行業(yè)大規(guī)模應(yīng)用的節(jié)點(diǎn),已然顯現(xiàn)。 大模型來到多行業(yè)應(yīng)用前夕在大模型如雨后春筍誕生的另一邊,AI行業(yè)重磅玩家,紛紛基于主流AI框架,積極探索支持大模型的技術(shù)。 比如英偉達(dá)、微軟基于PyTorch,谷歌基于TensorFlow。它們不約而同地開始從并行技術(shù)、存儲(chǔ)優(yōu)化上,探索支持大模型。 其中,基于PyTorch擴(kuò)展的框架,根據(jù)Transformer定制并行策略?;赥ensorFlow的框架,也提出了算子級(jí)模型并行、MoE并行等策略。 而這些鋪墊,其實(shí)都是為了大模型的落地應(yīng)用打基礎(chǔ)。 聚焦到更為細(xì)節(jié)處。國(guó)內(nèi)已經(jīng)出現(xiàn)了垂直行業(yè)依托大模型,打造出行業(yè)產(chǎn)品的案例。 在湖南,千博信息基于紫東.太初大模型,開發(fā)出了手語(yǔ)多模態(tài)模型,開創(chuàng)性地將手語(yǔ)動(dòng)作與示意圖片和文字實(shí)現(xiàn)聯(lián)動(dòng)。 基于手語(yǔ)多模態(tài)模型,他們還開發(fā)出了手語(yǔ)教考一體機(jī),讓聽障學(xué)生的日常學(xué)習(xí)、考試變得更為便捷。目前,一體機(jī)已經(jīng)在湘潭特校等數(shù)十個(gè)學(xué)校陸續(xù)上線。 還有像鵬程.神農(nóng)平臺(tái)已逐步進(jìn)入生物制藥行業(yè),幫助抗菌肽快速生成,傳統(tǒng)可能需要40年的多肽生成,現(xiàn)在通過大模型和分類器,生產(chǎn)時(shí)間壓縮至數(shù)月。 種種現(xiàn)象之下,大模型向行業(yè)深入的特點(diǎn)也已開始顯現(xiàn)。 一方面,在大模型標(biāo)準(zhǔn)制定上,開始趨向于更加細(xì)分、更加垂直。在谷歌聯(lián)合442位作者、耗時(shí)2年提出的大語(yǔ)言模型新基準(zhǔn)BIG-bench中,包含了204個(gè)任務(wù)內(nèi)容涵蓋語(yǔ)言學(xué)、兒童發(fā)展、數(shù)學(xué)、常識(shí)推理、生物學(xué)、物理學(xué)、社會(huì)偏見、軟件開發(fā)等方面的問題。 另一方面,模型在開發(fā)應(yīng)用流程上,也逐漸更加規(guī)范和系統(tǒng)化。比如昇騰最近提出的大模型全流程使能體系,正是將過去幾年在各個(gè)熱點(diǎn)領(lǐng)域做的積累,全面總結(jié)并進(jìn)一步創(chuàng)新。 以進(jìn)一步牽引、規(guī)范大模型規(guī)劃、開發(fā)、應(yīng)用流程,為大模型的多行業(yè)應(yīng)用提供更為標(biāo)準(zhǔn)化的參考。 最后,在大模型多行業(yè)應(yīng)用前夕,產(chǎn)業(yè)界到底應(yīng)該如何做?參考昇騰提出的方案,可得到以下幾點(diǎn)啟示: 第一、凝聚創(chuàng)新力量,提供有序的創(chuàng)新規(guī)劃,提升技術(shù)開發(fā)的有效性。 第二、降低大模型開發(fā)、部署門檻,讓垂直行業(yè)也能輕松用上AI大模型。 第三、匯聚產(chǎn)業(yè)界力量,打通產(chǎn)學(xué)研用之間斷點(diǎn),讓AI大模型不再被束之高閣,而是深入落地到各行各業(yè)。 一言以蔽之,共筑中國(guó)大模型生態(tài)是當(dāng)下發(fā)展之必然。 — 完 — 量子位 QbitAI · 頭條號(hào)簽約 關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài) |
|