金磊 夢(mèng)晨 假裝發(fā)自 張北縣 量子位 | 公眾號(hào) QbitAI“全球最強(qiáng)智算”王座,剛剛易主。 來(lái)自中國(guó)河北省張北縣的“中國(guó)選手”,一舉擊敗谷歌。 △圖:張北縣草原而其所憑借的算力值,每秒浮點(diǎn)運(yùn)算次數(shù)已經(jīng)高達(dá)12EFLOPS(百億億次)。 相比之下,谷歌單集群算力峰值是9EFLOPS,特斯拉也僅有1.9EFLOPS。 那么張北縣的這個(gè)“速度”,到底有多快? 舉個(gè)例子。 以前要訓(xùn)練一個(gè)自動(dòng)駕駛的模型,大概需要花費(fèi)的時(shí)間是7天。 而在“全球最強(qiáng)算力”加持之下,這個(gè)時(shí)間直接縮短到了1小時(shí)之內(nèi),整整提速了將近170倍! 智算,即為人工智能專門提供的AI算力。這個(gè)“全球最強(qiáng)智算”的廬山真面目,正是來(lái)自位于河北省張北縣的阿里云飛天智算平臺(tái)所啟用的張北智算中心。 而且這個(gè)智算中心不僅是在AI算力上取得第一這么簡(jiǎn)單,據(jù)了解,這個(gè)智算中心還“解鎖”了如下能力: 千卡并行效率達(dá)90%以上,計(jì)算資源利用率可提升3倍 最高可將存儲(chǔ)IO性能提升10倍,將系統(tǒng)時(shí)延顯著降低90% 最多可提升AI訓(xùn)練效率11倍,推理效率6倍 PUE最低降至1.09,建設(shè)占地面積節(jié)省90%
而且這些AI算力,正在帶來(lái)一個(gè)更加智能化的日常。 如此智算都用在了哪里?首先就是剛才提到的自動(dòng)駕駛。 此前,阿里云便和小鵬汽車打造了中國(guó)最大的自動(dòng)駕駛智算中心“扶搖”。 而這也是國(guó)內(nèi)第一個(gè)投入實(shí)際運(yùn)營(yíng)的,專為自動(dòng)駕駛服務(wù)的超大智能算力集群。 也正如其名,“扶搖”之意,是指阿里云提供的超大算力和AI研發(fā)工具鏈,能讓小鵬汽車的自動(dòng)駕駛技術(shù)的迭代效率“直上九天”。 總體而言,“扶搖”具備兩大特征。 首先就是以超大規(guī)模GPU算力作為AI模型迭代的基礎(chǔ)。 這是因?yàn)樽詣?dòng)駕駛、或者說(shuō)智能汽車上的核心功能,其實(shí)都是AI,是大規(guī)模的深度學(xué)習(xí)算法。 而無(wú)論是訓(xùn)練,還是測(cè)試這樣的模型,扮演主角的不再是傳統(tǒng)CPU的邏輯推理能力,而是以AI加速器為主的浮點(diǎn)計(jì)算能力,GPU則是當(dāng)前AI加速器的主流。 其次,便是提供了針對(duì)自動(dòng)駕駛應(yīng)用特征的計(jì)算集群、性能加速軟件和AI大數(shù)據(jù)一體式平臺(tái),使得模型訓(xùn)練速度、GPU資源利用率和算法研發(fā)效能都大大提升。 據(jù)了解,目前已經(jīng)建成交付的扶搖智算中心,總算力達(dá)到600PFLOPS,即每秒進(jìn)行6x1017次浮點(diǎn)運(yùn)算。 整體計(jì)算效率上,扶搖實(shí)現(xiàn)了算力的線性擴(kuò)展。存儲(chǔ)吞吐比業(yè)界20GB/s的普遍水準(zhǔn)提升了40倍,數(shù)據(jù)傳輸能力相當(dāng)于從送快遞的微型面包車,換成了20多米長(zhǎng)的40噸集裝箱重卡。 這也就是自動(dòng)駕駛核心模型訓(xùn)練時(shí)間,能夠由7天縮短至1小時(shí)內(nèi)的主要原因。 而自動(dòng)駕駛,只是飛天智算中心應(yīng)用的場(chǎng)景之一。 在科研領(lǐng)域,也早已處于“上崗”狀態(tài)。 北京大學(xué)化學(xué)與分子工程學(xué)院便利用阿里云的智能算力,將靶向藥研究數(shù)據(jù)集計(jì)算效率提升了100倍。 此前算法依賴的是單機(jī)式算力,受限于軟硬件的限制,往往系統(tǒng)整體性能偏低,無(wú)法滿足快速增長(zhǎng)的算力需求。而通過(guò)集群進(jìn)行并行計(jì)算,能讓算力規(guī)模不再成為掣肘。 不過(guò)有一說(shuō)一,算力這個(gè)東西,其實(shí)通過(guò)自行購(gòu)買GPU搭建集群的方式便可以獲取,而且此前行業(yè)內(nèi)普遍的做法也是如此。 那么為什么諸多領(lǐng)域現(xiàn)在都開(kāi)始時(shí)興采用智算中心了呢? 這是因?yàn)榻陙?lái),不論是自動(dòng)駕駛、元宇宙,亦或是生命科學(xué)天文學(xué),各類科研和產(chǎn)業(yè)應(yīng)用的發(fā)展,都越發(fā)具備數(shù)智驅(qū)動(dòng)的趨勢(shì),這種情況下算的更快往往就是核心優(yōu)勢(shì),算力成為了絕對(duì)的生產(chǎn)力。 基于如此現(xiàn)狀,智能計(jì)算可以提供更加多元化的算力服務(wù),逐漸成為了主流選擇。 但智能計(jì)算不同于通用型計(jì)算,需要海量數(shù)據(jù)對(duì)AI模型進(jìn)行訓(xùn)練,算力往往在模型參數(shù)更新、數(shù)據(jù)遷移等環(huán)節(jié)被消耗,千卡以上規(guī)模僅有40%的有效算力輸出,甚至出現(xiàn)計(jì)算卡越多,總體性能越差的情況。 這便導(dǎo)致了規(guī)?;乃懔Φ墨@取困難,不僅硬件成本昂貴,而且還需要專業(yè)的技術(shù)從系統(tǒng)架構(gòu)、軟件等方面進(jìn)行深度重構(gòu)和優(yōu)化,自建智算中心,成本和時(shí)間便成為了最大的敵人。 以自動(dòng)駕駛為例,復(fù)雜路況下的復(fù)雜決策能力,包括識(shí)別紅綠燈、路口、行車車輛等等,其實(shí)已經(jīng)進(jìn)入L3-L4級(jí)范圍。 按照如此迭代速度,未來(lái)3-5年,自動(dòng)駕駛研發(fā)很快會(huì)進(jìn)入較為成熟的L4級(jí)甚至是L5級(jí),迭代所需算力規(guī)模也會(huì)快速上升到只有“智算中心”才能滿足。 算力需求的指數(shù)級(jí)膨脹,造成目前自動(dòng)駕駛玩家的“算力”焦慮越來(lái)越嚴(yán)重。 因此,當(dāng)下自動(dòng)駕駛對(duì)于智算中心的需求,其實(shí)是為保持持續(xù)的技術(shù)領(lǐng)先優(yōu)勢(shì)做儲(chǔ)備。 而飛天智算中心便在拿下全球第一速度之外,還規(guī)避了諸多傳統(tǒng)高性能計(jì)算固有的疑難雜癥。 為了解開(kāi)這些疑難,阿里連頂會(huì)最佳論文都沒(méi)少拿。 “全球最強(qiáng)”背后的一套功法秘密就藏在背后的飛天智算平臺(tái): 一個(gè)可以持續(xù)進(jìn)化的智能算力系統(tǒng)。
換句話說(shuō),做智算中心不能僅考慮基礎(chǔ)設(shè)施和硬件,也要考慮其上運(yùn)行的軟件平臺(tái)、算法和服務(wù)。 這其中最重要的是做到軟硬一體,通過(guò)“打磨”讓軟件和硬件在一個(gè)平臺(tái)中真正相互融合。 首先,要做到單集群12EFLOPS的算力峰值,僅靠單塊芯片無(wú)法完成,就需要考慮并行效率的問(wèn)題。 如果在一臺(tái)普通電腦里裝兩張相同的游戲顯卡,大概只能獲得75%的性能,也就是花了兩份錢只享受到一份半的效果。 類似的問(wèn)題在智算中心也存在,而且更嚴(yán)重。因?yàn)橐玫缴锨圙PU做并行計(jì)算,算力輸出最低往往僅有40%左右。花一千份的錢,只享受四百份的效果,虧大了。 那么在飛天智算平臺(tái),千卡并行的效率可以做到多少呢? 90%。
要做到這一點(diǎn),最關(guān)鍵的就是減少非計(jì)算部分的開(kāi)銷——上圖里的阿里云靈駿智能計(jì)算就是干這事的。 △采用浸沒(méi)式液冷的靈駿智能計(jì)算,Pue低至1.09此外,還需要分布式并行計(jì)算框架、混合精度、數(shù)據(jù)通信的優(yōu)化、I/O的優(yōu)化等,都需要在業(yè)務(wù)實(shí)踐中反復(fù)打磨、相互配合才能做到極致的優(yōu)化。 除了GPU之外,構(gòu)建如此大規(guī)模算力也少不了異構(gòu)計(jì)算。 飛天智算平臺(tái)適配多種芯片架構(gòu),支持X86、ARM、GPU、NPU等多種處理器混合部署和統(tǒng)一調(diào)度。 據(jù)靈駿產(chǎn)品研發(fā)負(fù)責(zé)人曹政透露,為了支持國(guó)產(chǎn)化芯片的生態(tài)發(fā)展,在云服務(wù)的領(lǐng)域他們甚至做到了比廠商更好的性能調(diào)優(yōu)。 那么,這種“打磨”的能力從何而來(lái)? 源于阿里多年的業(yè)務(wù)實(shí)踐。 拿淘寶來(lái)說(shuō),商品搜索、智能客服、千人千面的個(gè)性化推薦等,平均每天需要處理10億張圖像、120萬(wàn)小時(shí)視頻、55萬(wàn)小時(shí)語(yǔ)音和5000億句自然語(yǔ)言。 每逢618、雙11大促,更是要面對(duì)峰值負(fù)載的考驗(yàn),多年來(lái)已沉淀出適應(yīng)實(shí)際需求的技術(shù)體系和最佳工程實(shí)踐。 在AI開(kāi)發(fā)層,阿里云還有兩個(gè)殺手锏:PAI-EPL和PAI-Blade。 前者能夠支撐萬(wàn)億級(jí)參數(shù)的大模型訓(xùn)練,提供了包括數(shù)據(jù)并行、模型并行、流水并行在內(nèi)的豐富的分布式訓(xùn)練能力。 在內(nèi)部測(cè)試中,PAI-EPL只用了512張 GPU就完成了M6萬(wàn)億模型的訓(xùn)練,大幅降低了超大模型訓(xùn)練的成本,將訓(xùn)練效率提升了11倍以上。 PAI-Blade則為用戶提供了一站式的通用推理優(yōu)化工具,對(duì)算法模型進(jìn)行量化、剪枝、稀疏化、蒸餾等操作,盡量避免用戶改模型代碼,可將推理效率提升6倍以上,極大地方便用戶使用。 這些綜合技術(shù)整合到一起,就成了飛天智算平臺(tái)軟硬一體能力的來(lái)源。 除了智算中心自身軟硬件之外,其上運(yùn)行的算法和智能服務(wù)也是飛天智算平臺(tái)中的重要能力。 全鏈路AI開(kāi)發(fā)工具與大數(shù)據(jù)服務(wù),包括阿里云大數(shù)據(jù) AI一體化產(chǎn)品體系,集合了機(jī)器學(xué)習(xí)平臺(tái)PAI、大數(shù)據(jù)開(kāi)發(fā)與治理平臺(tái)DataWorks、MaxCompute、Hologres、Flink等計(jì)算引擎實(shí)現(xiàn)架構(gòu)統(tǒng)一。 如此一來(lái),可適用于多種AI場(chǎng)景的計(jì)算和開(kāi)發(fā)需求,包括科學(xué)研究、精準(zhǔn)醫(yī)學(xué)、氣象預(yù)報(bào)、數(shù)字孿生、自動(dòng)駕駛等多種場(chǎng)景。最多可提升AI訓(xùn)練效率11倍,推理效率6倍。 另外說(shuō)到智能算法也別忘了達(dá)摩院。據(jù)介紹,達(dá)摩院開(kāi)源的M6大模型從誕生之初就與飛天智算平臺(tái)一起生長(zhǎng),相互配合起來(lái)更能發(fā)揮出彼此的實(shí)力。 最后,綠色低碳也是飛天智算中心的優(yōu)勢(shì)之一。 對(duì)于大型算力中心來(lái)說(shuō),衡量綠色化程度的一個(gè)重要指標(biāo)是能源利用效率(PUE, Power Usage Effectiveness)。 根據(jù)《2021年中國(guó)數(shù)據(jù)中心市場(chǎng)報(bào)告》,2021年全國(guó)數(shù)據(jù)中心平均PUE為1.49,華北地區(qū)平均約為1.40。 這意味著IT設(shè)備每消耗1度電,就有額外的0.9度電用于散熱、供配電系統(tǒng)本身的消耗、照明等其他用途。 而張北智算中心采用了行業(yè)獨(dú)有的單相浸沒(méi)式液冷解決方案,將服務(wù)器泡在特殊冷卻液里,PUE最低可以達(dá)到1.09,行業(yè)領(lǐng)先。 △圖:阿里云浸沒(méi)式液冷服務(wù)器此外,AI調(diào)溫和模塊化設(shè)計(jì)等都起到了關(guān)鍵作用。 不僅如此,智算中心選址在張北還可以利用起當(dāng)?shù)爻渥愕墓夥惋L(fēng)電資源,做到100%使用清潔能源。 不過(guò)為了克服光伏和風(fēng)力發(fā)電不穩(wěn)定的問(wèn)題,也需要更強(qiáng)大的供配電技術(shù)來(lái)保障。 如何評(píng)價(jià)全球智算王座易主?縱向看時(shí)間。 兩年前,阿里首次公開(kāi)自研AI集群細(xì)節(jié),那篇論文還被計(jì)算機(jī)體系結(jié)構(gòu)頂級(jí)會(huì)議HPCA 2020收錄。 不過(guò)在多年來(lái)一直參與平臺(tái)建設(shè)的曹政看來(lái),當(dāng)年團(tuán)隊(duì)把注意力單純的集中在了技術(shù)上。 如今升級(jí)擴(kuò)展到智算平臺(tái),除了規(guī)模擴(kuò)大,技術(shù)進(jìn)化以外,還更看重產(chǎn)品、服務(wù),看重智算平臺(tái)能否真正順滑的與生產(chǎn)流程相結(jié)合。 橫向看對(duì)比。 建設(shè)大規(guī)模智能算力有幾類玩家,云計(jì)算公司、AI算法公司、硬件公司。 阿里在其中是一種比較特別的存在,既有自研云計(jì)算技術(shù)體系,又有內(nèi)部AI業(yè)務(wù)的大量實(shí)踐,最近又開(kāi)始涉足自研芯片。 如此打造出來(lái)的智算平臺(tái)高度自主可控,既能以此為藍(lán)本不斷復(fù)制出新的智算中心,又能在服務(wù)不同行業(yè)時(shí)低成本遷移。 如專為小鵬汽車定制打造的烏蘭察布智算中心便是很好的例證。 如果把目光拉遠(yuǎn),更大的圖景在于數(shù)字化升級(jí)、智能化轉(zhuǎn)型。 這些年來(lái),智算中心的服務(wù)對(duì)象從大型技術(shù)公司、AI算法初創(chuàng)公司,逐漸擴(kuò)展到自動(dòng)駕駛、AI for Science等交叉行業(yè)。 隨著智能化轉(zhuǎn)型逐漸深入,不久的將來(lái)還要服務(wù)于農(nóng)業(yè)、制造業(yè)、能源、物流這些離IT技術(shù)更遠(yuǎn)的行業(yè),而越是這樣的行業(yè)就越是需要端到端的解決方案。 從這一點(diǎn)來(lái)看,強(qiáng)調(diào)“打磨”、“順滑”的飛天智算平臺(tái),再一次“幸運(yùn)地”引領(lǐng)了時(shí)代趨勢(shì)。 點(diǎn)這里??關(guān)注我,記得標(biāo)星哦~
|