新型智算中心組網(wǎng)方案研究

yi321yi 2024-07-08 發(fā)布于江蘇

展開全文

摘要

當(dāng)前算力需求爆發(fā)式增長，通用計算也朝著人工智能計算的方向演進(jìn)，新型智算中心網(wǎng)絡(luò)作為算力間數(shù)據(jù)交互的中心，成為影響算力性能發(fā)揮的關(guān)鍵。分析了智算中心對網(wǎng)絡(luò)的需求，對網(wǎng)絡(luò)協(xié)議、架構(gòu)和運維管理等方面進(jìn)行了深入研究，并結(jié)合業(yè)界發(fā)展情況，給出了智算中心組網(wǎng)方案的建議。

0 1

智算中心的重要性及組網(wǎng)挑戰(zhàn)

算力是數(shù)字經(jīng)濟(jì)時代的核心生產(chǎn)力，是推動經(jīng)濟(jì)發(fā)展的新引擎。隨著元宇宙、ChatGPT等業(yè)務(wù)的興起，語言處理、機(jī)器視覺、自動駕駛等多個領(lǐng)域借助強(qiáng)大的數(shù)據(jù)計算能力，取得了長足的發(fā)展。相較于傳統(tǒng)云計算、超算中心，智算中心更能滿足日益豐富的人工智能算力需求，未來80%的場景所使用的算力資源都將由智算中心承載^［1］。而參數(shù)量巨大的AI模型，對智能算力的需求飛速提升，根據(jù)IDC評估報告，預(yù)計2021年—2026年，中國智能算力規(guī)模年復(fù)合增長率達(dá)52.3%^［2］。例如，目前L2級別的自動駕駛通常需要數(shù)百TOPS的算力，但要想真正實現(xiàn)L4/L5級別的自動駕駛，至少需要20 000+TOPS的算力。

受制于芯片材料、工藝、成本等因素，算力的增長速度逐漸放緩^［3］，與算力需求存在極大差異，這也推動了芯片新技術(shù)以及異構(gòu)算力的發(fā)展。以GPU、類腦芯片為代表的異構(gòu)算力的崛起表明未來計算數(shù)據(jù)將在最合適的地方，以最合適的算力來處理。同時，當(dāng)單臺服務(wù)器的算力無法滿足業(yè)務(wù)需求時，可使用分布式訓(xùn)練的智算集群，通過多臺服務(wù)器以及算法優(yōu)化的并行方式構(gòu)建出一個計算能力和顯存能力超大的集群，來應(yīng)對大模型訓(xùn)練中算力和內(nèi)存的瓶頸。大模型訓(xùn)練一般采用并行模式，連接集群的網(wǎng)絡(luò)決定了智算節(jié)點設(shè)備間的通信效率，進(jìn)而影響整個智算集群的算力性能和數(shù)據(jù)吞吐量，這對數(shù)據(jù)中心網(wǎng)絡(luò)提出了新挑戰(zhàn)，具體如下。

a）零丟包。智算集群對丟包十分敏感，如果網(wǎng)絡(luò)故障不能被快速定位并傳遞到終端進(jìn)行源端行為控制，輕則需要回退到上一個分布式訓(xùn)練的斷點進(jìn)行重訓(xùn)，重則可能要將整個任務(wù)從零開始重訓(xùn)。0.1%的丟包會使算力性能下降50%，1次訓(xùn)練中斷會增加4 h的訓(xùn)練時長。因此，網(wǎng)絡(luò)穩(wěn)定性對分布式訓(xùn)練任務(wù)非常重要，也是當(dāng)前數(shù)據(jù)中心網(wǎng)絡(luò)的最大短板。

b）低時延。傳統(tǒng)TCP/IP網(wǎng)絡(luò)中，發(fā)送端給接收端發(fā)消息實際上是把發(fā)送端內(nèi)存中的一段數(shù)據(jù)，通過數(shù)據(jù)中心網(wǎng)絡(luò)傳送到接收端的內(nèi)存中。無論是發(fā)送端還是接收端，在報文傳輸過程中都需要調(diào)用CPU，復(fù)雜的報文處理流程使CPU顯得力不從心，同時造成節(jié)點間通信時間變長。

c）大帶寬。在并行計算模型中，單個計算節(jié)點完成計算任務(wù)后，需要快速地將計算結(jié)果同步給其他節(jié)點，以便進(jìn)行下一輪計算；而在完成計算結(jié)果數(shù)據(jù)同步前，計算節(jié)點會一直處于等待狀態(tài)。在大模型并行計算中，計算節(jié)點之間同步的數(shù)據(jù)量非常大，并且大部分是瞬時脈沖流量，如果網(wǎng)絡(luò)帶寬不足，數(shù)據(jù)傳輸就會變慢，進(jìn)而影響訓(xùn)練效率。

0 2

智算中心組網(wǎng)技術(shù)研究

2.1 協(xié)議層——無損網(wǎng)絡(luò)

遠(yuǎn)程直接內(nèi)存訪問（Remote Direct Memory Access，RDMA）可以使服務(wù)器直接高速讀寫其他服務(wù)器的內(nèi)存數(shù)據(jù)，不需要經(jīng)過操作系統(tǒng)/CPU/GPU的處理，成為解決智算中心組網(wǎng)問題的優(yōu)選方案。RDMA主要流程是本端服務(wù)器RDMA網(wǎng)卡從內(nèi)存中拷貝用戶空間數(shù)據(jù)到內(nèi)部存儲空間，通過網(wǎng)卡自身進(jìn)行報文封裝后，使用物理鏈路發(fā)送到對端服務(wù)器，對端服務(wù)器RDMA網(wǎng)卡接收到報文后進(jìn)行解封裝，再將數(shù)據(jù)拷貝到內(nèi)存的用戶空間中，RDMA網(wǎng)絡(luò)下服務(wù)器轉(zhuǎn)發(fā)報文的路徑如圖1所示。

圖1 RDMA網(wǎng)絡(luò)下服務(wù)器轉(zhuǎn)發(fā)報文的路徑

RDMA的主要優(yōu)勢包括2點。

a）零拷貝，即不需要在內(nèi)核空間和用戶空間之間重復(fù)拷貝數(shù)據(jù)。

b）CPU/GPU卸載。由RDMA網(wǎng)卡實現(xiàn)報文封裝和解析，CPU/GPU芯片無需參與內(nèi)存讀寫、報文處理等工作，減少對芯片的開銷。

隨著AI大模型并行計算對高可靠、低時延、大帶寬網(wǎng)絡(luò)需求的增長，RDMA逐步在高性能數(shù)據(jù)中心中被推廣應(yīng)用。根據(jù)Uber發(fā)布的測試數(shù)據(jù)，在128塊GPU和25GE網(wǎng)卡的配置環(huán)境下，進(jìn)行VGG-16模型（網(wǎng)絡(luò)深度為16的卷積神經(jīng)網(wǎng)絡(luò)）訓(xùn)練時，使用RDMA的處理性能比使用TCP高出30%，因此RDMA成為智算中心網(wǎng)絡(luò)的最佳選擇之一。RDMA的主要實現(xiàn)方案如下。

a）InfiniBand（以下簡稱IB）協(xié)議。IB是一個完整的網(wǎng)絡(luò)協(xié)議，它單獨定義了1～4層的報文格式?；赾redit信令機(jī)制，發(fā)送端在確認(rèn)接收端有足夠額度可以接收對應(yīng)數(shù)量的報文后，才會進(jìn)行報文發(fā)送，從根本上避免了報文在傳輸過程中從緩沖區(qū)溢出導(dǎo)致丟包的情況，實現(xiàn)了無損網(wǎng)絡(luò)。IB在物理層定義了多種鏈路速度，例如1X、4X、12X，每種類型的鏈路使用四線串行差分連接，網(wǎng)絡(luò)帶寬升級到了NDR（單速率為100 Gbit/s）、XDR（單速率為 200 Gbit/s）和GDR（單速率為400 Gbit/s）。此外，IB協(xié)議需使用專用的IB交換機(jī)、網(wǎng)卡和線纜。

b）RoCEv1。RDMA over Converged Ethernet是一種在以太網(wǎng)上進(jìn)行RDMA的網(wǎng)絡(luò)通信協(xié)議，而RoCEv1協(xié)議保留了IB協(xié)議的應(yīng)用程序接口、傳輸層和網(wǎng)絡(luò)層，將鏈路層和物理層替換為以太網(wǎng)協(xié)議。由于缺少IP路由功能，RoCEv1數(shù)據(jù)包只能在二層網(wǎng)絡(luò)中傳輸。

c）RoCEv2。RoCEv2將IB的網(wǎng)絡(luò)層、鏈路層和物理層替換為以太網(wǎng)協(xié)議，將RDMA應(yīng)用數(shù)據(jù)封裝到UDP報文中，再加上IP、以太網(wǎng)報文頭，使報文可以在以太網(wǎng)中進(jìn)行傳輸，并通過基于優(yōu)先級的流量控制（Priority-based Flow Control，PFC）、顯示擁塞通知（Explicit Congestion Notification，ECN）等流控機(jī)制，保證發(fā)送端和接收端速率匹配。RoCEv2通過普通的以太網(wǎng)交換機(jī)搭配支持RoCEv2的網(wǎng)卡實現(xiàn)，但對設(shè)備性能消耗較大。

d）iWARP。與RoCE協(xié)議繼承IB不同，iWARP自成一派，遵循IETF協(xié)議標(biāo)準(zhǔn)，上層包括RDMAP（為上層用戶提供RDMA語義，支撐各類請求）、DDP（負(fù)責(zé)在傳輸層協(xié)議之上實現(xiàn)零拷貝）、MPA（完成與TCP適配工作，按照一定算法在TCP流中加入控制信息）。iWARP底層基于TCP/IP協(xié)議，但需要支持iWARP功能的特殊網(wǎng)卡設(shè)備。

目前業(yè)界比較常用的RDMA實現(xiàn)方案是IB和RoCEv2，而RoCEv1和iWARP存在一些技術(shù)缺陷，實際應(yīng)用并不廣泛。本文將重點介紹IB和RoCEv2方案。

2.2 網(wǎng)絡(luò)架構(gòu)

對于AI大模型的智算中心場景，需要特別關(guān)注數(shù)據(jù)中心網(wǎng)絡(luò)的傳輸時延和可擴(kuò)展性，傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)主要考慮其通用性，往往會犧牲部分性能。針對該問題，目前主流的網(wǎng)絡(luò)架構(gòu)有3種（見圖2）。

圖2 智網(wǎng)中心網(wǎng)絡(luò)架構(gòu)示意

a）Fat-Tree。傳統(tǒng)樹形網(wǎng)絡(luò)拓?fù)鋸娜~子節(jié)點到根節(jié)點的帶寬逐層收斂，整體成倒漏斗狀，根節(jié)點網(wǎng)絡(luò)帶寬遠(yuǎn)小于各葉子帶寬之和，容易成為轉(zhuǎn)發(fā)性能的瓶頸，無法滿足大規(guī)模計算的MapReduce和數(shù)據(jù)拷貝。而Fat-Tree拓?fù)涞木W(wǎng)絡(luò)帶寬是不收斂的，即每個節(jié)點的上行帶寬和下行帶寬相等，支持對接入帶寬的線速轉(zhuǎn)發(fā)，并且在橫向擴(kuò)展時支持增加鏈路帶寬。Fat-Tree拓?fù)渲兴褂玫木W(wǎng)絡(luò)設(shè)備均為端口能力相同的交換機(jī)，可有效降低網(wǎng)絡(luò)建設(shè)成本。

b）Torus。Torus是一種環(huán)面拓?fù)?，它將?jié)點按照網(wǎng)格的方式排列，然后連接同行和同列的相鄰節(jié)點，并連接同行和同列的最遠(yuǎn)端的2個節(jié)點，使得Torus拓?fù)渲忻啃泻兔苛卸际且粋€環(huán)。Torus拓?fù)渫ㄟ^從二維擴(kuò)展到三維、甚至更高維的方式增加新的接入節(jié)點，同時可以提高網(wǎng)絡(luò)帶寬，降低延遲。

c）Dragonfly。Dragonfly是一種分層的拓?fù)浣Y(jié)構(gòu)，包括Switch、Group和System 3層，其中Switch層包括一臺交換機(jī)和與其相連的多個計算節(jié)點；Group層包含多個Switch，多個Switch間進(jìn)行全連接；System層包含多個Group，多個Group間也進(jìn)行全連接（拓?fù)渲忻總€圓圈代表一個Group節(jié)點）。Dragonfly拓?fù)涞闹饕獌?yōu)勢是網(wǎng)絡(luò)轉(zhuǎn)發(fā)路徑小，組網(wǎng)成本較低。

2.3 網(wǎng)絡(luò)運維管理

由于RDMA的協(xié)議機(jī)制和通信方式與傳統(tǒng)TCP/IP協(xié)議差異較大，智算中心高性能網(wǎng)絡(luò)的運維管理方式也和IP網(wǎng)絡(luò)存在很大差異，具體如下。

a）高精度的流量采集能力。AI大模型的流量呈現(xiàn)較強(qiáng)的突發(fā)性，常規(guī)的SNMP協(xié)議以30 s的采樣周期收集流量數(shù)據(jù)，現(xiàn)已無法呈現(xiàn)網(wǎng)絡(luò)的關(guān)鍵帶寬指標(biāo)。

b）細(xì)顆粒的流量統(tǒng)計能力。RDMA網(wǎng)絡(luò)通過端口隊列發(fā)送報文，因此需要將流量統(tǒng)計的維度從端口級別細(xì)化到隊列級別。

c）自動化部署與檢測能力。RDMA協(xié)議及其出色的擁塞控制機(jī)制使得網(wǎng)絡(luò)配置復(fù)雜多樣化，而智算中心的超大規(guī)模進(jìn)一步增加了配置復(fù)雜度，需要自動化配置工具和可快速定位故障的檢測工具來提升智算中心的運行效率。

d）流控指標(biāo)采集和統(tǒng)計能力。若采用RoCEv2實現(xiàn)RDMA，需要使用PFC和ECN機(jī)制進(jìn)行流量控制，運維管理系統(tǒng)相應(yīng)地需要對PFC、ECN等關(guān)鍵指標(biāo)進(jìn)行采集和統(tǒng)計。

0 3

智算中心組網(wǎng)方案研究及建議

基于流控機(jī)制、網(wǎng)絡(luò)時延、傳輸帶寬等多個方面對IB方案和RoCEv2方案進(jìn)行比較（見表1）。在性能、擴(kuò)展性以及網(wǎng)絡(luò)配置方面，IB網(wǎng)絡(luò)占優(yōu)，但成本較高，適合在高性能需求的場景中使用；而在成本、開放性、供應(yīng)鏈方面，RoCEv2網(wǎng)絡(luò)占優(yōu)，建議在國產(chǎn)化算力資源池以及存儲網(wǎng)絡(luò)中使用，同時需增強(qiáng)RoCEv2網(wǎng)絡(luò)的網(wǎng)絡(luò)部署、調(diào)優(yōu)及維護(hù)能力。

表1 InfiniBand和RoCEv2對比

在組網(wǎng)架構(gòu)方面，當(dāng)網(wǎng)絡(luò)規(guī)模較?。〝?shù)千節(jié)點及以下）時，建議采用Fat-Tree。Fat-Tree拓?fù)渚哂芯W(wǎng)絡(luò)直徑短，端到端通信跳數(shù)少，建網(wǎng)成本低的優(yōu)點，適用于中小規(guī)模智算中心。當(dāng)網(wǎng)絡(luò)達(dá)到一定規(guī)模后，例如上萬節(jié)點時，建議采用Dragonfly和Torus。Dragonfly和Torus拓?fù)涞慕ňW(wǎng)成本更低，交換機(jī)端到端轉(zhuǎn)發(fā)跳數(shù)也會明顯減少，可提升網(wǎng)絡(luò)整體吞吐和性能，適用于大規(guī)模、超大規(guī)模智算中心。

目前，OpenAI、微軟、Meta、特斯拉等國外廠商選擇使用IB方案組建智算中心，騰訊、阿里、字節(jié)跳動等國內(nèi)廠商使用RoCEv2方案，配合自研交換機(jī)、DPU加速卡、協(xié)議優(yōu)化和智能運維工具等手段來滿足智算中心對高性能網(wǎng)絡(luò)的需求，而百度、快手等廠商則選擇在不同網(wǎng)絡(luò)平面分別使用IB和RoCEv2方案。

基于以上分析，可根據(jù)方案將智算中心劃成不同專區(qū)，各專區(qū)分別有5個網(wǎng)絡(luò)平面。對于計算網(wǎng)，IB算力專區(qū)可采用IB NDR（400G）組網(wǎng)，RoCEv2算力專區(qū)采用RoCEv2（200G）組網(wǎng)；存儲網(wǎng)可考慮共用，同時，考慮到訓(xùn)練場景對存儲的即時訪問帶寬并沒有計算網(wǎng)高，2個專區(qū)的存儲資源池可以共用；管理/業(yè)務(wù)網(wǎng)仍然采用傳統(tǒng)以太網(wǎng)絡(luò)；帶外管理網(wǎng)使用千兆網(wǎng)絡(luò)連接所有硬件設(shè)備。智網(wǎng)中心組網(wǎng)建議如圖3所示。

圖3 智網(wǎng)中心組網(wǎng)建議

在組網(wǎng)架構(gòu)方面，單臺服務(wù)器最多支持配置8張GPU卡，對于IB網(wǎng)絡(luò)，基于目前IB交換機(jī)能力，2層Fat-Tree架構(gòu)最多支持2 048卡，如規(guī)劃超出2 048卡的規(guī)模，建議使用3層架構(gòu)或選用擴(kuò)展性更強(qiáng)的Dragonfly、Torus拓?fù)洹６鳵oCEv2基本采用Fat-Tree架構(gòu)，可根據(jù)組網(wǎng)規(guī)模選擇合適的交換機(jī)設(shè)備。

以往數(shù)據(jù)中心大多是計算、存儲、網(wǎng)絡(luò)資源分別由不同負(fù)責(zé)人進(jìn)行維護(hù)管理，而在智算中心場景，算力的調(diào)度、性能優(yōu)化與數(shù)據(jù)中心網(wǎng)絡(luò)息息相關(guān)，其建設(shè)運維過程需同步研究端到端的編排管理能力，實現(xiàn)算力與網(wǎng)絡(luò)的協(xié)同優(yōu)化管理。

0 4

總結(jié)與展望

本文對智算中心組網(wǎng)需求與技術(shù)演進(jìn)進(jìn)行了相關(guān)研究分析，以期拋磚引玉，得到同行專家的參與和討論，共同推動網(wǎng)絡(luò)關(guān)鍵技術(shù)的成熟與落地，打造大規(guī)模、低時延、高性能、大帶寬以及智能化的智算中心網(wǎng)絡(luò)。

參

考

文

獻(xiàn)

［1］國家信息中心. 智能計算中心創(chuàng)新發(fā)展指南［EB/OL］.［2024-01-30］. http：//scdrc.sic.gov.cn/SmarterCity/445/449/0113/10715.pdf

［2］IDC，浪潮信息 . 2022-2023 中國人工智能計算力發(fā)展評估報告［EB/OL］. ［2024-01-30］. https：//www. doc88. com/p-99229765957589.html. ［3］郝俊慧 . 摩爾定律失效后，未來看“算力三定律”［N］. IT 時報，2022-07-22（6）．

作者簡介