智源研究院發(fā)布大規(guī)模并行訓(xùn)練效率提升器

紫微o太微o天市 2021-04-29

展開全文

來源：《中國科學(xué)報》2021-04-29 09:39

　　近日，北京智源人工智能研究院（簡稱智源研究院）發(fā)布大規(guī)模并行訓(xùn)練效率提升器TDS。作為超大規(guī)模智能模型系統(tǒng)“悟道”的階段進展，TDS（Tsinghua/Temporary DeepSpeed）插件將進一步優(yōu)化現(xiàn)今最流行的DeepSpeed 并行計算框架，從而“多快好省”地訓(xùn)練一個大模型。

　　據(jù)介紹，數(shù)據(jù)、算法、算力是當(dāng)前人工智能技術(shù)崛起的重要驅(qū)動力。利用海量數(shù)據(jù)訓(xùn)練大規(guī)模機器學(xué)習(xí)模型，有助于人類充分學(xué)習(xí)數(shù)據(jù)中蘊含的知識，達到更好的訓(xùn)練效果。

　　然而，隨著訓(xùn)練規(guī)模的擴大，單張GPU卡的顯存與計算效率已經(jīng)無法滿足訓(xùn)練的需要，通過分布式訓(xùn)練框架實現(xiàn)多GPU并行訓(xùn)練成為了一種新的剛需。為了提升多GPU并行訓(xùn)練的效率，研發(fā)更高效的并行計算框架十分必要。

　　為應(yīng)對大規(guī)模計算集群高效訓(xùn)練方法的需求，智源研究院發(fā)揮其在硬件設(shè)計、模型架構(gòu)、編程框架研發(fā)等方面的優(yōu)勢，組織智源“悟道”團隊科研人員研發(fā)了 TDS 插件，對當(dāng)下主流的并行計算框架進行了優(yōu)化。

　　據(jù)介紹，TDS 插件重新實現(xiàn)了DeepSpeed的流水線，通過適配器模式封裝了DeepSpeed 的其它功能，該插件十分易于使用。如果已經(jīng)完成了對 DeepSpeed 的安裝，只需要將TDS的代碼拷貝到工程中，然后加載 DeepSpeed 庫即可。（鄭金武）

[ 責(zé)編：張夢凡 ]