GPU訓(xùn)練速度慢？不妨試試IPU

暖帶未來(lái)街QAZ 2020-06-17

展開(kāi)全文

如果你是一位算法科學(xué)家或者是AI應(yīng)用開(kāi)發(fā)者，當(dāng)你的算法在GPU上的運(yùn)行速度非常慢時(shí)，你通常會(huì)怎么想？是不是會(huì)先懷疑自己，覺(jué)得算法有問(wèn)題，或者是軟件代碼有問(wèn)題？

其實(shí)還有一種情況，如果算法模型是較為稀疏的卷積，那么問(wèn)題則可能出在GPU身上，因?yàn)镚PU的架構(gòu)不適應(yīng)稀疏的卷積，而擅長(zhǎng)處理這一場(chǎng)景的處理器叫IPU。在許多機(jī)器學(xué)習(xí)場(chǎng)景下，IPU都比GPU快，而且，這類(lèi)場(chǎng)景會(huì)越來(lái)越多，IPU是一種非常有前景的AI芯片，如今是僅次于GPU和TPU的第三大商用AI芯片方案。

IPU是什么？

眾所周知，GPU的并行能力遠(yuǎn)勝于CPU，相比之下，GPU更擅長(zhǎng)處理機(jī)器學(xué)習(xí)工作負(fù)載，而IPU與CPU、GPU又完全不同，它是專(zhuān)為機(jī)器學(xué)習(xí)設(shè)計(jì)的處理器架構(gòu)，比GPU更擅長(zhǎng)處理機(jī)器學(xué)習(xí)的工作負(fù)載。

據(jù)Graphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤介紹，IPU在現(xiàn)有以及下一代模型上的性能均優(yōu)于GPU，在自然語(yǔ)言處理方面的速度能比GPU快25%到 50%；在圖像分類(lèi)方面，吞吐量6倍于GPU，而且時(shí)延更低；在一些金融模型方面，速度相比于GPU能提升26倍以上。

盧濤 Jason LuGraphcore 高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理

這三部分涵蓋了人工智能的大部分場(chǎng)景，可以說(shuō)，在許多場(chǎng)景中，IPU相對(duì)于GPU有很大優(yōu)勢(shì)，IPU很是厲害。

英國(guó)半導(dǎo)體之父、Arm聯(lián)合創(chuàng)始人Hermann爵士說(shuō)：“在計(jì)算機(jī)歷史上只發(fā)生過(guò)三次革命，一次是70年代的CPU，第二次是90年代的GPU，而Graphcore就是第三次革命?！币?yàn)镚raphcore率先提出了為AI計(jì)算而生的IPU。

Graphcore被許多業(yè)內(nèi)大佬看好，目前已經(jīng)獲得了4.5億美金的融資，除了許多知名金融投資機(jī)構(gòu)外，包括寶馬、博世、戴爾科技集團(tuán)、微軟、三星等都是其戰(zhàn)略投資者。IPU也很爭(zhēng)氣，目前IPU GC2已經(jīng)量產(chǎn)，并裝載在戴爾EMC DSS8440服務(wù)器供客戶(hù)使用。此外，目前Graphcore在Microsoft Azure公有云上開(kāi)放了IPU服務(wù)，并且馬上將要推出和國(guó)內(nèi)云服務(wù)商的合作。

為什么說(shuō)IPU是面向AI設(shè)計(jì)的處理器？

首先，AI的工作負(fù)載與CPU、GPU提供的能力不太一樣。AI工作負(fù)載的特點(diǎn)有許多，比如非常大規(guī)模的CPU不擅長(zhǎng)的那種并行計(jì)算，又比如數(shù)據(jù)結(jié)構(gòu)非常稀疏。此外，AI工作負(fù)載屬于低精度計(jì)算，有大量的數(shù)據(jù)參數(shù)復(fù)用，還有靜態(tài)圖結(jié)構(gòu)。以上種種都說(shuō)明，AI負(fù)載是全新的計(jì)算負(fù)載。

其次，IPU解決了CPU和GPU沒(méi)能解決的問(wèn)題。一般而言，一個(gè)AI模型的參數(shù)越多，那么預(yù)測(cè)就越精準(zhǔn)，為了讓AI發(fā)揮更大作用，模型會(huì)不可避免地變得越來(lái)越大。模型變大對(duì)應(yīng)著更密集的計(jì)算，意味著需要更大的算力提升。然而，現(xiàn)有架構(gòu)已經(jīng)支撐不了這樣的增速，所以，必須有專(zhuān)門(mén)面向AI的處理器來(lái)解決性能問(wèn)題。

IPU誕生于此次人工智能興起期間，又主要解決CPU和GPU解決不了的問(wèn)題，所以完全可以說(shuō)，IPU是面向AI設(shè)計(jì)的處理器。

三大特性解決性能問(wèn)題

首先，片上內(nèi)存解決內(nèi)存性能問(wèn)題。這么多年來(lái)，雖然內(nèi)存主頻在提升，內(nèi)存帶寬也在提升，但并沒(méi)有跟上性能提升的速度，為了解決這一問(wèn)題，Graphcore的IPU采用了大規(guī)模并行的MIMD（多指令流多數(shù)據(jù)流），并且在片上放置了大量SRAM內(nèi)存，因?yàn)樗軐I模型和數(shù)據(jù)放到芯片上，這一做法非常激進(jìn)，但性能真的是非常高，相對(duì)于CPU或者GPU的內(nèi)存方案，內(nèi)存性能有10到320倍的提升。

多核計(jì)算提供并行能力。目前已量產(chǎn)的IPU處理器（GC2）片內(nèi)有1216個(gè)核，支持7296個(gè)線(xiàn)程，也就是支持7296個(gè)應(yīng)用程序同時(shí)運(yùn)行，多核并行能力奠定了性能基礎(chǔ)。而想讓多核高效運(yùn)行，當(dāng)然離不開(kāi)通信技術(shù)。

高效的多核通信技術(shù)。一個(gè)IPU的處理器內(nèi)部的1216個(gè)核心之間通過(guò)一個(gè)叫BSP（Bulk Synchronous Parallel）技術(shù)實(shí)現(xiàn)通信，核與核之間通過(guò)8 TB/s的交換總線(xiàn)交流數(shù)據(jù)。據(jù)了解，Graphcore的IPU是全球第一款BSP處理器。此外，在不同IPU處理器之間，用IPU-Links實(shí)現(xiàn)通信，帶寬高達(dá)2.5 TB/s。

以上幾點(diǎn)特性的加持使得在自然語(yǔ)言處理的BERT、ResNeXt這樣的機(jī)器視覺(jué)場(chǎng)景下，Graphcore的IPU相對(duì)于GPU表現(xiàn)出許多優(yōu)勢(shì)，這里作為對(duì)比的GPU都是英偉達(dá)的上一代旗艦V100。談到英偉達(dá)最新的A100時(shí)，盧濤表示對(duì)自己的產(chǎn)品也非常有信心。

看到這里，你就會(huì)發(fā)現(xiàn)，IPU最大的特點(diǎn)和優(yōu)點(diǎn)其實(shí)就是一個(gè)字：快！

芯片設(shè)計(jì)只是第一步，配套工具鏈也很重要

對(duì)用戶(hù)來(lái)說(shuō)，AI芯片真的是太多了，Github上有人總結(jié)了AI芯片的全景圖，一大類(lèi)是各種巨頭，包括谷歌、AWS、Facebook這樣的超級(jí)互聯(lián)網(wǎng)公司以及IT巨頭；另一大類(lèi)是老牌芯片設(shè)計(jì)廠商，比如英特爾、英偉達(dá)；最后一類(lèi)是各種初創(chuàng)公司。AI芯片領(lǐng)域真的是不要太擁擠，看起來(lái)一片繁榮，但有時(shí)候選擇太多也不是一件好事。

從芯片廠商看來(lái)，芯片設(shè)計(jì)完成后只是做了第一步，配套的工具鏈也非常重要。在開(kāi)發(fā)人員看來(lái)，選擇一個(gè)AI芯片平臺(tái)的成本其實(shí)很高，開(kāi)發(fā)人員需要熟悉這一平臺(tái)，熟悉芯片配套的各種軟件工具，熟悉從開(kāi)發(fā)、訓(xùn)練、調(diào)試、部署、推理等方方面面。為了降低用戶(hù)選擇新平臺(tái)的障礙，Graphcore做了許多工作。

據(jù)盧濤介紹，IPU支持的BSP協(xié)議能把整個(gè)計(jì)算邏輯分成計(jì)算、同步、交換三部分，對(duì)軟件工程師或開(kāi)發(fā)者來(lái)說(shuō)，能讓編程難度顯著降低，因?yàn)樗挥锰幚怼版i（Lock）”的問(wèn)題，有過(guò)開(kāi)發(fā)經(jīng)驗(yàn)的人應(yīng)該知道鎖的問(wèn)題，如何避免“死鎖”，如何優(yōu)化“鎖”是需要大量實(shí)踐教訓(xùn)才能做的事情。

在芯片配套的開(kāi)發(fā)軟件上，Graphcore準(zhǔn)備的也非常完備。分析機(jī)構(gòu)Moor Insights & Strategy的分析師表示， “Graphcore是我們目前已知的唯一一家將其產(chǎn)品擴(kuò)展到囊括如此龐大的部署軟件和基礎(chǔ)架構(gòu)套件的初創(chuàng)公司。”

Graphcore配套的開(kāi)發(fā)軟件叫Poplar SDK，它是介于硬件平臺(tái)和機(jī)器學(xué)習(xí)框架之間的工具，Poplar SDK支持各種常見(jiàn)的機(jī)器學(xué)習(xí)開(kāi)發(fā)框架，比如TensorFlow、PyTorch和ONNX。

為了簡(jiǎn)化部署，Poplar SDK還提供容器化部署，能快速啟動(dòng)和運(yùn)行起來(lái)。此外，也支持包括微軟Hyper-V在內(nèi)的虛擬化技術(shù)，支持Ubuntu、紅帽以及CentOS等常見(jiàn)的Linux發(fā)行版。

5月，Graphcore還推出了一個(gè)叫PopVision Graph Analyser的分析工具。開(kāi)發(fā)者、研究者在使用IPU進(jìn)行編程的時(shí)候，可以通過(guò)PopVision這個(gè)可視化的圖形展示工具來(lái)分析軟件運(yùn)行效率，并進(jìn)行調(diào)試調(diào)優(yōu)。

IPU是第三大AI芯片平臺(tái)

雖然芯片門(mén)類(lèi)很多，看似選擇很多，但從實(shí)際部署來(lái)看，IPU是僅次于GPU和谷歌TPU的第三大部署平臺(tái)，Graphcore的商業(yè)化合作進(jìn)展其實(shí)非常快，目前，基于IPU的應(yīng)用已經(jīng)覆蓋了機(jī)器學(xué)習(xí)的各個(gè)應(yīng)用領(lǐng)域，包括自然語(yǔ)言處理、圖像/視頻處理、時(shí)序分析、推薦/排名及概率模型等。

不久前的Intelligent Health峰會(huì)上，微軟分享了如何使用IPU訓(xùn)練CXR（胸部X光射線(xiàn)樣片），幫助醫(yī)學(xué)研究人員進(jìn)行新冠肺炎的快速診斷。微軟用IPU在30分鐘內(nèi)完成了傳統(tǒng)GPU需要5個(gè)小時(shí)才能完成的訓(xùn)練工作量。

在金融領(lǐng)域涉及算法交易、投資管理、風(fēng)險(xiǎn)管理及詐騙識(shí)別的場(chǎng)景中，相對(duì)于GPU，IPU可以更快、更準(zhǔn)確地發(fā)揮人工智能的能力。

在醫(yī)療和生命科學(xué)領(lǐng)域，IPU的使用可以讓人工智能在新藥發(fā)現(xiàn)、醫(yī)學(xué)圖像、醫(yī)學(xué)研究、精準(zhǔn)醫(yī)療等場(chǎng)景中的過(guò)程加速。

在電信領(lǐng)域的智慧網(wǎng)絡(luò)、5G創(chuàng)新、預(yù)測(cè)性維護(hù)和客戶(hù)體驗(yàn)方面，由于性能表現(xiàn)遠(yuǎn)高于GPU，IPU的創(chuàng)新技術(shù)和能力也展示出了較高價(jià)值。

在中國(guó)市場(chǎng)，Graphcore與阿里巴巴和百度兩家互聯(lián)網(wǎng)巨頭建立合作關(guān)系。OCP峰會(huì)上，阿里巴巴異構(gòu)計(jì)算首席科學(xué)家張偉豐博士宣布了Graphcore支持ODLA的接口標(biāo)準(zhǔn)；Wave Summit 2020上，百度宣布Graphcore為百度飛槳硬件生態(tài)圈共建合作伙伴，此舉對(duì)于Graphcore在中國(guó)市場(chǎng)的發(fā)展非常重要。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：暖帶未來(lái)街QAZ > 《?南面有個(gè)養(yǎng)雞場(chǎng)養(yǎng)雞場(chǎng)；》

舉報(bào)/認(rèn)領(lǐng)