小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

GPU訓(xùn)練速度慢?不妨試試IPU

 暖帶未來(lái)街QAZ 2020-06-17

如果你是一位算法科學(xué)家或者是AI應(yīng)用開(kāi)發(fā)者,當(dāng)你的算法在GPU上的運(yùn)行速度非常慢時(shí),你通常會(huì)怎么想?是不是會(huì)先懷疑自己,覺(jué)得算法有問(wèn)題,或者是軟件代碼有問(wèn)題?

其實(shí)還有一種情況,如果算法模型是較為稀疏的卷積,那么問(wèn)題則可能出在GPU身上,因?yàn)镚PU的架構(gòu)不適應(yīng)稀疏的卷積,而擅長(zhǎng)處理這一場(chǎng)景的處理器叫IPU。在許多機(jī)器學(xué)習(xí)場(chǎng)景下,IPU都比GPU快,而且,這類(lèi)場(chǎng)景會(huì)越來(lái)越多,IPU是一種非常有前景的AI芯片,如今是僅次于GPU和TPU的第三大商用AI芯片方案。

IPU是什么?

眾所周知,GPU的并行能力遠(yuǎn)勝于CPU,相比之下,GPU更擅長(zhǎng)處理機(jī)器學(xué)習(xí)工作負(fù)載,而IPU與CPU、GPU又完全不同,它是專(zhuān)為機(jī)器學(xué)習(xí)設(shè)計(jì)的處理器架構(gòu),比GPU更擅長(zhǎng)處理機(jī)器學(xué)習(xí)的工作負(fù)載。

據(jù)Graphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤介紹,IPU在現(xiàn)有以及下一代模型上的性能均優(yōu)于GPU,在自然語(yǔ)言處理方面的速度能比GPU快25%到 50%;在圖像分類(lèi)方面,吞吐量6倍于GPU,而且時(shí)延更低;在一些金融模型方面,速度相比于GPU能提升26倍以上。

GPU訓(xùn)練速度慢?不妨試試IPU

盧濤 Jason LuGraphcore 高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理

這三部分涵蓋了人工智能的大部分場(chǎng)景,可以說(shuō),在許多場(chǎng)景中,IPU相對(duì)于GPU有很大優(yōu)勢(shì),IPU很是厲害。

英國(guó)半導(dǎo)體之父、Arm聯(lián)合創(chuàng)始人Hermann爵士說(shuō):“在計(jì)算機(jī)歷史上只發(fā)生過(guò)三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命?!币?yàn)镚raphcore率先提出了為AI計(jì)算而生的IPU。

Graphcore被許多業(yè)內(nèi)大佬看好,目前已經(jīng)獲得了4.5億美金的融資,除了許多知名金融投資機(jī)構(gòu)外,包括寶馬、博世、戴爾科技集團(tuán)、微軟、三星等都是其戰(zhàn)略投資者。IPU也很爭(zhēng)氣,目前IPU GC2已經(jīng)量產(chǎn),并裝載在戴爾EMC DSS8440服務(wù)器供客戶(hù)使用。此外,目前Graphcore在Microsoft Azure公有云上開(kāi)放了IPU服務(wù),并且馬上將要推出和國(guó)內(nèi)云服務(wù)商的合作。

為什么說(shuō)IPU是面向AI設(shè)計(jì)的處理器?

首先,AI的工作負(fù)載與CPU、GPU提供的能力不太一樣。AI工作負(fù)載的特點(diǎn)有許多,比如非常大規(guī)模的CPU不擅長(zhǎng)的那種并行計(jì)算,又比如數(shù)據(jù)結(jié)構(gòu)非常稀疏。此外,AI工作負(fù)載屬于低精度計(jì)算,有大量的數(shù)據(jù)參數(shù)復(fù)用,還有靜態(tài)圖結(jié)構(gòu)。以上種種都說(shuō)明,AI負(fù)載是全新的計(jì)算負(fù)載。

GPU訓(xùn)練速度慢?不妨試試IPU

其次,IPU解決了CPU和GPU沒(méi)能解決的問(wèn)題。一般而言,一個(gè)AI模型的參數(shù)越多,那么預(yù)測(cè)就越精準(zhǔn),為了讓AI發(fā)揮更大作用,模型會(huì)不可避免地變得越來(lái)越大。模型變大對(duì)應(yīng)著更密集的計(jì)算,意味著需要更大的算力提升。然而,現(xiàn)有架構(gòu)已經(jīng)支撐不了這樣的增速,所以,必須有專(zhuān)門(mén)面向AI的處理器來(lái)解決性能問(wèn)題。

IPU誕生于此次人工智能興起期間,又主要解決CPU和GPU解決不了的問(wèn)題,所以完全可以說(shuō),IPU是面向AI設(shè)計(jì)的處理器。

三大特性解決性能問(wèn)題

GPU訓(xùn)練速度慢?不妨試試IPU

首先,片上內(nèi)存解決內(nèi)存性能問(wèn)題。這么多年來(lái),雖然內(nèi)存主頻在提升,內(nèi)存帶寬也在提升,但并沒(méi)有跟上性能提升的速度,為了解決這一問(wèn)題,Graphcore的IPU采用了大規(guī)模并行的MIMD(多指令流多數(shù)據(jù)流),并且在片上放置了大量SRAM內(nèi)存,因?yàn)樗軐I模型和數(shù)據(jù)放到芯片上,這一做法非常激進(jìn),但性能真的是非常高,相對(duì)于CPU或者GPU的內(nèi)存方案,內(nèi)存性能有10到320倍的提升。

GPU訓(xùn)練速度慢?不妨試試IPU

多核計(jì)算提供并行能力。目前已量產(chǎn)的IPU處理器(GC2)片內(nèi)有1216個(gè)核,支持7296個(gè)線(xiàn)程,也就是支持7296個(gè)應(yīng)用程序同時(shí)運(yùn)行,多核并行能力奠定了性能基礎(chǔ)。而想讓多核高效運(yùn)行,當(dāng)然離不開(kāi)通信技術(shù)。

高效的多核通信技術(shù)。一個(gè)IPU的處理器內(nèi)部的1216個(gè)核心之間通過(guò)一個(gè)叫BSP(Bulk Synchronous Parallel)技術(shù)實(shí)現(xiàn)通信,核與核之間通過(guò)8 TB/s的交換總線(xiàn)交流數(shù)據(jù)。據(jù)了解,Graphcore的IPU是全球第一款BSP處理器。此外,在不同IPU處理器之間,用IPU-Links實(shí)現(xiàn)通信,帶寬高達(dá)2.5 TB/s。

GPU訓(xùn)練速度慢?不妨試試IPU

以上幾點(diǎn)特性的加持使得在自然語(yǔ)言處理的BERT、ResNeXt這樣的機(jī)器視覺(jué)場(chǎng)景下,Graphcore的IPU相對(duì)于GPU表現(xiàn)出許多優(yōu)勢(shì),這里作為對(duì)比的GPU都是英偉達(dá)的上一代旗艦V100。談到英偉達(dá)最新的A100時(shí),盧濤表示對(duì)自己的產(chǎn)品也非常有信心。

看到這里,你就會(huì)發(fā)現(xiàn),IPU最大的特點(diǎn)和優(yōu)點(diǎn)其實(shí)就是一個(gè)字:快!

芯片設(shè)計(jì)只是第一步,配套工具鏈也很重要

GPU訓(xùn)練速度慢?不妨試試IPU

對(duì)用戶(hù)來(lái)說(shuō),AI芯片真的是太多了,Github上有人總結(jié)了AI芯片的全景圖,一大類(lèi)是各種巨頭,包括谷歌、AWS、Facebook這樣的超級(jí)互聯(lián)網(wǎng)公司以及IT巨頭;另一大類(lèi)是老牌芯片設(shè)計(jì)廠商,比如英特爾、英偉達(dá);最后一類(lèi)是各種初創(chuàng)公司。AI芯片領(lǐng)域真的是不要太擁擠,看起來(lái)一片繁榮,但有時(shí)候選擇太多也不是一件好事。

從芯片廠商看來(lái),芯片設(shè)計(jì)完成后只是做了第一步,配套的工具鏈也非常重要。在開(kāi)發(fā)人員看來(lái),選擇一個(gè)AI芯片平臺(tái)的成本其實(shí)很高,開(kāi)發(fā)人員需要熟悉這一平臺(tái),熟悉芯片配套的各種軟件工具,熟悉從開(kāi)發(fā)、訓(xùn)練、調(diào)試、部署、推理等方方面面。為了降低用戶(hù)選擇新平臺(tái)的障礙,Graphcore做了許多工作。

據(jù)盧濤介紹,IPU支持的BSP協(xié)議能把整個(gè)計(jì)算邏輯分成計(jì)算、同步、交換三部分,對(duì)軟件工程師或開(kāi)發(fā)者來(lái)說(shuō),能讓編程難度顯著降低,因?yàn)樗挥锰幚怼版i(Lock)”的問(wèn)題,有過(guò)開(kāi)發(fā)經(jīng)驗(yàn)的人應(yīng)該知道鎖的問(wèn)題,如何避免“死鎖”,如何優(yōu)化“鎖”是需要大量實(shí)踐教訓(xùn)才能做的事情。

在芯片配套的開(kāi)發(fā)軟件上,Graphcore準(zhǔn)備的也非常完備。分析機(jī)構(gòu)Moor Insights & Strategy的分析師表示, “Graphcore是我們目前已知的唯一一家將其產(chǎn)品擴(kuò)展到囊括如此龐大的部署軟件和基礎(chǔ)架構(gòu)套件的初創(chuàng)公司。”

Graphcore配套的開(kāi)發(fā)軟件叫Poplar SDK,它是介于硬件平臺(tái)和機(jī)器學(xué)習(xí)框架之間的工具,Poplar SDK支持各種常見(jiàn)的機(jī)器學(xué)習(xí)開(kāi)發(fā)框架,比如TensorFlow、PyTorch和ONNX。

為了簡(jiǎn)化部署,Poplar SDK還提供容器化部署,能快速啟動(dòng)和運(yùn)行起來(lái)。此外,也支持包括微軟Hyper-V在內(nèi)的虛擬化技術(shù),支持Ubuntu、紅帽以及CentOS等常見(jiàn)的Linux發(fā)行版。

5月,Graphcore還推出了一個(gè)叫PopVision Graph Analyser的分析工具。開(kāi)發(fā)者、研究者在使用IPU進(jìn)行編程的時(shí)候,可以通過(guò)PopVision這個(gè)可視化的圖形展示工具來(lái)分析軟件運(yùn)行效率,并進(jìn)行調(diào)試調(diào)優(yōu)。

IPU是第三大AI芯片平臺(tái)

雖然芯片門(mén)類(lèi)很多,看似選擇很多,但從實(shí)際部署來(lái)看,IPU是僅次于GPU和谷歌TPU的第三大部署平臺(tái),Graphcore的商業(yè)化合作進(jìn)展其實(shí)非常快,目前,基于IPU的應(yīng)用已經(jīng)覆蓋了機(jī)器學(xué)習(xí)的各個(gè)應(yīng)用領(lǐng)域,包括自然語(yǔ)言處理、圖像/視頻處理、時(shí)序分析、推薦/排名及概率模型等。

不久前的Intelligent Health峰會(huì)上,微軟分享了如何使用IPU訓(xùn)練CXR(胸部X光射線(xiàn)樣片),幫助醫(yī)學(xué)研究人員進(jìn)行新冠肺炎的快速診斷。微軟用IPU在30分鐘內(nèi)完成了傳統(tǒng)GPU需要5個(gè)小時(shí)才能完成的訓(xùn)練工作量。

在金融領(lǐng)域涉及算法交易、投資管理、風(fēng)險(xiǎn)管理及詐騙識(shí)別的場(chǎng)景中,相對(duì)于GPU,IPU可以更快、更準(zhǔn)確地發(fā)揮人工智能的能力。

在醫(yī)療和生命科學(xué)領(lǐng)域,IPU的使用可以讓人工智能在新藥發(fā)現(xiàn)、醫(yī)學(xué)圖像、醫(yī)學(xué)研究、精準(zhǔn)醫(yī)療等場(chǎng)景中的過(guò)程加速。

在電信領(lǐng)域的智慧網(wǎng)絡(luò)、5G創(chuàng)新、預(yù)測(cè)性維護(hù)和客戶(hù)體驗(yàn)方面,由于性能表現(xiàn)遠(yuǎn)高于GPU,IPU的創(chuàng)新技術(shù)和能力也展示出了較高價(jià)值。

在中國(guó)市場(chǎng),Graphcore與阿里巴巴和百度兩家互聯(lián)網(wǎng)巨頭建立合作關(guān)系。OCP峰會(huì)上,阿里巴巴異構(gòu)計(jì)算首席科學(xué)家張偉豐博士宣布了Graphcore支持ODLA的接口標(biāo)準(zhǔn);Wave Summit 2020上,百度宣布Graphcore為百度飛槳硬件生態(tài)圈共建合作伙伴,此舉對(duì)于Graphcore在中國(guó)市場(chǎng)的發(fā)展非常重要。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多