本文的開篇,想引用一位對TPU和GPU有所研究的網(wǎng)友原話。 “這個世界是一個羅生門,每個人都在自說自話,學(xué)術(shù)圈的一小部分人不能完全免俗,而科技圈 99% 的人都不免俗,每一套話語背后都有一個隱含的框框,只有掌握全部事實(shí),才有可能跳出框框,獲得真相?!?/span> 2月13日,谷歌通過一篇博客文章中正式宣布,向谷歌云客戶開放張量處理器(Tensor Processing Unit,簡稱TPU)beta版服務(wù)。 對于選擇在谷歌云平臺上運(yùn)行機(jī)器學(xué)習(xí)模型的客戶來說,這算是個好消息,但谷歌這次開放的TPU數(shù)量有限且按時收費(fèi),每小時成本為6.50美元,不少技術(shù)人士的第一反饋是:真貴。 每個 Cloud TPU 包含了 4 個定制化的 ASIC,每個 Cloud TPU 的計(jì)算能力達(dá)到每秒 180 萬億次浮點(diǎn)運(yùn)算(180 teraflops),并提供有 64GB 的高帶寬內(nèi)存。另外,這些電路卡即可以單獨(dú)使用,也可以通過超高速專用網(wǎng)絡(luò)連接起來,形成一個多層次的機(jī)器學(xué)習(xí)超級計(jì)算機(jī),谷歌將之稱為“TPU pod”。谷歌預(yù)計(jì)今年晚些時候,將會開始供應(yīng)這種更大的超級計(jì)算機(jī),并表示訓(xùn)練的時間-精度比將得到顯著提升。 提到谷歌TPU,就不能避免要說說英偉達(dá)的GPU,目前市面上廣泛試用的英偉達(dá)Tesla P100 GPU性能是每秒21teraflops,最新發(fā)布的V100也只是突破100 teraflops的水平。 谷歌傳奇工程師 Jeff Dean 在推特上連發(fā) 10 條消息介紹 Cloud TPU的這一動作:“我們對此感到非常興奮,因?yàn)樵S多研究人員和工程師在進(jìn)行機(jī)器學(xué)習(xí)時都遇見了計(jì)算力不足的問題,而我們認(rèn)為這 Cloud TPU將是一個很好的解決方案。舉例來說,我們一個 Cloud TPU 設(shè)備可以在 24 小時內(nèi)將運(yùn)行在 resnet-50 上的模型的識別精度訓(xùn)練到 75%?!?/span> 另一方面谷歌在加速計(jì)算方面的優(yōu)勢是,通常情況下為定制 ASIC 和超級計(jì)算機(jī)編寫程序需要專業(yè)知識技能,相比之下,只需要使用自家高級 TensorFlow API 就可以對 Cloud TPU 進(jìn)行編程了。 谷歌表示,幾乎無需改動,Tensorflow的代碼就可以被TPU加速運(yùn)行。此外,Google還開源了幾款圖像分類、物體識別和機(jī)器翻譯的高效模型,包括ResNet-50、Transformer和RetinaNet等,只需提供數(shù)據(jù),這些模型可以使用TPU在Tensorflow上即刻運(yùn)行。 谷歌在博客中提到,在Google Cloud上,不僅會為客戶提供每個ML工作負(fù)載最適合的云端TPU,同時也提供各種高性能CPU(包括英特爾Skylake)和GPU(包括NVIDIA Tesla V100)的能力支持。 在2016年5月的Google I/O開發(fā)者大會上,谷歌官方首次對外公布了TPU的存在,Google方面也曾透露,其實(shí)從2015年開始就一直在內(nèi)部使用TPU,但是關(guān)于TPU的商業(yè)化,谷歌其實(shí)并不高調(diào)和積極。谷歌曾在很多場合公開表示過TPU不會進(jìn)入市場售賣,這就證明谷歌不會像英特爾或者英偉達(dá)那樣去開發(fā)布會去推產(chǎn)品來獲得更大的AI芯片市場份額。 究其原因還是要回到谷歌為何要研發(fā)TPU,谷歌之所以搞一個專用加速芯片,是因?yàn)樽约涸絹碓蕉嗟漠a(chǎn)品開始使用非常復(fù)雜的深度學(xué)習(xí)模型,從而產(chǎn)生了迫切的算力提升需求,這也是谷歌同英特爾和英偉達(dá)這兩家拼殺AI芯片的本質(zhì)不同:后者是看到了市場上的激增需求,于是自己針對這種需求設(shè)計(jì)了芯片產(chǎn)品,以期獲得更好的銷量和市場份額,而谷歌是自己有這種需求,出發(fā)點(diǎn)是滿足內(nèi)需,別人想用TPU,只能寄希望于谷歌的云服務(wù)能開放對TPU的使用權(quán)限,就像是現(xiàn)在的這種做法。 那谷歌Cloud TPU會成為英特爾或者英偉達(dá)的直接競爭對手么?現(xiàn)在看也未必會,只是面對AI加速計(jì)算領(lǐng)域的紅利,谷歌在嘗試一種巧妙的商業(yè)嘗試。 英偉達(dá)CEO 黃仁勛曾在一次采訪中披露,兩年前谷歌就意識到 GPU 更適合訓(xùn)練,而不善于做訓(xùn)練后的分析決策,也就是推理。由此可知,谷歌打造 TPU 的動機(jī)只是想要一款更適合做分析決策的芯片,類似于阿爾法狗戰(zhàn)勝人類圍棋冠軍就十分需要TPU了。英偉達(dá)工程架構(gòu)副總裁 Marc Hamilton也曾表示TPU 只在特定應(yīng)用中作為輔助使用,公司仍將繼續(xù)使用 CPU 和 GPU。 可為什么要跟跟英偉達(dá)較勁幾倍還是幾十倍性能這種事呢,沒辦法,可能觀眾愿意看吧。TPU和GPU其實(shí)不是誰取代誰的問題,而是各自都有生存的空間,大概誰也不能取代誰,不同層面和階段的性能PK只是可以看作是互相激勵和參照吧。 另一方面,谷歌CloudTPU服務(wù)開放的最終價值,對于廣大開發(fā)者來說可能還是需要考慮夠不夠劃算夠不夠好用的問題。在實(shí)際的開發(fā)中,知道如何用最簡潔的方法編寫代碼、如何使用才能發(fā)揮出硬件的最大實(shí)力和使用多強(qiáng)的硬件一樣重要甚至要更重要。 如果代碼寫的不好,計(jì)算機(jī)總是要在重復(fù)的步驟上浪費(fèi)很多時間,那用再強(qiáng)的硬件或者云端計(jì)算也沒有多大意義,而高水平的的開發(fā)者會知道如何把這些個硬件的性能榨干到一絲不剩,發(fā)揮到極致,滿足需求即可,所以,關(guān)于TPU和GPU的對比,以及一些爭吵還是要看各自在通用和專用領(lǐng)域的能發(fā)揮的實(shí)際效果和用途,歸根到底或許就是對性能、功能以及場景的綜合把控。 就目前來看,憑借強(qiáng)大的并行計(jì)算能力,在機(jī)器學(xué)習(xí)快速發(fā)展的潮流下,GPU目前在深度學(xué)習(xí)芯片市場非常受歡迎,正在成為一種主流的趨勢。包括谷歌、Facebook、微軟、Twitter 和百度等公司都在使用GPU訓(xùn)練分析圖片、視頻和音頻文件,改進(jìn)搜索和圖像標(biāo)簽等應(yīng)用功能,GPU 也被大量應(yīng)用于 VR/AR 相關(guān)產(chǎn)業(yè),此外,很多汽車生產(chǎn)商也在使用 GPU 芯片發(fā)展無人車和自動駕駛技術(shù),可以說GPU 是眼下智能產(chǎn)品市場用戶覆蓋率最廣泛的芯片。 而TPU專用于人工智能和機(jī)器學(xué)習(xí),逐步開放可為谷歌帶來兩大好處:首先,利用自主研發(fā)的芯片,谷歌可以在核心的計(jì)算基礎(chǔ)設(shè)施方面更便宜、更有效地減少對英特爾、英偉達(dá)等芯片制造商的依賴,擁有自己的硬件使谷歌能夠更快地進(jìn)行實(shí)驗(yàn)。其次,現(xiàn)在谷歌云平臺(GCP)和谷歌的業(yè)務(wù)應(yīng)用程序GSuite每季度可超過10億美元收入,新的TPU服務(wù)作為亮點(diǎn)會為谷歌的云計(jì)算業(yè)務(wù)帶來額外收入。 眾所周知,通用處理器(CPU)的摩爾定律時代已結(jié)束,而機(jī)器學(xué)習(xí)和 Web 服務(wù)的規(guī)模卻在指數(shù)級增長。人們使用定制硬件來加速常見的計(jì)算任務(wù),然而日新月異的行業(yè)又要求這些定制的硬件可被重新編程來執(zhí)行新類型的計(jì)算任務(wù)。除TPU和GPU,我們也能看到FPGA 和異構(gòu)計(jì)算的技術(shù)潮流,其實(shí)目的只有一個,如何合理搭配來更好的執(zhí)行計(jì)算任務(wù),而不是誰能取代誰。
如果你是AI行業(yè)人士 如果你想了解最前沿的AI技術(shù)和場景應(yīng)用 一網(wǎng)打盡AI界前瞻科技和深度報道 如果你想持續(xù)拉升逼格 |
|