前言:技術(shù)就是生產(chǎn)力 創(chuàng)新對于任何一個公司 都是最強(qiáng)大的動力 【全球存儲觀察 | 熱點(diǎn)關(guān)注】據(jù)外媒消息稱,埃隆·里夫·馬斯克(Elon Reeve Musk)想買下英偉達(dá)所有AI芯片,但做不到。于是馬斯克開啟自己投資做GPU的自主可控之路。 因此,馬斯克之所以愿意投資超過10億美元來為特斯拉開發(fā)Dojo超級計(jì)算機(jī),只是因?yàn)樗麩o法得到足夠的英偉達(dá)芯片。據(jù)馬斯克本人說,“如果他們能給我們提供足夠的GPU,我們可能就不需要Dojo了。但他們做不到,因?yàn)樗麄冇刑嗫蛻??!?/span> 之后,馬斯克在回應(yīng)一個推特賬號時做了進(jìn)一步的評論:“不幸的是,他們甚至不能為我們提供所需計(jì)算量的一小部分!” D1超算芯片是Dojo系統(tǒng)的基礎(chǔ)。該芯片采用7納米制造工藝,處理能力為1024 gigaflops,即每秒1024億次。1500枚D1芯片可組成陣列,而將25個陣列放在一塊晶圓上,便能形成訓(xùn)練模組 (Training Tile),這便是Dojo超級計(jì)算機(jī)的單元核心。 2022年的特斯拉AI日上,特斯拉拋出了Dojo ExaPod,即Dojo集群。ExaPod內(nèi)含120個訓(xùn)練模組 (Training Tile)、3000個D1芯片。其擁有13TB靜態(tài)隨機(jī)存取記憶體容量以及1.3TB高傳輸頻寬記憶體容量,算力高達(dá)1.1EFLOP。 最新馬斯克對外表示,“明年底之前,我們將花費(fèi)遠(yuǎn)遠(yuǎn)超過10億美元在Dojo項(xiàng)目上,我們有數(shù)量驚人的視頻數(shù)據(jù)要進(jìn)行訓(xùn)練。”馬斯克還提到,預(yù)計(jì)將同時使用英偉達(dá)GPU和Dojo兩個超算系統(tǒng)。 Dojo是特斯拉自研的多芯片模組化(Multi-Chip Modularized)超級計(jì)算機(jī),于2021年的特斯拉AI日上正式亮相。最初Dojo主要服務(wù)于自動駕駛系統(tǒng)的數(shù)據(jù)標(biāo)注以及訓(xùn)練,后也被應(yīng)用于機(jī)器人研發(fā),擎天柱的“大腦”中便搭載了Dojo的D1超算芯片。 特斯拉掌握著“數(shù)量驚人”的影像數(shù)據(jù),目前全自動駕駛(FSD)測試版的總行駛里程已達(dá)到3億英里。Dojo未來將用于處理發(fā)展自動駕駛軟件所需的海量數(shù)據(jù),有利于特斯拉擺脫對英偉達(dá)GPU的依賴。此外,馬斯克還表示,特斯拉在考慮向其它汽車廠商授權(quán)其FSD硬件和軟件。 為了更好的訓(xùn)練,降低訓(xùn)練成本,提升訓(xùn)練結(jié)果,Dojo超算未來將達(dá)到100 exaFLOPS的運(yùn)算能力。 當(dāng)然了,為了更好的自動駕駛訓(xùn)練將FSD訓(xùn)練結(jié)果發(fā)揮的淋漓盡致,馬斯克采用自己的超算同時,也構(gòu)建了基于5760塊Nvidia A100 GPU的集群,然而英偉達(dá)的GPU供貨遠(yuǎn)遠(yuǎn)不能滿足特斯拉在FSD上的訓(xùn)練應(yīng)用需求?;贒1芯片的Dojo超算,也是馬斯克不得已而為之。 當(dāng)然馬斯克承諾聲稱要花掉10億美元以幫助特斯拉開發(fā)自動駕駛汽車軟件,時間是從現(xiàn)在開始到2024年底。 業(yè)內(nèi)人士也有分析認(rèn)為,有兩個原因讓馬斯克動手加速做自己的超算Dojo。一個原因,在于英偉達(dá)GPU價格一直飆高不下,為了議價特斯拉需要手里有一張牌來打而已;另一個原因就是公開聲稱英偉達(dá)GPU供應(yīng)上不能滿足特斯拉的FSD大規(guī)模需求,主要像公有云廠商亞馬遜云科技Amazon AWS、微軟公有云Microsoft Azure、谷歌云Alphabet Google Cloud和甲骨文云Oracle Cloud都在搶購英偉達(dá)的GPU,加上行業(yè)其他企業(yè)搶購,特斯拉要保證自己的應(yīng)用需要就越來越緊張。這里隱含的意思就是,特斯拉自己的D1芯片不如英偉達(dá)的GPU,但特斯拉將不得不用現(xiàn)有的D1芯片來湊齊。 當(dāng)然,馬斯克對英偉達(dá)GPU還是一直贊不絕口的。 事實(shí)證明,特斯拉這個新的Dojo超算中心畢竟將使用大量的Nvidia GPU。特斯拉需要處理其汽車在路上記錄的大量現(xiàn)實(shí)世界鏡頭的數(shù)據(jù),用于訓(xùn)練完全依賴相機(jī)的FSD算法,而不是其他汽車公司采用的相機(jī)和其他傳感器的混合方式。在評論這一點(diǎn)時,馬斯克澄清說,Dojo將使用Nvidia和特斯拉自己定制設(shè)計(jì)的D1芯片的融合架構(gòu)。 當(dāng)然,馬斯克對于英偉達(dá)的創(chuàng)始人以及員工一直還是褒獎不斷。此前,特斯拉使用了很多Nvidia硬件。也將繼續(xù)使用。實(shí)際上,坦率地說,如果英偉達(dá)能為特斯拉提供足夠的GPU,特斯拉可能就不需要Dojo。但英偉達(dá)不能。畢竟英偉達(dá)的全球客戶有這么多。盡管如此,英偉達(dá)還是很友好地優(yōu)先考慮了特斯拉的一些GPU訂單。無論如何,特斯拉還是不差錢。 回顧一下特斯拉的GPU開發(fā)歷史,我們不難發(fā)現(xiàn)幾年前,特斯拉正式宣布了其最新的超級計(jì)算機(jī)Dojo,這樣—一個用于為其汽車訓(xùn)練全自動駕駛(FSD)軟件的大型數(shù)據(jù)中心。隨著公告的發(fā)布,據(jù)透露,這位電動汽車領(lǐng)導(dǎo)者開發(fā)了自己的芯片D1,來訓(xùn)練FSD所需的人工智能算法。這是一件汽車行業(yè)的全球大事,因?yàn)榈侥壳盀橹?,特斯拉一直在使用Nvidia GPU來為這項(xiàng)人工智能培訓(xùn)提供算力支撐。 這與特斯拉認(rèn)為有必要在內(nèi)部設(shè)計(jì)自己的硬件和軟件的做法是一樣的邏輯,無論是為了降低成本和對供應(yīng)商的依賴,還是當(dāng)市場上沒有它需要的東西時得有自己的技術(shù)儲備。早在2018年,特斯拉宣布為其汽車中的車載計(jì)算機(jī)設(shè)計(jì)了自己的芯片,被稱為“特斯拉”的GPU,拋棄了Nvidia為電動汽車制造商設(shè)計(jì)的系統(tǒng)。 很有意思的是,英偉達(dá)有大量競爭對手試圖復(fù)制它在人工智能芯片設(shè)計(jì)中取得的成就,但是,卻很少有人像特斯拉“真刀真槍”實(shí)干獲得D1和Dojo這樣的成功。 不過,特斯拉設(shè)計(jì)自己的芯片D1,讓我們想起了蘋果及其用于iPhone和iPad設(shè)備的A系列芯片,以及用于Mac電腦和新的iPad Pro系列的M系列芯片。特斯拉繼續(xù)致力于其垂直整合,允許該公司依賴自己的GPU技術(shù)增加需求補(bǔ)充,減少對外部供應(yīng)商的依賴,本質(zhì)上來說對其FSD測試研發(fā)大有裨益。 對于Dojo超算的核心芯片D1而言,之前業(yè)內(nèi)也有不少介紹,這里再簡單梳理一下。 之前,業(yè)內(nèi)朋友應(yīng)該也看到了D1芯片有一些令人印象深刻的性能介紹,特斯拉表示,它可以在FP16/CFP8精度下輸出多達(dá)362 TeraFLOPs或約22.6 TeraFLOPs的單精度FP32任務(wù)。很明顯,特斯拉針對FP16數(shù)據(jù)類型進(jìn)行了優(yōu)化,他們甚至設(shè)法擊敗了目前的計(jì)算能力領(lǐng)導(dǎo)者-英偉達(dá)。英偉達(dá)的A100 GPU能夠在FP16工作負(fù)載下“僅”產(chǎn)生312 TeraFLOPs的算力。 特斯拉為D1芯片構(gòu)建了一個功能單元(FU)網(wǎng)絡(luò),這些功能單元相互連接,形成一個巨大的芯片。 每個FU都包含一個帶有自定義ISA的64位CPU,專為轉(zhuǎn)置、收集、廣播和鏈路而設(shè)計(jì)。CPU設(shè)計(jì)本身是一個超標(biāo)量實(shí)現(xiàn),具有4寬標(biāo)量和2寬矢量管道。每個FU都有自己的1.25MB scratchpad SRAM內(nèi)存。FU本身能夠執(zhí)行BF16或CFP8的一個TeraFLOP,F(xiàn)P32計(jì)算的64千兆FLOP,并在網(wǎng)絡(luò)中的任何方向都實(shí)現(xiàn)有512 GB/s的帶寬。這意味著延遲降低,性能提高。 憑借D1芯片,特斯拉將擁有世界上十分超前的人工智能訓(xùn)練所需的超級計(jì)算機(jī),特斯拉的25個D1芯片可以組成的一個訓(xùn)練模塊,帶寬達(dá)到36 TB/s,BF16/CFP8的峰值算力達(dá)到9 PFLOPS。在數(shù)個機(jī)柜中部署120個訓(xùn)練模塊(包含3000個D1芯片),即可組成ExaPOD超算集群,超過100萬個訓(xùn)練節(jié)點(diǎn),BF16/CFP8的峰值算力達(dá)到1.1 ExaFLOPS。這對比目前基于英偉達(dá)設(shè)備構(gòu)造的超級計(jì)算機(jī),在同樣配置成本條件下,性能提升4倍,每瓦性能提高了1.3倍,占地面積小5倍。 基于7納米的制造工藝,D1芯片由臺積電TSMC代工生產(chǎn),包裝了超過500億個晶體管,其處理能力達(dá)到每秒計(jì)算362萬億次浮點(diǎn)運(yùn)算。其裸片面積為645 mm2,小于英偉達(dá)的A100(826 mm2)和AMD Arcturus(750 mm2)。其配備了354個訓(xùn)練節(jié)點(diǎn),支持用于AI訓(xùn)練的各種指令,包括FP32、BFP16、CFP8、INT32、INT16和INT8。 D1芯片應(yīng)用于于特斯拉車輛收集的視頻數(shù)據(jù)訓(xùn)練模型。 負(fù)責(zé)開發(fā)D1芯片和Dojo超算的領(lǐng)導(dǎo)人,Venkataramanan之前來自AMD,并在AMD擔(dān)任了近15年的長期工程總監(jiān),目前在在特斯拉工作7年左右時間。 在過去的幾年里,人工智能(AI)被廣泛采用。眾所周知,特斯拉是一家從事電動汽車和自動駕駛汽車的公司,人工智能對公司工作的各個方面都具有巨大的價值。為了加快人工智能軟件的工作負(fù)載,特斯拉不得不推出了用于人工智能培訓(xùn)的D1芯片和超算Dojo。 當(dāng)然,超算Dojo是通過組合25個D1芯片組成的訓(xùn)練模塊作為主要計(jì)算單元,整合了CPU、存儲、通訊接口、網(wǎng)絡(luò)、電源等模塊,最終構(gòu)建了一套性能超前的超級計(jì)算機(jī)。 目前有許多公司為人工智能工作負(fù)載構(gòu)建ASIC。從無數(shù)的初創(chuàng)公司,一直到亞馬遜、百度、英特爾和英偉達(dá)等大公司。然而,并非每個人都能正確應(yīng)用充分發(fā)揮出ASIC芯片價值,也不是每個人都能完美地滿足每個工作負(fù)載量。這應(yīng)該就是為什么特斯拉選擇為人工智能訓(xùn)練目的而開發(fā)自己ASIC芯片的另一個重要原因。想要發(fā)揮出GPU的真正完美性能,還是得自己掌握技術(shù)并付諸實(shí)際應(yīng)用優(yōu)化。 據(jù)多個媒體消息稱,特斯拉將超級計(jì)算平臺Dojo的生產(chǎn)被提上議程,Dojo將于2023年7月開始生產(chǎn)。特斯拉還預(yù)計(jì)其計(jì)算能力將在2024年1月左右躋身全球Top5之列。 業(yè)內(nèi)預(yù)計(jì),當(dāng)Dojo超級計(jì)算機(jī)開始交付后,可能會看到特斯拉FSD(Full Self-Drive)完全自動駕駛更快的迭代和改進(jìn)。 2023年,特斯拉CEO埃隆·曾在公司第一季度財(cái)報(bào)電話會議上表示,該公司的超級計(jì)算機(jī)Dojo的“潛力非常巨大”。馬斯克表示,特斯拉正在為Dojo“投入大量精力”,并相信它“有可能在訓(xùn)練成本上有一個數(shù)量級的提高”。 全球存儲觀察阿明分析認(rèn)為,真正的狠人,像馬斯克這樣是自己搞芯片,自己搞超算,自己做模型,自己做訓(xùn)練,自己做應(yīng)用,自己實(shí)現(xiàn)商業(yè)化。特斯拉實(shí)現(xiàn)了這樣的從芯到“行”的“一條龍”技術(shù)創(chuàng)新之路,從芯片到完全自動駕駛?cè)鞒痰膭?chuàng)新,從硬件到軟件到應(yīng)用,觸及到電動汽車行業(yè)的每一個創(chuàng)新的層級,擁有這樣強(qiáng)大的創(chuàng)新能力,特斯拉還是很牛。 - END- 你 怎 么 看 ? 歡迎文末評論補(bǔ)充! 【全球存儲觀察 |全球云觀察 |阿明觀察 |科技明說】專注科技公司分析,用數(shù)據(jù)說話,帶你看懂科技。本文和作者回復(fù)僅代表個人觀點(diǎn),不構(gòu)成任何投資建議。 |
|