聊完Alder Lake架構(gòu)之后,自然要聊聊英特爾架構(gòu)日上的重頭戲Xe-HPG GPU。在過去幾年中,英特爾一直在進(jìn)入獨(dú)顯市場的門口反復(fù)徘徊,希望推出一款具備戰(zhàn)斗力GPU產(chǎn)品,而這個(gè)時(shí)間點(diǎn)放在了2022年。 雖然還沒有正式涉足消費(fèi)GPU領(lǐng)域,但英特爾已經(jīng)準(zhǔn)備了一套完整的GPU設(shè)計(jì)和架構(gòu),高性能GPU包含了Xe-HP、Xe-HPC和Xe-HPG三款產(chǎn)品,其中Xe-HPG被唯一進(jìn)軍游戲市場的重任,也就是之前經(jīng)常被提到的DG2。 在2021英特爾架構(gòu)日上,英特爾放出了更多關(guān)于Xe-HPG的信息。 新基本單位:Xe-Core 如此前報(bào)道一樣,Xe-HPG衍生出來出來的Alchemist煉金術(shù)士GPU正是為了與AMD、NVIDIA展開正面競爭而存在。按照規(guī)劃Intel ARC品牌在未來將包含Alchemist煉金術(shù)士,Battlemage戰(zhàn)斗法師、Celestial天人和Druid德魯伊數(shù)個(gè)架構(gòu),打出一套關(guān)于GPU的組合皮埃。 由此可見Xe-HPG在一開始就開始承擔(dān)重任,它并非Xe-LP的擴(kuò)充版本。相反,英特爾引入了一個(gè)全新的基本模塊,即Xe-Core。換而言之,以往的EU或者執(zhí)行單元無法再確切表達(dá)英特爾GPU相關(guān)描述。 Xe-Core可以理解為向量與張量ALU的集合,配備L0和L1緩存單元。在邏輯層面上與Xe-LP子切片、NVIDIA SM(流式多處理器)接近。如果稍微了解一點(diǎn)GPU的同學(xué)可能會清楚,單元層級之間并非一成不變,例如NVIDIA在更新架構(gòu)的時(shí)候就曾經(jīng)對SM層級進(jìn)行修改。 從公布的內(nèi)容來看每個(gè)Xe-Core中會包含有16個(gè)矢量引擎(Vector Engines,VE)和16個(gè)矩陣引擎(Xe Matrix eXtensions,XMX)。 先說矢量引擎。每個(gè)矢量引擎在每個(gè)周期內(nèi)可以處理256bit。如果再向下拆解,每個(gè)矢量引擎包含8個(gè)FP32 ALU,與Xe-LP EU大致相同。由于16個(gè)矢量引擎每個(gè)時(shí)鐘能夠處理128次FP32操作,即FMA吞吐量為256 FLOPS,那么在每時(shí)鐘吞吐量上也與NVIDIA Ampere GPU的SM相同。 在Xe-Core中,每16個(gè)矢量引擎與16個(gè)矩陣引擎配對,用于矩陣和張量計(jì)算,這里英特爾使用了一個(gè)專有名詞來命名,即Xe Matrix eXtensions,縮寫XMX,可見其重要性。XMX主要用于AI加速、矩陣/張量計(jì)算,每個(gè)XMX引擎使用一個(gè)8深度脈動(dòng)陣列制。XMX每個(gè)時(shí)鐘周期執(zhí)行8個(gè)512位寬的矩陣計(jì)算運(yùn)算。這些矢量和矩陣引擎由一個(gè)可以每個(gè)時(shí)鐘周期取回512B數(shù)據(jù)的寬加載/存儲單元支持。每個(gè)Xe-Core有512KB L1的數(shù)據(jù)緩存。 雖然SM、Xe-Core在矢量吞吐上相匹配,但是英特爾擁有2倍于NVIDIA的矩陣運(yùn)算吞吐,能夠執(zhí)行的數(shù)量是ALU數(shù)量的兩倍,這意味著英特爾GPU仍然傾向于在矩陣運(yùn)算、人工智能計(jì)算上投入更多資源。但需要注意的是,目前為止大多數(shù)圖形著色器是用不上XMX的。 渲染切片:構(gòu)成完成GPU 在Xe-Core的基礎(chǔ)上,Xe-HPG再向上一層的邏輯是渲染切片(Render Slice),與Xe-LP一樣,切片給英特爾GPU提供了大部分的功能。 對于即將發(fā)布的煉金術(shù)士Alchemist而言,一個(gè)切片包含4個(gè)Xe-Core,4個(gè)光線追蹤單元,4個(gè)紋理采樣器、幾何/光柵化前端,2個(gè)像素后端。這樣4:4:4的布局意味著煉金術(shù)士GPU內(nèi),每個(gè)Xe-Core都擁有自己的紋理采樣器和光線追蹤單元。 同時(shí),英特爾還確認(rèn)光線追蹤單元使用的是加速光線遍歷、求交測試、交匯點(diǎn)著色計(jì)算過程,與NVIDIA RT Core相類似。 從目前來看,完整的Alchemist GPU最多擁有8個(gè)渲染切片,連接這些切片后端的是傳統(tǒng)的內(nèi)存結(jié)構(gòu),也就是圖片中的L2緩存。不過從架構(gòu)圖中還暫時(shí)看不到PCIe接口、媒體引擎、顯示控制器等周邊部分。而從此前Linux驅(qū)動(dòng)程序顯示的情況來看,Alchemist GPU將支持DisplayPort 2.0,英特爾成為首個(gè)支持DP新標(biāo)準(zhǔn)的廠商。 如果按照8個(gè)渲染切片來推算,明年發(fā)布的Alchemist GPU將包含32個(gè)Xe-Core,4096個(gè)FP32 ALU,支持DirectX 12 Ultimate,具備XMX矩陣引擎,以及對最新標(biāo)準(zhǔn)的支持。事實(shí)上,光是前面提到的紙面參數(shù),就已經(jīng)是DG1 Xe-LP GPU矢量引擎ALU數(shù)量的5倍。 XeSS:對抗DLSS的殺手锏 在推出架構(gòu)的同時(shí),用來優(yōu)化游戲圖像的Xe Super Sampling,也就是XeSS技術(shù)也推到了眾人面前,類似于當(dāng)下火熱的NVIDIA DLSS,AMD FSR,通過一系列AI優(yōu)化算法,以更低的運(yùn)算資源作為代價(jià),換取更高的性能和圖像質(zhì)量。 因此XeSS技術(shù)在一種結(jié)合空間和時(shí)間在AI圖像上進(jìn)行提升的技術(shù),在宣布ARC品牌之前,英特爾已經(jīng)進(jìn)行了很長時(shí)間的研發(fā),并且SDK將在本月交付給游戲開發(fā)商。 在優(yōu)化表現(xiàn)上,XeSS技術(shù)主要競爭對手應(yīng)該是NVIDIA DLSS 2.X。特別是針對當(dāng)下啊4K顯示屏愈發(fā)便宜,8K顯示內(nèi)容蓄勢待發(fā),依靠Alchemist GPU內(nèi)置的XMX的龐大數(shù)量,英特爾顯然希望一開始就能將XeSS做到最好。 在方法上,是英特爾讓使用了空間數(shù)據(jù)(相鄰像素)和時(shí)間數(shù)據(jù)(前一幀運(yùn)動(dòng)物體向量)組合交于神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),但如何處理重影、混疊和在其他產(chǎn)品中可能會產(chǎn)生的Bug尚不得而知。 除了需要XMX硬件支持的版本,XeSS也在考慮純軟件版本,即可以在Xe-LP上付諸實(shí)踐,讓XeSS技術(shù)支持擁有更廣闊的范圍。甚至類似AMD FSR兼容N卡一樣,讓XeSS成為一項(xiàng)更普遍的技術(shù),也因?yàn)槿绱?,英特爾最終計(jì)劃在某個(gè)時(shí)間點(diǎn)開源XeSS SDK和對應(yīng)工具,以獲得更廣泛的第三方支持。 在架構(gòu)日上,英特爾展示了一些XeSS在虛幻引擎中的實(shí)際操作視頻,可以看到XeSS已經(jīng)能夠做到將1080p分辨率的內(nèi)容做到與4K渲染畫面基本相同的級別。 值得注意的是,目前英特爾已經(jīng)完成了針對GPU內(nèi)存管理器、著色編譯器的該著,游戲加載時(shí)間縮短了25%,密集型游戲吞吐量提18%。XeSS作為一項(xiàng)能夠橫跨軟件和硬件的技術(shù),勢必成為未來一段時(shí)間英特爾GPU的主要賣點(diǎn)之一,因此能夠看到XeSS會在短時(shí)間內(nèi)快速發(fā)展,最終對NVIDIA DLSS技術(shù)構(gòu)成威脅。 臺積電N6制造 當(dāng)然,對于英特爾而言,能夠盡快的將Alchemist GPU造出來投入市場賺錢才是正經(jīng)事,這里英特爾將制造交給了更具競爭力的臺積電7nm工藝,同時(shí)臺積電7nm工藝也用于制造AMD GPU,NVIDIA則使用相對落后的三星8nm。 英特爾宣布Alchemist GPU將成為首批使用臺積電N6工藝的產(chǎn)品,本質(zhì)上N6即是臺積電7nm工藝的改進(jìn)版本,雖然N5工藝猛,但經(jīng)濟(jì)實(shí)惠。N6工藝在臺積電7nm的基礎(chǔ)上,用EUV層替代了部分DUV層,密度提高了約18%。 如果GPU真的能在2022年第一季度發(fā)布,那么英特爾Alchemist GPU無疑會成為市面上工藝最先進(jìn)的GPU,進(jìn)而幫助英特爾ARC品牌打開市場局面。 同時(shí),英特爾工程師也在研究效能更高的Alchemist GPU,通過優(yōu)化邏輯電路設(shè)計(jì),達(dá)到節(jié)能和提升時(shí)鐘頻率的設(shè)計(jì)。從公布的數(shù)據(jù)來看,相比Xe-LP,英特爾的電源效率和時(shí)鐘頻率提升了50%,其中時(shí)鐘頻率大約會在2.4GHz左右,介于NVIDIA和AMD之間,F(xiàn)P32單精度著色器計(jì)算吞吐量估計(jì)為18.5 TFLOPS,將達(dá)到Xe-LP DG1的9倍。 最后:2022蓄勢待發(fā) 作為英特爾向消費(fèi)級GPU邁出的第一步,Alchemist GPU還有許多謎題尚未披露,但從未來多架構(gòu)發(fā)布的節(jié)奏來看,英特爾已經(jīng)做好了長期堅(jiān)持的準(zhǔn)備。畢竟游戲GPU領(lǐng)域一個(gè)手掌拍不響,需要與游戲工作組、引擎、各項(xiàng)標(biāo)準(zhǔn)匹配,需要長時(shí)間的積累和進(jìn)步。 歷經(jīng)了DG1的小試牛刀,DG2無疑會更向前跨進(jìn)一步,至于即將到來的Alchemist GPU會是什么樣的表現(xiàn),相信我們很快就能知道了。 |
|