【原】英特爾架構(gòu)日2021：游戲獨(dú)顯Xe-HPG淺析

愛極物 2022-03-02

展開全文

聊完Alder Lake架構(gòu)之后，自然要聊聊英特爾架構(gòu)日上的重頭戲Xe-HPG GPU。在過去幾年中，英特爾一直在進(jìn)入獨(dú)顯市場的門口反復(fù)徘徊，希望推出一款具備戰(zhàn)斗力GPU產(chǎn)品，而這個(gè)時(shí)間點(diǎn)放在了2022年。

雖然還沒有正式涉足消費(fèi)GPU領(lǐng)域，但英特爾已經(jīng)準(zhǔn)備了一套完整的GPU設(shè)計(jì)和架構(gòu)，高性能GPU包含了Xe-HP、Xe-HPC和Xe-HPG三款產(chǎn)品，其中Xe-HPG被唯一進(jìn)軍游戲市場的重任，也就是之前經(jīng)常被提到的DG2。

在2021英特爾架構(gòu)日上，英特爾放出了更多關(guān)于Xe-HPG的信息。

新基本單位：Xe-Core

如此前報(bào)道一樣，Xe-HPG衍生出來出來的Alchemist煉金術(shù)士GPU正是為了與AMD、NVIDIA展開正面競爭而存在。按照規(guī)劃Intel ARC品牌在未來將包含Alchemist煉金術(shù)士，Battlemage戰(zhàn)斗法師、Celestial天人和Druid德魯伊數(shù)個(gè)架構(gòu)，打出一套關(guān)于GPU的組合皮埃。

由此可見Xe-HPG在一開始就開始承擔(dān)重任，它并非Xe-LP的擴(kuò)充版本。相反，英特爾引入了一個(gè)全新的基本模塊，即Xe-Core。換而言之，以往的EU或者執(zhí)行單元無法再確切表達(dá)英特爾GPU相關(guān)描述。

Xe-Core可以理解為向量與張量ALU的集合，配備L0和L1緩存單元。在邏輯層面上與Xe-LP子切片、NVIDIA SM（流式多處理器）接近。如果稍微了解一點(diǎn)GPU的同學(xué)可能會清楚，單元層級之間并非一成不變，例如NVIDIA在更新架構(gòu)的時(shí)候就曾經(jīng)對SM層級進(jìn)行修改。

從公布的內(nèi)容來看每個(gè)Xe-Core中會包含有16個(gè)矢量引擎（Vector Engines，VE）和16個(gè)矩陣引擎（Xe Matrix eXtensions，XMX）。

先說矢量引擎。每個(gè)矢量引擎在每個(gè)周期內(nèi)可以處理256bit。如果再向下拆解，每個(gè)矢量引擎包含8個(gè)FP32 ALU，與Xe-LP EU大致相同。由于16個(gè)矢量引擎每個(gè)時(shí)鐘能夠處理128次FP32操作，即FMA吞吐量為256 FLOPS，那么在每時(shí)鐘吞吐量上也與NVIDIA Ampere GPU的SM相同。

在Xe-Core中，每16個(gè)矢量引擎與16個(gè)矩陣引擎配對，用于矩陣和張量計(jì)算，這里英特爾使用了一個(gè)專有名詞來命名，即Xe Matrix eXtensions，縮寫XMX，可見其重要性。XMX主要用于AI加速、矩陣/張量計(jì)算，每個(gè)XMX引擎使用一個(gè)8深度脈動(dòng)陣列制。XMX每個(gè)時(shí)鐘周期執(zhí)行8個(gè)512位寬的矩陣計(jì)算運(yùn)算。這些矢量和矩陣引擎由一個(gè)可以每個(gè)時(shí)鐘周期取回512B數(shù)據(jù)的寬加載/存儲單元支持。每個(gè)Xe-Core有512KB L1的數(shù)據(jù)緩存。

雖然SM、Xe-Core在矢量吞吐上相匹配，但是英特爾擁有2倍于NVIDIA的矩陣運(yùn)算吞吐，能夠執(zhí)行的數(shù)量是ALU數(shù)量的兩倍，這意味著英特爾GPU仍然傾向于在矩陣運(yùn)算、人工智能計(jì)算上投入更多資源。但需要注意的是，目前為止大多數(shù)圖形著色器是用不上XMX的。

渲染切片：構(gòu)成完成GPU

在Xe-Core的基礎(chǔ)上，Xe-HPG再向上一層的邏輯是渲染切片（Render Slice），與Xe-LP一樣，切片給英特爾GPU提供了大部分的功能。

對于即將發(fā)布的煉金術(shù)士Alchemist而言，一個(gè)切片包含4個(gè)Xe-Core，4個(gè)光線追蹤單元，4個(gè)紋理采樣器、幾何/光柵化前端，2個(gè)像素后端。這樣4:4:4的布局意味著煉金術(shù)士GPU內(nèi)，每個(gè)Xe-Core都擁有自己的紋理采樣器和光線追蹤單元。

同時(shí)，英特爾還確認(rèn)光線追蹤單元使用的是加速光線遍歷、求交測試、交匯點(diǎn)著色計(jì)算過程，與NVIDIA RT Core相類似。

從目前來看，完整的Alchemist GPU最多擁有8個(gè)渲染切片，連接這些切片后端的是傳統(tǒng)的內(nèi)存結(jié)構(gòu)，也就是圖片中的L2緩存。不過從架構(gòu)圖中還暫時(shí)看不到PCIe接口、媒體引擎、顯示控制器等周邊部分。而從此前Linux驅(qū)動(dòng)程序顯示的情況來看，Alchemist GPU將支持DisplayPort 2.0，英特爾成為首個(gè)支持DP新標(biāo)準(zhǔn)的廠商。

如果按照8個(gè)渲染切片來推算，明年發(fā)布的Alchemist GPU將包含32個(gè)Xe-Core，4096個(gè)FP32 ALU，支持DirectX 12 Ultimate，具備XMX矩陣引擎，以及對最新標(biāo)準(zhǔn)的支持。事實(shí)上，光是前面提到的紙面參數(shù)，就已經(jīng)是DG1 Xe-LP GPU矢量引擎ALU數(shù)量的5倍。

XeSS：對抗DLSS的殺手锏

在推出架構(gòu)的同時(shí)，用來優(yōu)化游戲圖像的Xe Super Sampling，也就是XeSS技術(shù)也推到了眾人面前，類似于當(dāng)下火熱的NVIDIA DLSS，AMD FSR，通過一系列AI優(yōu)化算法，以更低的運(yùn)算資源作為代價(jià)，換取更高的性能和圖像質(zhì)量。

因此XeSS技術(shù)在一種結(jié)合空間和時(shí)間在AI圖像上進(jìn)行提升的技術(shù)，在宣布ARC品牌之前，英特爾已經(jīng)進(jìn)行了很長時(shí)間的研發(fā)，并且SDK將在本月交付給游戲開發(fā)商。

在優(yōu)化表現(xiàn)上，XeSS技術(shù)主要競爭對手應(yīng)該是NVIDIA DLSS 2.X。特別是針對當(dāng)下啊4K顯示屏愈發(fā)便宜，8K顯示內(nèi)容蓄勢待發(fā)，依靠Alchemist GPU內(nèi)置的XMX的龐大數(shù)量，英特爾顯然希望一開始就能將XeSS做到最好。

在方法上，是英特爾讓使用了空間數(shù)據(jù)（相鄰像素）和時(shí)間數(shù)據(jù)（前一幀運(yùn)動(dòng)物體向量）組合交于神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，但如何處理重影、混疊和在其他產(chǎn)品中可能會產(chǎn)生的Bug尚不得而知。

除了需要XMX硬件支持的版本，XeSS也在考慮純軟件版本，即可以在Xe-LP上付諸實(shí)踐，讓XeSS技術(shù)支持擁有更廣闊的范圍。甚至類似AMD FSR兼容N卡一樣，讓XeSS成為一項(xiàng)更普遍的技術(shù)，也因?yàn)槿绱?，英特爾最終計(jì)劃在某個(gè)時(shí)間點(diǎn)開源XeSS SDK和對應(yīng)工具，以獲得更廣泛的第三方支持。

在架構(gòu)日上，英特爾展示了一些XeSS在虛幻引擎中的實(shí)際操作視頻，可以看到XeSS已經(jīng)能夠做到將1080p分辨率的內(nèi)容做到與4K渲染畫面基本相同的級別。

值得注意的是，目前英特爾已經(jīng)完成了針對GPU內(nèi)存管理器、著色編譯器的該著，游戲加載時(shí)間縮短了25%，密集型游戲吞吐量提18%。XeSS作為一項(xiàng)能夠橫跨軟件和硬件的技術(shù)，勢必成為未來一段時(shí)間英特爾GPU的主要賣點(diǎn)之一，因此能夠看到XeSS會在短時(shí)間內(nèi)快速發(fā)展，最終對NVIDIA DLSS技術(shù)構(gòu)成威脅。

臺積電N6制造

當(dāng)然，對于英特爾而言，能夠盡快的將Alchemist GPU造出來投入市場賺錢才是正經(jīng)事，這里英特爾將制造交給了更具競爭力的臺積電7nm工藝，同時(shí)臺積電7nm工藝也用于制造AMD GPU，NVIDIA則使用相對落后的三星8nm。

英特爾宣布Alchemist GPU將成為首批使用臺積電N6工藝的產(chǎn)品，本質(zhì)上N6即是臺積電7nm工藝的改進(jìn)版本，雖然N5工藝猛，但經(jīng)濟(jì)實(shí)惠。N6工藝在臺積電7nm的基礎(chǔ)上，用EUV層替代了部分DUV層，密度提高了約18%。

如果GPU真的能在2022年第一季度發(fā)布，那么英特爾Alchemist GPU無疑會成為市面上工藝最先進(jìn)的GPU，進(jìn)而幫助英特爾ARC品牌打開市場局面。

同時(shí)，英特爾工程師也在研究效能更高的Alchemist GPU，通過優(yōu)化邏輯電路設(shè)計(jì)，達(dá)到節(jié)能和提升時(shí)鐘頻率的設(shè)計(jì)。從公布的數(shù)據(jù)來看，相比Xe-LP，英特爾的電源效率和時(shí)鐘頻率提升了50%，其中時(shí)鐘頻率大約會在2.4GHz左右，介于NVIDIA和AMD之間，F(xiàn)P32單精度著色器計(jì)算吞吐量估計(jì)為18.5 TFLOPS，將達(dá)到Xe-LP DG1的9倍。

最后：2022蓄勢待發(fā)

作為英特爾向消費(fèi)級GPU邁出的第一步，Alchemist GPU還有許多謎題尚未披露，但從未來多架構(gòu)發(fā)布的節(jié)奏來看，英特爾已經(jīng)做好了長期堅(jiān)持的準(zhǔn)備。畢竟游戲GPU領(lǐng)域一個(gè)手掌拍不響，需要與游戲工作組、引擎、各項(xiàng)標(biāo)準(zhǔn)匹配，需要長時(shí)間的積累和進(jìn)步。

歷經(jīng)了DG1的小試牛刀，DG2無疑會更向前跨進(jìn)一步，至于即將到來的Alchemist GPU會是什么樣的表現(xiàn)，相信我們很快就能知道了。