【原】?光追與AI兩手抓，英特爾銳炫A系列淺析

愛極物 2022-04-12

展開全文

在英特爾近期發(fā)布的消費級產品中，除了12代酷睿系列處理器，最重要的莫過于英特爾Arc銳炫系列高性能獨立顯卡，這是自從1998年i740之后，英特爾重新回歸游戲GPU領域，并且一步到位，不僅支持時下主流的實時光線追蹤、DX12 Ultimate，同時也引入了先進的架構設計，以及英特爾的獨門技術。是的，即便剛剛起步，英特爾Arc同樣顯得誠意滿滿。

事實上，在英特爾Arc銳炫系列獨顯正式發(fā)布的同時，諸如三星Galaxy Book2 Pro這樣的筆記本也已經同步上市，并且在第二季度，OEM廠商也將陸續(xù)在國內推出采用英特爾Arc銳炫系列獨顯的筆記本，并納入英特爾Evo嚴苛認證的體系內。

那么英特爾Arc銳炫系列獨顯在上市之初為何可以收到如此青睞，它能否可以解決我們工作、游戲、移動場景需求？現在不妨讓我們在英特爾Arc銳炫系列全面鋪貨之前，預習一番。

Arc 3、5、7新品蓄勢待發(fā)

在沒有正式涉足消費領域之前，英特爾其實已經準備了一套完整的GPU架構和設計方案，并在10代酷睿上Iris核顯Xe-LP開始付諸應用，然后發(fā)展到游戲獨立顯卡的Xe-HPG，也就是之前常被提到的DG2。

Xe-HPG代表著一整套英特爾GPU技術的發(fā)展體系，現階段首先面世的是Alchemist（煉金術士）架構GPU，在未來的技術演進中，還將包括Battlemage（戰(zhàn)斗法師）、Celestial（天人）和Druid（德魯伊）多個架構，通過一套組合拳，來表達英特爾在GPU領域嚴謹的技術發(fā)展規(guī)劃。

回到產品本身。首發(fā)的Alchemist架構下包含Intel Arc 3、Intel Arc 5和Intel Arc 7三個系列定位，與英特爾的Core i系列相同，也便于消費者更好的理解。

首發(fā)的Intel A350M和A370M屬于Intel Arc 3系列，與輕薄型筆記本搭配，用來解決1080p分辨率的主流游戲產品，以及提供一定程度內容創(chuàng)作性能。在今年第二季度，Intel 5和Intel 7也會陸續(xù)推出，分別定位性能游戲，以及硬核性能游戲，對應的GPU性能與創(chuàng)作能力也更強。

這里英特爾也大方的展示了三個系列5個型號的具體產品細節(jié)。例如A370M擁有8個Xe內核和光追單元，64bit位寬，功耗設計在35W到50W，A550M擁有16個Xe內核和光追單元，顯存位寬來到128bit。而象征著高端的A770M則擁有32個Xe內核和光追單元，256bit顯存位寬，16GB顯存容量，功耗也來到了120W到150W之間。

無一例外的是，所有獨立顯卡都將配備GDDR6顯存，具備獨立的硬件實時光線追蹤單元，支持微軟DXR和Vulkan RT，并且也支持DirectX 12 Ultimate里面所需要的可變速率著色、網格著色、采樣器反饋等功能。

在英特爾官方提供的游戲幀率參考中可以發(fā)現，通過A370M與酷睿i7-12700H搭配，目前主流的游戲可以達到60FPS以上，而對競技性要求更高的《堡壘之夜》等在線對抗類游戲，更是可以突破90FPS。

同樣，針對新推出的游戲，Intel Arc也進行了提前優(yōu)化。英特爾已經與頂級游戲工作室展開合作，將GPU的AI引擎，新技術，以及用于游戲幀率優(yōu)化的XeSS超級采樣技術融入到游戲和內容創(chuàng)作軟件中，讓新版游戲和創(chuàng)作軟件在到手的那一刻就能發(fā)揮出GPU的應有性能。這一點我們會在文章后半部分進行相對深度的解析。

讓技術先行

Xe-HPG循序漸進的發(fā)展體系，注定了英特爾GPU在推向消費市場是產品走向成熟化的結果。在了解Intel Arc，Xe-HPG架構之前，不妨讓我們從產品技術基礎開始，這也將幫助我們理解英特爾GPU，以及對英特爾GPU未來數年規(guī)劃是如何產生影響的。

從結構上來看，Xe-HPG并非Xe-LP的粗暴擴充版本，而是引入了一套英特爾全新的IP內核Xe-Core，也就是Xe內核。這也意味著，諸如EU、執(zhí)行單元之類的描述，是無法準確表達Xe-HPG相關GPU的。

Xe內核可以理解成為向量與張量ALU的集合，具備獨立的L0和L1緩存，在邏輯層面上與Xe-LP子切片、NVIDIA SM流處理器相近。這樣的設計主要是方便不同的開發(fā)人員在邏輯上調用的方便性，以便更好的與主流市場兼容。需要注意的是，單元層級之間也并非一成不變，可以根據市場需求情況進行調整，比如NVIDIA就曾經數次對SM層級進行修改，匹配當時的游戲和視覺運算需要。

每一個Xe內核中都配備了16個矢量引擎（Xe Vector Engines，XVE）和16個矩陣引擎（Xe Matrix eXtensions，XMX）。

先說矢量引擎。每個矢量引擎在每個周期內可以處理256bit，主要為傳統(tǒng)圖形著色器執(zhí)行大部分運算。如果再向下拆解，每個矢量引擎包含8個FP32 ALU，與Xe-LP EU大致相同。由于16個矢量引擎每個時鐘能夠處理128次FP32操作，即FMA吞吐量為256 FLOPS。在每時鐘吞吐量上，英特爾Arc的表現與世面主流顯卡NVIDIA Ampere GPU SM吞吐量是相同的。

在Xe內核中，與16個矢量引擎進行1:1配對的是16個矩陣引擎，主要負責傳統(tǒng)圖像處理的計算任務，解決一系列大型的矩陣乘法和累加算法問題，包括游戲中會使用到的XeSS超采樣技術，以平衡實時光線追蹤技術對游戲幀率造成的衰減。

這里英特爾使用了一個專有名詞來命名，即Xe Matrix eXtensions，縮寫XMX，可見其重要性。XMX主要用于AI加速、矩陣/張量計算，每個XMX引擎使用一個8深度脈動陣列制。XMX每個時鐘周期執(zhí)行8個512位寬的矩陣計算運算。這些矢量引擎和矩陣引擎由一個可以每個時鐘周期取回512B數據的寬加載/存儲單元支持。從而有效提高執(zhí)行性能和算力，可以同時調度和執(zhí)行浮點FP、整數INT和 XMX 指令，并以鎖步形式并行兩個引擎和共享資源。

Xe內核向上一個層級，被稱為渲染切片（Rendering Slice），渲染切片將給英特爾GPU提供大部分的功能，包括前面提到的可變速率著色、網格著色、采樣器反饋等等。其中實時光線追蹤單元也與主流的RT Core類似，通過加速光線遍歷、求交測試、交匯點著色計算獲得光追結果。

在Alchemist（煉金術士）架構中，1個渲染切片包含4個Xe內核，4個光線追蹤單元，4個紋理采樣器、幾何/光柵化前端，2個像素后端。這樣4:4:4的布局意味著煉金術士GPU內，每個Xe內核都能擁有自己的紋理采樣器和光線追蹤單元。

同時這也提升了Xe-HPG靈活的特性。通過疊加或者刪減渲染切片，就可以打造匹配不同規(guī)格和關進的GPU，目前可以提供至少2個最多8個的渲染切片配置。在未來制程工藝如果再進步，即使不更改邏輯層，也能通過融入更多的渲染切片達到更高的吞吐量和更好的效果。

黑科技加持

新GPU如果想在市場站穩(wěn)腳跟，必然需要一些黑科技的加持。在文章中被反復強調的XeSS超采樣技術正式其中之一，利用XMX的AI性能加速，通過一系列AI優(yōu)化算法，以更低的運算資源作為代價，換取更高的性能和圖像質量。

在技術層面，XeSS技術是一種結合了空間和時間在AI圖像提升的方式，在宣布Arc品牌發(fā)布之前，英特爾已經進行了很長時間的研發(fā)，SDK也已經先行交個游戲開發(fā)工作室，因此在正式發(fā)布英特爾GPU的時候，已經獲得了14款游戲對XeSS技術的支持。

在另一個層面，英特爾則引入了一套Deep Link技術，這是涵蓋不同技術的總稱，包括了英特爾旗下諸多技術革新，包括動態(tài)功率共享，超級編碼和超級算力。

動態(tài)功率共享顧名思義，這項技術能在系統(tǒng)功耗的限制范圍內，盡可能最大化釋放CPU或GPU的性能。早在KabyLake-G時代，英特爾就已經開始嘗試CPU與GPU之間的動態(tài)功率分配。

在實際運行中，英特爾會循環(huán)采集各種系統(tǒng)信息，包括但不限于CPU和GPU的溫度，占用率，各自的功耗等等，最核心的參數還是GPU的利用率。根據游戲的負載不同，當系統(tǒng)發(fā)現GPU負載過高會動態(tài)調整GPU和CPU的功率配比，將更多的功率分配給GPU。當系統(tǒng)發(fā)現GPU負載較低，會動態(tài)調整功率配比，將功率分配向CPU。如果達到了良好的動態(tài)平衡，就維持當前的功率配比。

重點是，英特爾會以100毫秒為最小間隔來動態(tài)調控功率配比，實現CPU與GPU之間功耗的高速匹配。

針對編碼，英特爾則引入了一套名為超級編碼的技術，如果筆記本同時使用了英特爾的CPU和GPU，這套超級編碼技術就會啟用，同時使用CPU的核顯以及獨立GPU協(xié)同工作，以提升效率。這套技術是通過OneVPL的API來實現的，而OneVPL本身就是一個跨平臺開放性架構，這意味著更多的媒體引擎都可以加入到這項技術中，充分發(fā)揮視頻的處理能力。

Deep Link技術還包括了一項超級算力技術。這項技術主要應用在AI運算上，同樣是CPU核顯與GPU搭配使用，基于OpenVINO框架實現，通過延遲敏感度、吞吐量、性能要求、功率消耗情況，將AI運算分配給核顯或者獨立GPU。這也使得在同時擁有英特爾CPU和英特爾Arc獨顯的情況下，筆記本在諸如視頻降噪、提升分辨率、銳化等AI加速表現上，擁有更強的提升。

除此之外，Xe-HPG也融入了Xe媒體引擎，提供了包括H.265 / HEVC、H.264 / MPEG-4 / AVC、VP9 以及業(yè)界首個對 AV1編碼和解碼的硬件加速支持，英特爾也成為第一家為AV1構建硬件編碼支持的GPU提供商。

在規(guī)格上，AV1的效率比最常見的編解碼器H.264高了50%，比HEVC高了20%，能夠以更低的帶寬和更小的文件大小提供更高的畫面質量，并且沒有版權費用的禁錮。Intel Arc中的AV1編碼硬件加速與傳統(tǒng)的軟件實現相比，效率提升了50倍。目前為止，FFMPEG、Handbrake、Adobe和XSplit都集成了對Intel Arc AV1的支持。

Xe顯示引擎還支持包括HDMI 2.0b和DisplayPort 1.4a的規(guī)格，最高能夠提供1080p@360Hz輸出，或者4個4k@120Hz HDR顯示器擴展。

同時英特爾還引入了支持VESA標準的Adaptive Sync技術。為了追求跟高的游戲幀率和更快的響應速度，游戲玩家通常會關閉顯示器垂直同步V-Sync，但會造成在高渲染率下玩電子競技游戲時的畫面撕裂的問題。英特爾Adaptive Sync運用了模糊化兩個撕裂幀之間的邊界，來減少視覺失真，從而實現打開Smooth Sync功能，讓畫面連貫的效果。

全面融入英特爾生態(tài)

無論哪一家GPU廠商，都并非簡單提供一個GPU硬件，為了推向更廣闊的市場，必須要包辦軟件和應用在內的完整解決方案。事實上這也正是英特爾生態(tài)體系下最為擅長的地方。在英特爾Arc銳炫推出的同時，英特爾也開始注重GPU帶來的實際體驗，并將其融入英特爾Evo嚴苛認證體系范圍之內。

在發(fā)布新顯卡的同時，英特爾同步推出了Arc Control 銳炫控制面板，能夠一站式提供與銳炫顯卡相關的設定或者信息接收，包括可以讓用戶快速升級驅動，及時看到顯卡性能的工作負載，虛擬攝像頭設定，自動生成游戲高光時刻，主播軟件設定等等。

與GFE類似，Arc Control控制面板提供了一套無關操作系統(tǒng)的圖層疊加技術，在盡可能少使用處理器工作負載的前提下，完成快速便捷的交互任務。同時Arc Control控制面板也支持快速安裝和自動更新，比如新游戲上架之后，Arc Control控制面板也能快速提供對應的新游戲驅動，優(yōu)化Arc顯卡運行游戲的性能。

針對性能玩家，Arc Control控制面板也提供了一套性能檢測參考，以及完整的GPU工作負載情況，在未來針對臺式機GPU，還會提供功率控制和風扇速度。同時，Arc Control還提供了直播、串流相關的功能和設置，能夠更快的將游戲畫面上傳至直播平臺。虛擬攝像頭也可以幫助玩家快速提供背景移除、自動畫面比例調整、自動保存高光時刻功能。

如開頭所說，全球首款搭載銳炫A350M顯卡的筆記本是三星Galaxy Book2 Pro已經開始在部分地區(qū)銷售，而很快英特爾的OEM和ODM合作伙伴也會跟進，在中國市場推出對應的英特爾銳炫產品，高端游戲筆記本中也將出現英特爾的身影。

毫無疑問的是，隨著英特爾銳炫A系列獨立顯卡的推出，英特爾的筆記本體系也將變得更為完整和高效。這也將促進合作伙伴加速整個筆記本生態(tài)應用和效能升級，更進一步催生出多樣化的筆記本產品。無論對游戲玩家、內容創(chuàng)作者還是基本辦公需求的用戶而言，都將帶來體驗上的全新改變。而這一點對于消費者而言，是最為重要的。