在英特爾近期發(fā)布的消費級產品中,除了12代酷睿系列處理器,最重要的莫過于英特爾Arc銳炫系列高性能獨立顯卡,這是自從1998年i740之后,英特爾重新回歸游戲GPU領域,并且一步到位,不僅支持時下主流的實時光線追蹤、DX12 Ultimate,同時也引入了先進的架構設計,以及英特爾的獨門技術。是的,即便剛剛起步,英特爾Arc同樣顯得誠意滿滿。 事實上,在英特爾Arc銳炫系列獨顯正式發(fā)布的同時,諸如三星Galaxy Book2 Pro這樣的筆記本也已經同步上市,并且在第二季度,OEM廠商也將陸續(xù)在國內推出采用英特爾Arc銳炫系列獨顯的筆記本,并納入英特爾Evo嚴苛認證的體系內。 那么英特爾Arc銳炫系列獨顯在上市之初為何可以收到如此青睞,它能否可以解決我們工作、游戲、移動場景需求?現在不妨讓我們在英特爾Arc銳炫系列全面鋪貨之前,預習一番。 Arc 3、5、7新品蓄勢待發(fā) 在沒有正式涉足消費領域之前,英特爾其實已經準備了一套完整的GPU架構和設計方案,并在10代酷睿上Iris核顯Xe-LP開始付諸應用,然后發(fā)展到游戲獨立顯卡的Xe-HPG,也就是之前常被提到的DG2。 Xe-HPG代表著一整套英特爾GPU技術的發(fā)展體系,現階段首先面世的是Alchemist(煉金術士)架構GPU,在未來的技術演進中,還將包括Battlemage(戰(zhàn)斗法師)、Celestial(天人)和Druid(德魯伊)多個架構,通過一套組合拳,來表達英特爾在GPU領域嚴謹的技術發(fā)展規(guī)劃。 回到產品本身。首發(fā)的Alchemist架構下包含Intel Arc 3、Intel Arc 5和Intel Arc 7三個系列定位,與英特爾的Core i系列相同,也便于消費者更好的理解。 首發(fā)的Intel A350M和A370M屬于Intel Arc 3系列,與輕薄型筆記本搭配,用來解決1080p分辨率的主流游戲產品,以及提供一定程度內容創(chuàng)作性能。在今年第二季度,Intel 5和Intel 7也會陸續(xù)推出,分別定位性能游戲,以及硬核性能游戲,對應的GPU性能與創(chuàng)作能力也更強。 這里英特爾也大方的展示了三個系列5個型號的具體產品細節(jié)。例如A370M擁有8個Xe內核和光追單元,64bit位寬,功耗設計在35W到50W,A550M擁有16個Xe內核和光追單元,顯存位寬來到128bit。而象征著高端的A770M則擁有32個Xe內核和光追單元,256bit顯存位寬,16GB顯存容量,功耗也來到了120W到150W之間。 無一例外的是,所有獨立顯卡都將配備GDDR6顯存,具備獨立的硬件實時光線追蹤單元,支持微軟DXR和Vulkan RT,并且也支持DirectX 12 Ultimate里面所需要的可變速率著色、網格著色、采樣器反饋等功能。 在英特爾官方提供的游戲幀率參考中可以發(fā)現,通過A370M與酷睿i7-12700H搭配,目前主流的游戲可以達到60FPS以上,而對競技性要求更高的《堡壘之夜》等在線對抗類游戲,更是可以突破90FPS。 同樣,針對新推出的游戲,Intel Arc也進行了提前優(yōu)化。英特爾已經與頂級游戲工作室展開合作,將GPU的AI引擎,新技術,以及用于游戲幀率優(yōu)化的XeSS超級采樣技術融入到游戲和內容創(chuàng)作軟件中,讓新版游戲和創(chuàng)作軟件在到手的那一刻就能發(fā)揮出GPU的應有性能。這一點我們會在文章后半部分進行相對深度的解析。 讓技術先行 Xe-HPG循序漸進的發(fā)展體系,注定了英特爾GPU在推向消費市場是產品走向成熟化的結果。在了解Intel Arc,Xe-HPG架構之前,不妨讓我們從產品技術基礎開始,這也將幫助我們理解英特爾GPU,以及對英特爾GPU未來數年規(guī)劃是如何產生影響的。 從結構上來看,Xe-HPG并非Xe-LP的粗暴擴充版本,而是引入了一套英特爾全新的IP內核Xe-Core,也就是Xe內核。這也意味著,諸如EU、執(zhí)行單元之類的描述,是無法準確表達Xe-HPG相關GPU的。 Xe內核可以理解成為向量與張量ALU的集合,具備獨立的L0和L1緩存,在邏輯層面上與Xe-LP子切片、NVIDIA SM流處理器相近。這樣的設計主要是方便不同的開發(fā)人員在邏輯上調用的方便性,以便更好的與主流市場兼容。需要注意的是,單元層級之間也并非一成不變,可以根據市場需求情況進行調整,比如NVIDIA就曾經數次對SM層級進行修改,匹配當時的游戲和視覺運算需要。 每一個Xe內核中都配備了16個矢量引擎(Xe Vector Engines,XVE)和16個矩陣引擎(Xe Matrix eXtensions,XMX)。 先說矢量引擎。每個矢量引擎在每個周期內可以處理256bit,主要為傳統(tǒng)圖形著色器執(zhí)行大部分運算。如果再向下拆解,每個矢量引擎包含8個FP32 ALU,與Xe-LP EU大致相同。由于16個矢量引擎每個時鐘能夠處理128次FP32操作,即FMA吞吐量為256 FLOPS。在每時鐘吞吐量上,英特爾Arc的表現與世面主流顯卡NVIDIA Ampere GPU SM吞吐量是相同的。 在Xe內核中,與16個矢量引擎進行1:1配對的是16個矩陣引擎,主要負責傳統(tǒng)圖像處理的計算任務,解決一系列大型的矩陣乘法和累加算法問題,包括游戲中會使用到的XeSS超采樣技術,以平衡實時光線追蹤技術對游戲幀率造成的衰減。 這里英特爾使用了一個專有名詞來命名,即Xe Matrix eXtensions,縮寫XMX,可見其重要性。XMX主要用于AI加速、矩陣/張量計算,每個XMX引擎使用一個8深度脈動陣列制。XMX每個時鐘周期執(zhí)行8個512位寬的矩陣計算運算。這些矢量引擎和矩陣引擎由一個可以每個時鐘周期取回512B數據的寬加載/存儲單元支持。從而有效提高執(zhí)行性能和算力,可以同時調度和執(zhí)行浮點FP、整數INT和 XMX 指令,并以鎖步形式并行兩個引擎和共享資源。 Xe內核向上一個層級,被稱為渲染切片(Rendering Slice),渲染切片將給英特爾GPU提供大部分的功能,包括前面提到的可變速率著色、網格著色、采樣器反饋等等。其中實時光線追蹤單元也與主流的RT Core類似,通過加速光線遍歷、求交測試、交匯點著色計算獲得光追結果。 在Alchemist(煉金術士)架構中,1個渲染切片包含4個Xe內核,4個光線追蹤單元,4個紋理采樣器、幾何/光柵化前端,2個像素后端。這樣4:4:4的布局意味著煉金術士GPU內,每個Xe內核都能擁有自己的紋理采樣器和光線追蹤單元。 同時這也提升了Xe-HPG靈活的特性。通過疊加或者刪減渲染切片,就可以打造匹配不同規(guī)格和關進的GPU,目前可以提供至少2個最多8個的渲染切片配置。在未來制程工藝如果再進步,即使不更改邏輯層,也能通過融入更多的渲染切片達到更高的吞吐量和更好的效果。 黑科技加持 新GPU如果想在市場站穩(wěn)腳跟,必然需要一些黑科技的加持。在文章中被反復強調的XeSS超采樣技術正式其中之一,利用XMX的AI性能加速,通過一系列AI優(yōu)化算法,以更低的運算資源作為代價,換取更高的性能和圖像質量。 在技術層面,XeSS技術是一種結合了空間和時間在AI圖像提升的方式,在宣布Arc品牌發(fā)布之前,英特爾已經進行了很長時間的研發(fā),SDK也已經先行交個游戲開發(fā)工作室,因此在正式發(fā)布英特爾GPU的時候,已經獲得了14款游戲對XeSS技術的支持。 在另一個層面,英特爾則引入了一套Deep Link技術,這是涵蓋不同技術的總稱,包括了英特爾旗下諸多技術革新,包括動態(tài)功率共享,超級編碼和超級算力。 動態(tài)功率共享顧名思義,這項技術能在系統(tǒng)功耗的限制范圍內,盡可能最大化釋放CPU或GPU的性能。早在KabyLake-G時代,英特爾就已經開始嘗試CPU與GPU之間的動態(tài)功率分配。 在實際運行中,英特爾會循環(huán)采集各種系統(tǒng)信息,包括但不限于CPU和GPU的溫度,占用率,各自的功耗等等,最核心的參數還是GPU的利用率。根據游戲的負載不同,當系統(tǒng)發(fā)現GPU負載過高會動態(tài)調整GPU和CPU的功率配比,將更多的功率分配給GPU。當系統(tǒng)發(fā)現GPU負載較低,會動態(tài)調整功率配比,將功率分配向CPU。如果達到了良好的動態(tài)平衡,就維持當前的功率配比。 重點是,英特爾會以100毫秒為最小間隔來動態(tài)調控功率配比,實現CPU與GPU之間功耗的高速匹配。 針對編碼,英特爾則引入了一套名為超級編碼的技術,如果筆記本同時使用了英特爾的CPU和GPU,這套超級編碼技術就會啟用,同時使用CPU的核顯以及獨立GPU協(xié)同工作,以提升效率。這套技術是通過OneVPL的API來實現的,而OneVPL本身就是一個跨平臺開放性架構,這意味著更多的媒體引擎都可以加入到這項技術中,充分發(fā)揮視頻的處理能力。 Deep Link技術還包括了一項超級算力技術。這項技術主要應用在AI運算上,同樣是CPU核顯與GPU搭配使用,基于OpenVINO框架實現,通過延遲敏感度、吞吐量、性能要求、功率消耗情況,將AI運算分配給核顯或者獨立GPU。這也使得在同時擁有英特爾CPU和英特爾Arc獨顯的情況下,筆記本在諸如視頻降噪、提升分辨率、銳化等AI加速表現上,擁有更強的提升。 除此之外,Xe-HPG也融入了Xe媒體引擎,提供了包括H.265 / HEVC、H.264 / MPEG-4 / AVC、VP9 以及業(yè)界首個對 AV1編碼和解碼的硬件加速支持,英特爾也成為第一家為AV1構建硬件編碼支持的GPU提供商。 在規(guī)格上,AV1的效率比最常見的編解碼器H.264高了50%,比HEVC高了20%,能夠以更低的帶寬和更小的文件大小提供更高的畫面質量,并且沒有版權費用的禁錮。Intel Arc中的AV1編碼硬件加速與傳統(tǒng)的軟件實現相比,效率提升了50倍。目前為止,FFMPEG、Handbrake、Adobe和XSplit都集成了對Intel Arc AV1的支持。 Xe顯示引擎還支持包括HDMI 2.0b和DisplayPort 1.4a的規(guī)格,最高能夠提供1080p@360Hz輸出,或者4個4k@120Hz HDR顯示器擴展。 同時英特爾還引入了支持VESA標準的Adaptive Sync技術。為了追求跟高的游戲幀率和更快的響應速度,游戲玩家通常會關閉顯示器垂直同步V-Sync,但會造成在高渲染率下玩電子競技游戲時的畫面撕裂的問題。英特爾Adaptive Sync運用了模糊化兩個撕裂幀之間的邊界,來減少視覺失真,從而實現打開Smooth Sync功能,讓畫面連貫的效果。 全面融入英特爾生態(tài) 無論哪一家GPU廠商,都并非簡單提供一個GPU硬件,為了推向更廣闊的市場,必須要包辦軟件和應用在內的完整解決方案。事實上這也正是英特爾生態(tài)體系下最為擅長的地方。在英特爾Arc銳炫推出的同時,英特爾也開始注重GPU帶來的實際體驗,并將其融入英特爾Evo嚴苛認證體系范圍之內。 在發(fā)布新顯卡的同時,英特爾同步推出了Arc Control 銳炫控制面板,能夠一站式提供與銳炫顯卡相關的設定或者信息接收,包括可以讓用戶快速升級驅動,及時看到顯卡性能的工作負載,虛擬攝像頭設定,自動生成游戲高光時刻,主播軟件設定等等。 與GFE類似,Arc Control控制面板提供了一套無關操作系統(tǒng)的圖層疊加技術,在盡可能少使用處理器工作負載的前提下,完成快速便捷的交互任務。同時Arc Control控制面板也支持快速安裝和自動更新,比如新游戲上架之后,Arc Control控制面板也能快速提供對應的新游戲驅動,優(yōu)化Arc顯卡運行游戲的性能。 針對性能玩家,Arc Control控制面板也提供了一套性能檢測參考,以及完整的GPU工作負載情況,在未來針對臺式機GPU,還會提供功率控制和風扇速度。同時,Arc Control還提供了直播、串流相關的功能和設置,能夠更快的將游戲畫面上傳至直播平臺。虛擬攝像頭也可以幫助玩家快速提供背景移除、自動畫面比例調整、自動保存高光時刻功能。 如開頭所說,全球首款搭載銳炫A350M顯卡的筆記本是三星Galaxy Book2 Pro已經開始在部分地區(qū)銷售,而很快英特爾的OEM和ODM合作伙伴也會跟進,在中國市場推出對應的英特爾銳炫產品,高端游戲筆記本中也將出現英特爾的身影。 毫無疑問的是,隨著英特爾銳炫A系列獨立顯卡的推出,英特爾的筆記本體系也將變得更為完整和高效。這也將促進合作伙伴加速整個筆記本生態(tài)應用和效能升級,更進一步催生出多樣化的筆記本產品。無論對游戲玩家、內容創(chuàng)作者還是基本辦公需求的用戶而言,都將帶來體驗上的全新改變。而這一點對于消費者而言,是最為重要的。 |
|