ADVERTISEMENT
AMD推出的RDNA 4绘图架构在光栅化、光线追蹤绘图以及AI运算的效能表现较前代产品都有长足进展,让我们一起了解其中的改进之处。
回到系列文章目录:AMD发表RDNA 4绘图架构与Radeon RX 9070系列显示卡,支援全新ML加持FSR 4升频功能
较RDNA 2提升2~4倍
RDNA 4绘图架构在基础的运算单元(Compute Unit,以下简称CU)、光线追蹤加速器、AI加速器等元件都有所改善,能够带来显着的效能提升,笔者将AMD所举行的说明会内容与简报整理如下,我们先看到RDNA 4架构的特色说明。
▲ RDNA 4的特色包括针对高阶游戏应用最佳化、强化光栅化绘图(Rasterization,即传统绘图)与运算效率、改善光线追蹤效能、支援高效能机器学习(Machine Learning,以下简称ML)、强化记忆体频宽,改进多媒体功能。RDNA 4架构的光栅化绘图光线追蹤绘图、AI运算的效能表现大约可提升至RDNA 2的2、2.5、4倍。
▲ RDNA 4架构提供许多4K游戏应用需要的改进,包括第3代光线追蹤单元、矩阵加速器(能提高AI与ML运算效能)、最佳化快取记忆体系统(2MB整合CU快取、8MB L2快取、64MB Infinity Cache)、使用高速GDDR6显示记忆体、强化的指令处理器、2组媒体引擎、支援DisplayPort 2.1a与HDMI 2.1b的显示引擎,并使用先进的TSMC(台积电)4nm节点制程。
▲ RDNA 4的媒体引擎能够提升25% H.264格式在低流量或是11% HEVC(H.265)格式的画质表现,并改善AV1格式的B Frame(双向预测画格)效率,并对FFMAPEG、OBS、Handbreak、VLC等转档、直播、播放软件最佳化。
▲ RDNA 4的媒体引擎强化FreeSync电力最佳化,并支援硬体翻转伫列(Flip Queue,可节省影片播放时的处理器耗电)、Radeon Image Sharpening 2影像锐利化等功能。
细看各种单元改进
在了解RDNA 4架构的特色之后,我们接着看看各种运算单元是如何改进并提升整体效能表现。
其中比较值得注意的部分是全新的定向包围盒(Oriented Bounding Box),它透过旋转包围盒方向的方式,达成以较小包围盒覆盖物件,能够降低整体运算的负载,达到提升光线追纵效能的效果。
▲ 在RDNA 4的运算引擎部分,纯量运算单元新增支援FP32资料类型,并整合2组SIMD32向量单元、强化光线追蹤与矩形运算效能、改进排程器与指令预取能力。
▲ 光线追蹤加速器部分,RDNA 4的单元支援每包围合8组光线或每三角型2组光线侦测,具独立硬体光线追蹤个体转换(Instance Transform)并改善BVH(Bounding Volume Hierarchy)资料结构、支援BVH8光线遍历(Ray Traversal),以提高运算效能并降低记忆体佔用量。
▲ 新增支援定向包围盒机制能够旋转侦测光线是否与物件接处的「包围盒」,让原本需要使用尺寸相对大了许多的包围盒(右上图),改为使用尺寸较小但可旋转的包围盒来覆盖需要侦测的物件,达到大约提升10%光线遍历效能的成果。
▲ RDNA 4架构进一步改善乱序记忆体存取的能力,并支援来自不同渲染器(Shaber)的存取需求,进一步降低记忆体子系统统的延持,对光线追蹤绘图的效能表现有关键性的帮助。
▲ 将上述多样改进叠加起来之漏,RDNA 4每组CU的光线追蹤效能能够提升至RDNA 3的2倍。
▲ 过去RDNA 3暂存器的设计概念为设想最差的定址状况,可能会造成暂存器空间的浪费(右侧上图)。而RDNA 4则可动态排列资料(右侧下图,注意顶部的动态排列区块),有助于提高暂存器使用率,发挥降低记忆体延迟并大幅提升渲染器效率等功用。
▲ AMD也在简报中说明,光线追蹤的方式为计算视线(Visibility)之反射、漫射路境并反推光线照射所走过的路径。而路径追蹤(Path Tracing,也称为全光线追蹤)的运作原理则是直接计算大量光线照射路径,可以提供逼真的光照效果,但运算负载相当吃重。
▲ AMD将与Microsoft合作开发用于路径追蹤的神经超取样以及降噪规範,推动这项技术发展。
▲AMD透过影片展示透过路径追蹤、ReStir快速光线运算、神经超取样与降噪等技术达到即时渲染的成果。
笔者将持续在下篇文章中说明RDNA 4架构的AI运算细节以及FSR 4升频等功能,也会待时机成熟带来Radeon RX 9070 XT与Radeon RX 9070显示卡的效能实测专题,请读者持续保持持续关注我们的报导。
(点我回到系列文章目录)