ADVERTISEMENT
NVIDIA于CES25(消费性电子展)期间举办的Editor’s Day活动中解说Blackwell与RTX 50系列显示卡的架构与特色,笔者将于本文进行简短介绍,并于日后提供更详细的说明。
AI、省电至上的开发理念
NVIDIA表示RTX 50系列显示卡的开发目标包含
针对新的神经运算负载最佳化
节省记忆体流量
新的流量管理(Quality of Service)功能
而他们提出的改进方式包括採用支援神经着色器的Blackwell架构串流多重处理器(Streaming Multiprocessor,SM)、第5代张量核心(Tensor Core,主要应用于AI运算)、第4代光线追蹤核心(RT Core),以及导入AI管理协同处理器、Blackwell Max-Q设计、GDDR7显示记忆体等措施。
延伸阅读:CES2025:黄仁勋手持「硅盾」演讲,发表Blackwell家族显示卡、显示晶片,RTX 5090 71990元月底上市CES2025:NVIDIA GeForce RTX 5090 效能怪兽!双穿透散热设计、电路板解密CES 2025 - NVIDIA编辑日(上):RTX 50系列显示卡与Blackwell架构特色解说(本文)CES 2025 - NVIDIA编辑日(下):RTX 50系列显示卡独有DLSS 4多画格补帧功能与Reflex低延迟技术
NVIDIA于25年前推出GeForce显示卡与可程式化着色器(Programmable Shader),开启像素着色(Pixel Shading)、运算着色(Compute Shading)、即时光线追蹤(Real-Time Ray Tracing)等绘图技术的创新。而在Blackwell架构导入支援小型神经网路的RTX神经着色器(Neural Shader),让游戏开发者能在超级电脑、工作站上针对游戏需求训练AI模型,并在游戏执行过程中于显示卡上进行AI推论,目前已支援神经材质贴图压缩(Neural Texture Compression)、神经材质(Neural Materials)、神经光源快取(Neural Radiance Cache,NRC)等功能。
Blackwell架构的SM具有2倍于前代产品的着色器指令重新排程器(Shader Execution Reordering)吞吐量,并搭配全新的AI工作管理协同处理器(AI Management Processor,AMP),将工作负载排序、分配到对适合的运算单元,以提高整体运算效能。
Blackwell架构开始使用GDDR7作为绘图记忆体,它能在更低的电压条件运作,带来2倍于GDDR6的资料频宽以及电力效率。
在光线追蹤部分,第4代光线追蹤核心加入支援三角型丛集交会侦测与解压缩引擎,以及改善毛髮光线追蹤绘图的线性扫描球体(Linear-Swept Spheres,LSS)等功能,能够大幅提升BVH(Bounding Volume Hierarchy,侦测光线是否接触到3D绘图中的多边型)效能,以达到100倍于前代产品进行光线追蹤绘图能够容纳的多边型数量。
在电力效率方面,Blackwell架构也导入新的Max-Q设计,透过更快速的时脉切换与更深层的睡眠模式与电力管理,来改善电力的消耗状况。举例来说,由于拉高或降低时脉的速度较先前快,系统能够以更积极的方式提高时脉以完成工作,然后让非运作中的区块进入睡眠模式,待接受到新的工作再唤醒,如此一来就能节省更多电力。
另一方面,Blackwell架构也更新了显示与编解码引擎,加入支援DisplayPort 2.1 UHBR20影像输出,更新部分CODEC格式,且支援YCbCr 4:2:2色採取样模式,对于提高影片转档的效率与画质有相当帮助。
▲NVIDIA在CES主题眼说中透过以GeForce RTX 5090即实执行的Zorah技术展示证明Blackwell架构的能耐。
▲ RTX 50系列显示卡的开发目标包含神经运算负载最佳化、节省记忆体流量、流量管理功能、电力效率等4大项。
▲ 在硬体方面导入各种新架构运算单元,并採用新的Max-Q设计与GDDR7显示记忆体。
▲ Blackwell架构SM的神经着色器能够支援小型神经网路运算。
▲ 运算负载会透过着色器指令重新排程器进行最佳排序并送到最适合的运算单元,以提高整体效能。
▲ AI工作管理协同处理器则能改善来自不同AI模型与游戏引擎的资源调度与排序。
▲ GDDR7能以较低的电压达到更高的传输频率,资料频宽与电力效率可达GDDR6的2倍。
▲ 第4代光线追蹤核心新增了右半部3款绿色方框标示的三角型丛集侦测与解压缩引擎、线性扫描球体等功能。
▲ Blackwell架构的光线交会侦测效能较2018年推出的Turing架构高出8倍,也是2022年Ada Lovelace架构的2倍,而记忆体流量只有Ada Lovelace架构的75%。
▲ 全新的Max-Q设计包含多项省电设计。
▲ 更快的时脉调整与更深层的睡眠,有助于更积极「冲刺」完成工作负载并让运算单元休眠。示意图中绿色面积为省下的电力。
▲ Blackwell架构支援DisplayPort 2.1 UHBR20影像输出,CODEC部分新增第2组H.264解码器,并加入支援AV1 UHQ超高品质、MV-HEVC(Multiview)、YCbCr 4:2:2色採取样模式。
神经着色与光线追蹤大跃进
NVIDIA也跟着Blackwell架构更新RTX Kit,带来更多强化绘图品质与效能的功能,除了为游戏带来更逼真的画面与光影效果,也对效能与流畅度有所帮助。
笔者延续前个章节,透过投影片解说与强化品质有关的功能部分。
▲ RTX Kit加入许多强化绘图品质与效能的新功能。
▲ Blackwell架构加入的神经着色器有助于带来更多元的AI功能。
▲ 神经着色器的框架能让游戏引擎与AI模型搭配协同运作,DirectX也将在不久后加入协作向量功能(Cooperative Vector),简化开发者使用此功能的门槛。
▲ 神经材质的功能可以降低材质档案的容量,图中範例能将标準材质佔用的47MB缩减至16MB。而神经材质贴图压缩透过AI协助下能在1分钟以内压缩超过1,000款材质,并可以即时读取(未来可直接存取),将压缩率提高到1:7以上以结省记忆体流量。
▲ 神经光源快取的概念为只针对1~2条光线进行实际光线追蹤运算,并将结果储存于快取记忆体中,接着透过AI推论的方式预测无限数量光线的路径与反射,在降低运算量的同时準确表现游戏场景的间接照明效果。
▲ RTX神经脸型(Neural Faces)以简单的光栅化绘制脸型搭配3D姿态作为输入资料,并透过生成式AI模型产生更加自然的脸型。
▲ 光线追蹤绘图的一大难题是3D绘图中日益增加的多边型数量,让运算複杂度大幅提升。举例来说1995年推出的《VR快打Remix》仅使用1000~10000个多边型,2020年出的《电驭叛客2077》则有1000万~5000万个多边型,NVIDIA推出的Zorah技术展示则有超过5亿个多边型。
▲ RTX Mega Geometry能够加速如Unreal Engine 5 Nanite技术的丛集式系统的BVH建构,提升光线追蹤的运算效能。
▲ 传统使用光线追蹤绘制毛髮时,需要在每个线段进行6个三角形的光线交会侦测。
▲ 改用线性扫描球体技术后,每个线段只需进行2个球体交会侦测。
在看完RTX 50系列显示卡与Blackwell架构的特色后,笔者将会在下篇文章中继续解说DLSS 4多画格补帧功能与Reflex低延迟技术。