ADVERTISEMENT
NVIDIA于GTC 2025春季场发表多款AI伺服器与企业应用相关软、硬体,协助提高推理式AI运算效能并降低执行成本。
提高30倍推理式AI运算效能
NVIDIA加速运算事业体副总裁Ian Buck在GTC(GPU技术大会)2025春季场会前简报中提到3种提升AI运算品质的法则(AI Scaling Laws),其中1种便是近日受到关注的推理式AI(Reasoning AI)。
延伸阅读:GTC 24:Blackwell架构详解!看懂B100、B200、GB200、GB200 NVL72成员的纠结瓜葛
Ian Buck提到的3种法则包含準备透过大量资料训练基础模型的预训练(Pre-Training),以及输入特定领域资料以针对特别专业应用微调的后训练(Post-Training),最后则是测试时训练(Test-Time Training),在AI推论运算过程中,延长运算时间并进行「多方思考」与「长思考」的推理式AI。
但是推理式AI会在推论过程中拆分成多段反覆的运算,因此会大幅提高运算量。举例来说,以一般方式向大型语言模型(Large Language Model,以下简称LLM)提问,原本只需100组字词(Token)的推论运算就可以生成答覆,但是使用推理式AI则会因为过程中的推理与思考环节生成许多「思考过程的半成品」,最后才将这些半成品进行新一轮AI推论运算以生成更精準的答覆,而让整体运算量膨胀100倍达10000组字词,同时也推高整体成本,有赖于针对推理式AI最佳化的软件以及更强大的运算单元来舒缓运算需求。
NVIDIA推出的Dynamo是款开源的AI推论软件,能在维持最低成本与最高效率的前提下,加速并提升在AI资料中心使用大量GPU进行推理式AI的品质,以输出最大量的字词以提高收益。
NVIDIA表示Dynamo能在使用相同数量的Hopper GPU执行Llama LLM模型的前提下,提高2倍AI运算效能与资料中心收益,若是使用大型GB200 NVL72运算丛集执行DeepSeek-R1 LLM模型,甚至可将各GPU的字词生成速度提升至30倍之谱。
Dynamo能够动态调节、重新分配运算丛集中的GPU资源,并最小化回应运算(Response Computation)与路由查询(Route Query),以因应不同种类与量体的运算需求,同时还能将资料分散至成本较低的记忆体或储存装置,并在需要时快速读取资料,以降低整体运算成本。
▲GTC 会前简报由 NVIDIA 加速运算事业体副总裁 Ian Buck 与多位高层共同主持。(图片来源:NVIDIA)
▲ 推理式AI(Reasoning AI)虽然能透过行「多方思考」与「长思考」等方式提升大型语言模型回答问题的品质,但会消耗更多运算资源。
▲ NVIDIA推出Dynamo开源的AI推论软件提高推理式AI的运算效率并降低成本。
超大台的DGX SuperPOD与超小台的DGX Spark
NVIDIA也在GTC 2025春季展发表Blackwell Ultra GPU,它具有15 PFLOPS的FP4资料类型AI运算效能,并搭载288 GB之HBM3e记忆体,而GB300 NVL72伺服器採用机架规模设计,整合36组Arm Neoverse架构Grace CPU与72组Blackwell Ultra GPU,总计有20TB HBM记忆体以及40TB DDR记忆体,FP4资料类型AI运算效能高达1.1 EFLOPS。
企业用户也可将8组GB300 NVL72组合为Blackwell Ultra DGX SuperPOD,让运算丛集达到288组Grace CPU与576组Blackwell Ultra GPU,带来高达11.5 EFLOPS的FP4资料类型AI运算效能。
先前在CES 25亮相、搭载GB10 Grace Blackwell Superchip的Project DIGITS迷你超级电脑正式定名DGX Spark,它具有针对桌上型电脑应用规划的外型,并搭载支援FP4资料类型的第5代Tensor核心,具有1000 TOPS的峰值AI运算效能,能够满足模型微调、推论之运算需求,并支援包含NVIDIA Cosmos Reason物理基础模型、GR00T N1机器人基础模型在内的推理式AI,适合研究人员、资料科学家、机器人开发者、学生等族群使用。
GB10透过NVLink-C2C互连技术以5倍于PCIe Gen 5的频宽连接处理器与GPU并共享记忆体资源,使用者也可以在不修改任何程式码的前提下,将资料无缝传输至DGX Cloud或其他云端服务、资料中心,简化试作、微调、推论等工作流程。
此外NVIDIA也推出RTX PRO 6000 Blackwell 伺服器版本 / 工作站版本、RTX PRO 5000 Blackwell行动版为首以及多款型号的运算卡、运算晶片,能够满足多种代理型AI、模拟、延展实境、3D设计、自主机器人、智慧车辆之应用需求,为各领导开发者提供充沛的运算能力。
如果需要更高的运算能力,则可考虑以GB300为核心打造的DGX Station工作站,在桌上型电脑的尺寸提供资料中心等级的效能。它具有784 GB的统一架构记忆体,能够提供20 PFLOPS的FP4资料类型AI运算效能,并搭载网路频宽达800 gigabits的ConnectX-8 SuperNIC,能够高速连接多个 DGX Station以处理更大规模的工作负载。
▲ Blackwell Ultra GPU为2024年发表的Blackwell GPU之升级版,它同样提供总计具备36组Grace CPU与72组Blackwell Ultra GPU的 GB300 NVL72伺服器配置选择。
▲ 它也提供总计达288组Grace CPU与576组Blackwell Ultra GPU的Blackwell Ultra DGX SuperPOD运算丛集。
▲ 先前暂定Project DIGITS的迷你超级电脑正式定名DGX Spark(图中左者)。
▲ NVIDIA也推出多款Blackwell事代型号的运算卡、运算晶片。
▲ RTX PRO 6000 Blackwell伺服器版本採用PCIe Gen 5x16汇流排,适合安装于现有伺服器。
▲ DGX Station为搭载Blackwell Ultra GPU、尺寸有如桌上型电脑的工作站。
共同封装光学网路交换器
为了解决AI资料中心日益膨胀的规模,以及频宽越来越高的通讯需求,NVIDIA也发表採用共同封装光学技术(Co-Packaged Optics)的Quantum-X与Spectrum-X硅光子网路交换器,透过大规模结合传统铜线与光学通讯连接数百万组GPU,以大幅降低功耗与营运成本。
这系列硅光子网路交换器採用TSMC微型环状调变器(Micro-Ring Modulator,MRM),能够直接在晶片封装上产生光学通讯所需的雷射光束,并能够搭配可拆装式的光学连接端子,除了能够减化整体所需的元件数量,还降低整体电力消耗,并减缓传输、转换过程中的讯号衰退,提供更可靠、省电、高品质的资料交换与通讯。
传统方法相比,硅光子网路交换器能够降低4倍雷射数量,并提供3.5倍电力使用效率提高、63倍讯号完整性,在维护部分也可提高10倍网路规模复原能力(Resiliency)并将部署速度加快 1.3 倍,有助于降低整体持有成本(TCO)与提高网路可靠度。
▲ NVIDIA发表Spectrum-X 与Quantum-X等2款搭载共同封装光学技术的硅光子网路交换器。
▲ 举例来说,传统光纤网路交换器(上)需要额外安装光纤模组,而光子网路交换器(下)则不需要。
▲ 这样的好处在于能够简化元件并节省许多电力。传统光纤网路交换器的资料处理器(DSP)与雷射模组共计消耗30 W电力,而光子网路交换器则仅在光学引擎与雷射光源消耗9 W。
▲ 另一方面,传统光纤网路交换器在层层转换过程可能损失22 dB讯号强度,而光子网路交换器则仅损失4 dB。
▲ 具有144组800Gb/s InfiniBand连接埠的Quantum-X Photonics 3450-LD交换器採用液冷设计。Spectrum-X Photonics交换器则提供128组800Gb/s连接埠的SN6810与512组200Gb/s连接埠的SN6800等型号。
GTC 2025春季场于2025年3月17日至21日在美国加州圣荷西举行,将聚集数千名开发者和业界领导者共同探讨AI和加速运算的趋势与技术,读者可以在线上观看NVIDIA GTC主题演讲,或报名参加 NVIDIA 与业界领导者在 GTC 大会的各项议程日。