ADVERTISEMENT
NVIDIA执行长黄仁勋于GTC 2025春季场开幕演说中说明AI发展的多个阶段与多种提升準确度的法则,并提出「终极摩尔定律」的发展趋势观查。
GTC 2025春季场系列文章目录:黄仁勋演说深入分析:提出「终极摩尔定律」,追求相同耗电更高效能(本文)NVIDIA发表Blackwell Ultra GPU、GB300 NVL72伺服器,Photonic硅光子交换器节能又可靠NVIDIA如何用AI创造AI?自驾车模型训练与蒸馏技术分析(工作中)NVIDIA发表双系统架构GR00T N1机器人基础模型,与Disney、Google合作开发Newton物理引擎(工作中)
AI除了要更快,还要更省电
黄仁勋在GTC(GPU技术大会)2025春季场开幕演说中提到多款专为CUDA(Compute Unified Devices Architectured)架构所设计的加速运算函数库,其中包含下列众多成果
cuNumeric: Python程式数值运算加速函数库
cuLitho:运算式微影加速函数库(电脑王报导),针对运算式微影(Computational Lithography)技术开发的函数库
Aerial、Sionna:5G与6G电信讯号处理(电脑王报导)
cuOPT:路线规划最佳化
Parabricks:加速基因序列分析
Monai:开源医学影像领域AI框架(电脑王报导)
Earth-2:地球的数位孪生(电脑王报导)
cuQuantum、CUDA-Q:加速量子运算模拟(电脑王报导)
cuEquivariance、cuTensor:分子结构与线性代数加速函数库
TRT-LLM、Megatron、NCLL、cuDNN、Cutlass、cuBlas:深度学习加速函数库
cuDSS、cuSparse、cuFFT、AMGX:能够应用于CAE(电脑辅助工程)的:直接稀疏求解器(Direct Sparse Solver)、用于稀疏矩阵的线性代数、快速傅立叶变换、GPU加速求解器等函数库
cuDF、cuML:资料科学与资料处理加速函数库
WARP:物理模拟加速函数库
让使用者能可以更便捷地导入各种加速运算。
黄仁勋也在演说中提到AI技术发展的多个阶段,从2012年的AlexNet卷积神经网路开始,经历了能够应用于语音辨识、医疗影像辨识的感知式AI(Perception AI),以及能够产生多种文字、影像、影片的生成式AI(Generative AI),到近期相当热门,能够自动整合多种AI工具并自主进行决策的代理式AI(Agentic AI),以及可以应用于自驾车、机器人的物理式AI(Physical AI),每个阶段都提供了截然不同的功能,但也需要消耗更多运算能力。
黄仁勋接着说明提高AI準确度的3种扩充法则(Scaling Laws),第1种是準备大量资料并从无到有训练基础模型的预训练(Pre-Training),第2种则是在基础模型之上透过特定专业领域资料进行微调的后训练(Post-Training)。
最后则是推理式AI(Reasoning AI)採用的测试时训练(Test-Time Training),这种概念会将问题拆分为多个次要部分并按部就班进行「多方思考」与「反覆思考」,并且参考过渡期的答案反问是否合理。简单来说,在推论运算过程中,AI系统会分析源头问题,然后自行生成很多次要问题,然后在一一回答次要问题的过程自我修正,最后输出準确度更高的答案。这个方式的挑战在于生成次要问题时,但是需要生成更多字词(Token),而造成总体运算量大幅提升的副作用。
黄仁勋以安排婚礼座位为例说明,利用Llama 3.3 70B大型语言模型(Large Language Model,以下简称LLM)进行一般推论运算,过程只需生成439个字词就可得到答案,但是安排却不恰当。如果使用DeepSeek R1 671B LLM(透过MoE启用其中37B参数)进行推理式AI运算,虽然会让需要生成的字词数量提升近20倍达到8559个,并让整体运算量飙升至150倍,但是得到的结果具有实用价值,能够合适安排的座位,并安排1位牧师作为和事佬。
有趣的是,虽然一般LLM看似节省运算资源,但是得到的结果不堪使用,等于白白浪费439个字词的运算资源,而推理式AI高涨运算需求,则可靠针对推理式AI最佳化的Dynamo AI推论软件以及更强大的运算单元舒缓。
Dynamo说明可参考先前《GTC会前简报》一文。黄仁勋则在演说中补充,Blackwell架构在Dynamo的协助下,可以带来25倍于前代Hooper的效能输出,意为着能够提高AI资料中心25倍产能。
另一方面,今日电力已经成为资料中心营运的核心条件,更高的电力效率代表对周围供电网路的压力较轻,以及较低的整体持有成本(TCO)。黄仁勋也表示这种在相同电力下的效能成长幅度,将成为下一个衡量半导体技术发展的「终极摩尔定律」(Ultimate Moore\'s law),而以同样消耗100 MW电力的AI资料中心为例,使用GB200 NVL72建构的运算丛集能带来40倍于H100 NVL8的字词收益(Token Revenue),因此黄仁勋又提到「The more you buy, the more you save」。
▲ NVIDIA为CUDA统一运算架构开发了cuNumeric、cuLitho、Aerial、Sionna、cuOPT、Parabricks、Monai、Earth-2、cuQuantum、CUDA-Q、cuEquivariance、cuTensor、TRT-LLM、Megatron、NCLL、cuDNN、Cutlass、cuBlas、cuDSS、cuSparse、cuFFT、AMGX、cuDF、cuML、WARP等大量加速运算含数库,为各行各业提供强大的运算效能。
▲ NVIDIA透过CUDA为企业IT、云端服务、云端GPU、边缘运算、6G网路、自动化制造、机器人、自驾车等多种领域提供完整AI软件堆叠,并具有领先技术与丰富的开发者生态系统,满足各行各业对AI的需求。
▲ 黄仁勋在GTC 2025春季场演说中提到AI技术发展包含感知式、生成式、代理式、物理式等多个阶段。
▲ 在3种提高AI準确度的扩充法则中,包含预训练、后训练,以及推理式AI採用的测试时训练,后者可能会提高100倍运算能力的需求。
▲ 若在测试时训练导入可验证奖励强化学习(Reinforcement Learning with Verifiable Reward,RLVR)甚至会让运算过程产生的字词数达到100T的数量级。
▲ 以安排婚礼座位为例,一般推论运算只生成439个字词就可得到答案,但是安排却不恰当,等于白白浪费运算能力。推理式AI运算虽然会让字词数量提升近20倍,并让整体运算量飙升至150倍,但得到的答案具有实用价值。
▲ Dynamo能够拆分推论工作,并动态调节、重新分配运算丛集中的GPU资源,以提高整体运算效能并降低成本。
▲ Blackwell架构在Dynamo的协助下,可以带来25倍于前代Hoope架构r的效能输出。
▲ 在同样消耗100 MW电力前提下,Blackwell架构能带来40倍于Hooper架构的字词收益。
明年推出全新CPU、GPU架构
NVIDIA採用类似Intel Tick-Tock的时程规划产品开发节奏,在第1年推出新的GPU架构,并在第2年改进架构、推出加强版产品,对照本世代产品便是2024年发表的Blackwell GPU架构,以及预计2025年下半推出的Blackwell Ultra架构。
Blackwell Ultra之GPU晶片中封装了2组裸晶,总共具有15 PFLOS之FP4资料类型运算效能,并搭载容量高达288GB之HBM3e记忆体。而GB300 NVL72伺服器採用机架规模设计,整合36组Arm Neoverse架构Grace CPU与72组Blackwell Ultra GPU,总计有20TB HBM高频宽记忆体以及40TB DDR记忆体,FP4资料类型AI运算效能高达1.1 EFLOPS。
到了2026年下半,NVIDIA将同时推出全新的Vera CPU架构以及Rubin GPU架构,前者採用88核176绪配置的客制化处理器核心,而后者则在单一GPU晶片中封装2组裸晶,将运算效能提升至50 PFLOS,并搭载288GB HBM4高频宽记忆体。此代架构也同时导入频宽达3600 GB/s的第6代VNLink互连技术,并升级至Spectrum 6与ConnectX 9 InfiniBand网路介面卡。
至于2027年下半则轮到Rubin Ultra架构,它最大的改变在于将会在单一GPU晶片封装内整合4组裸晶,将运算效能提升至100 PFLOPS,并搭载1TB HMB4e高频宽记忆体。
值得注意的是,黄仁勋也在演说中承认Blackwell的命名明方式有可改进之处。Blackwell GPU的我们「肉眼可见」的单一晶片封装(Chip Package)具有2组裸晶(Die),而每组GB200 Superchip具有2组Blackwell晶片封装、共4组裸晶,因此由36组GB200 Superchip组成的GB200 NVL72伺服器,具有72组Blackwell晶片封装、共144组裸晶。
而在Vera Rubin世代的伺服器将改以裸晶数量进行命名,因此将晶片配置数量与GB200 NVL72伺服器接近的产品并非命名为「Vera Rubin NVL72」,而是「Vera Rubin NVL144」,并非增加1倍晶片数量。
而在这之后,预计于2028年下半推出的产品将沿用Vera CPU架构,并升级至全新Feynman GPU架构,搭配第8代VNLink互连技术以及Spectrum 7、ConnectX 10 InfiniBand网路介面卡。
▲ NVIDAI的AI运算路线图,2026与2027年为Rubin GPU世代,2028年开始进入Feynman世代。
▲ 提到Vera Rubin NVL144命名规则,需先回顾GB200 Superchip。看到实体图片上方为2组Blackwell GPU,中央则为Grace CPU与LPDDR5x记忆体。
▲ 仔细看Blackwell GPU晶片封装中的细线,可以看到中央上下併排的2组Blackwell GPU裸晶。
▲ GB200 NVL72伺服器具有18组GB200 Superchip运算节点,总共包含36组Grace CPU,以及72组Blackwell GPU晶片封装(共144组Blackwell GPU裸晶)。而Vera Rubin NVL144则直接取144组裸晶之文意进行命名。
▲ 2025年下半将推出强化版的Blackwell Ultra GPU与对应的Blackwell Ultra NVL72伺服器。
▲ 2026年下半则为全新架构之Vera CPU与Rubin GPU,对应的Vera Rubin NVL144伺服器。
▲ 2027年下半将推出强化版、在单一GPU晶片封装内整合4组裸晶的Rubin Ultra,并推出Rubin Ultra NVL576伺服器。
▲ 若以图像表示运算单元的尺寸,Grace Blackwell NVL72为图片中央的银色晶片。
▲ 相较之下Vera Rubin NVL576的尺寸巨大许多。
▲ 比较各世代之运算效能,Blackwell与Rubin分别为Hopper的68、900倍。整体持有成本与效能相除的成本指数则为13%、3%,升级至新世代具有极佳经济效益。
(下页还有硅光子、工作站、自驾车、机器人介绍)
上一页 1 2 下一页