突破摩尔定律限制！英伟达软件让性能激增2.8倍无需更换GPU

作者：世界网2026年4月28日科技2 阅读

新智元报道

MoE模型的稀疏激活原本是一项显著的优势，但往往面临通信瓶颈的问题。NVIDIA通过软件创新，在三个月内成功将GB200单GPU吞吐量提升了2.8倍，充分发挥了Blackwell硬件的实力。

2026年1月8日，NVIDIA再次以硬核数据刷新了AI推理的性能上限。

英伟达官网透露：基于Blackwell架构的推理软件栈升级，使混合专家模型（MoE）在效率上实现了突破性进展——

单GPU吞吐量显著提升2.8倍，大幅降低了推理成本。

GB200 NVL72专为MoE设计

英伟达之所以能够仅通过软件升级实现如此明显的性能改善，这得益于MoE模型的特殊性质。

例如DeepSeek-R1这一拥有6710亿参数的稀疏MoE模型，在每次推理过程中只激活370亿参数（即「稀疏激活」），看似轻便实则蕴含巨大计算挑战：专家模块之间的动态路由需要频繁的数据交换，预填充和解码阶段计算负载差异显著，传统架构很容易因通信瓶颈或精度损失陷入性能限制。同时MoE架构中多个模型的通信需求也很高。

英伟达提出了一种解决方案，在硬件基础上通过针对性软件升级来发挥其潜力。

图1：GB200 NVL72机柜

GB200 NVL72机架级平台是这一突破的物理基础。

它利用第五代NVLink互连技术将72块Blackwell GPU连接起来，每对GPU之间具有1800GB/s双向带宽高速通道——这种设计专为稀疏MoE架构模型优化，相当于给72个「专家大脑」装上了「超高速神经突触」，确保了专家之间的数据交换不再拥堵。

在软件层面的更新中，NVFP4四比特浮点格式是关键一环。

相较于传统FP4，NVFP4通过NVIDIA自主研发的数值分布优化，在压缩数据量的同时最大限度保留模型精度（这对于MoE稀疏激活至关重要，避免因精度损失导致路由错误）。

结合硬件级NVFP4加速单元，Blackwell使低精度计算成为可能，却仍能保持比其他FP4格式更高的准确性。

图2：在HGX B200上启用NVFP4与FP8时的吞吐量和交互性曲线对比

此外，「分解服务」策略进一步提升了GB200的能力：预填充（计算密集型）和解码（内存密集型）被分配到不同的GPU组中，并通过灵活拓扑结构实现「计算-内存」分离，避免单一资源成为瓶颈。

软件引擎

TensorRT-LLM在过去三个月内实现了单GPU吞吐量的显著提升

如果说硬件是基础，那么软件则是引擎调校。NVIDIA TensorRT-LLM开源库的优化让GB200 NVL72在DeepSeek-R1上的单GPU吞吐量直接提升了2.8倍。

具体来说，三项关键改进堪称「性能催化剂」：

一是程序化依赖启动（PDL）

减少内核启动延迟，确保GPU时刻待命，在低交互性场景下显著降低空转损耗；

2、底层内核优化

拆解Blackwell Tensor Core的微架构特性，重构计算流水线，使每一单位算力都能发挥最大效能。

三是全对全通信原语革新

直接减少接收端中间缓冲区的数据传输「绕路成本」——这对MoE中专家间的高频通信尤为关键，减少了延迟时间。

上述创新使得GB200在运行DeepSeek R1时相比先前版本软件获得了更高的吞吐量。

图3：更新的软件为GB200带来的性能提升

随着AI从「可用」走向「高效」，用户对交互性的需求日益增长——聊天机器人需要即时响应，代码助手需实时补全。而吞吐量的提高意味着更低的延迟。

小机柜也适用，

HGX B200同样适用于DeepSeek

并非所有场景都需要GB200 NVL72这样包含72块显卡的大规模系统。

对于采用风冷部署的企业或云服务商，NVIDIA HGX B200（8卡Blackwell）也展现了其卓越性能——核心在于多token预测（MTP）与NVFP4的结合使用。

传统推理中，模型逐个生成token；而MTP通过预测多个候选token让GPU在一次计算中覆盖更多生成步骤，相当于批量处理解码任务中的输出步骤，做到「一次思考，多步输出」的效果。

图4：不同配置下MTP与NVFP4带来的性能提升

实验结果显示，在1K/1K、8K/1K和1K/8K等不同的输入输出序列组合中，MTP均显著提升了吞吐量，并且交互性越高（延迟需求越严格），其收益越明显。

当MTP与NVFP4相结合时，性能增益进一步扩大。NVFP4通过四比特压缩减轻内存带宽压力，并利用Blackwell的张量核心实现高效计算。

结合TensorRT-LLM和TensorRT Model Optimizer的全栈支持，在保持精度的同时，HGX B200在启用MTP+NVFP4后吞吐曲线持续右移——意味着相同交互性下可服务更多用户或提供更流畅体验。

对于企业与云服务商而言，现有的Blackwell GPU通过软件升级即可获得2.8倍的性能提升，等同于「免费扩容」，大幅延长硬件使用寿命；对于模型开发者，TensorRT-LLM提供了先进的API支持。

原生PyTorch架构为开发者提供了一种既易于使用又具有扩展性的解决方案，这降低了优化门槛，让更多人能够专注于模型创新而非底层调优工作。

这种「不依赖硬件更换就能实现性能升级」的能力让英伟达在专业显卡领域的竞争优势更加稳固，超越了如AMD和英特尔等竞争对手。

结合Blackwell架构与TensorRT-LLM的解决方案，在混合专家模型推理问题上实现了高精度、低延迟、高吞吐量以及低成本的最佳平衡。这不仅是一套硬件生态系统，更是从底层软件到应用层全方位支持的强大体系。

参考资料：

https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

突破摩尔定律限制！英伟达软件让性能激增2.8倍无需更换GPU

作者：世界网2026年4月28日科技2 阅读

新智元报道

2026年1月8日，NVIDIA再次以硬核数据刷新了AI推理的性能上限。

英伟达官网透露：基于Blackwell架构的推理软件栈升级，使混合专家模型（MoE）在效率上实现了突破性进展——

单GPU吞吐量显著提升2.8倍，大幅降低了推理成本。

GB200 NVL72专为MoE设计

英伟达之所以能够仅通过软件升级实现如此明显的性能改善，这得益于MoE模型的特殊性质。

英伟达提出了一种解决方案，在硬件基础上通过针对性软件升级来发挥其潜力。

图1：GB200 NVL72机柜

GB200 NVL72机架级平台是这一突破的物理基础。

在软件层面的更新中，NVFP4四比特浮点格式是关键一环。

结合硬件级NVFP4加速单元，Blackwell使低精度计算成为可能，却仍能保持比其他FP4格式更高的准确性。

图2：在HGX B200上启用NVFP4与FP8时的吞吐量和交互性曲线对比

软件引擎

TensorRT-LLM在过去三个月内实现了单GPU吞吐量的显著提升

如果说硬件是基础，那么软件则是引擎调校。NVIDIA TensorRT-LLM开源库的优化让GB200 NVL72在DeepSeek-R1上的单GPU吞吐量直接提升了2.8倍。

具体来说，三项关键改进堪称「性能催化剂」：

一是程序化依赖启动（PDL）

减少内核启动延迟，确保GPU时刻待命，在低交互性场景下显著降低空转损耗；

2、底层内核优化

拆解Blackwell Tensor Core的微架构特性，重构计算流水线，使每一单位算力都能发挥最大效能。

三是全对全通信原语革新

直接减少接收端中间缓冲区的数据传输「绕路成本」——这对MoE中专家间的高频通信尤为关键，减少了延迟时间。

上述创新使得GB200在运行DeepSeek R1时相比先前版本软件获得了更高的吞吐量。

图3：更新的软件为GB200带来的性能提升

小机柜也适用，

HGX B200同样适用于DeepSeek

并非所有场景都需要GB200 NVL72这样包含72块显卡的大规模系统。

对于采用风冷部署的企业或云服务商，NVIDIA HGX B200（8卡Blackwell）也展现了其卓越性能——核心在于多token预测（MTP）与NVFP4的结合使用。

图4：不同配置下MTP与NVFP4带来的性能提升

实验结果显示，在1K/1K、8K/1K和1K/8K等不同的输入输出序列组合中，MTP均显著提升了吞吐量，并且交互性越高（延迟需求越严格），其收益越明显。

当MTP与NVFP4相结合时，性能增益进一步扩大。NVFP4通过四比特压缩减轻内存带宽压力，并利用Blackwell的张量核心实现高效计算。

原生PyTorch架构为开发者提供了一种既易于使用又具有扩展性的解决方案，这降低了优化门槛，让更多人能够专注于模型创新而非底层调优工作。

这种「不依赖硬件更换就能实现性能升级」的能力让英伟达在专业显卡领域的竞争优势更加稳固，超越了如AMD和英特尔等竞争对手。

参考资料：

https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/

“”

突破摩尔定律限制！英伟达软件让性能激增2.8倍无需更换GPU

突破摩尔定律限制！英伟达软件让性能激增2.8倍无需更换GPU

相关文章

相关文章