英伟达即将迎来重大架构更新。
3月圣何塞GTC大会期间,黄仁勋将推出一套全新的AI推理系统。
这款系统的核心是一颗为推理优化设计的新芯片。
而这枚新芯片的首个大客户已经确定——刚完成1100亿美元融资的OpenAI。

更加值得关注的是,这款芯片采用的底层架构并非英伟达自主研发,而是由Groq团队打造的LPU(语言处理单元) 架构。
这意味着英伟达首次在其核心AI算力产品线上大规模引入了外部设计。
英伟达去年斥资约200亿美元收购了Groq的核心技术和人才,这一举动震动整个行业。
如今这枚推理芯片标志着这笔交易成果的初步展现。
黄仁勋一贯采用买成熟方案快速部署的战略,这次也不例外。
据《华尔街日报》报道,英伟达正在开发一款新的推理计算系统,该系统将使用Groq设计的芯片,并在GTC大会上正式发布。
极致的ROI。
OpenAI最新的融资文件中已经透露了相关合作计划:

将进一步扩大与英伟达的合作关系,包括部署3GW的专用推理算力和Vera Rubin系统的额外训练能力。
如果黄仁勋如期发布这款芯片,这将是该公司的首次尝试大规模引入外部架构设计以应对核心AI算力产品线的需求变化。
在过去几个月中,包括OpenAI在内的众多头部客户都在积极寻找更高效的推理解决方案,并与其他芯片制造商进行合作谈判。
这一趋势反映了在推理需求急剧上升的背景下,英伟达需要更快地提供针对性的解决方案。
Groq的LPU。
采用LPU架构而非传统的GPU架构,在于其更适合低延迟的推理场景。
GPU通常依赖外部HBM存储大量模型参数,并频繁进行数据搬运操作。这种做法在训练阶段可以有效降低成本,但在推理时会遇到瓶颈。
Groq的LPU架构通过高密度片上SRAM解决了这一问题,将计算核心与内存紧密结合,极大缩短了数据路径并降低了延迟和能耗。
随着Agent应用的普及,AI算力需求从“训练优先”转变为更关注推理效率。
推理不再只是训练后的补充环节,而是成为规模更大、频率更高的长期负载。

英伟达将LPU纳入核心产品线,标志着公司对这一趋势的重要回应。

过去一年中,由于Agent应用的爆发式增长,算力需求结构发生了显著变化:市场重心从训练转向推理。
训练依然重要,但随着推理调用频率更高、规模更大和持续时间更长,成本开始成为关键因素。

一些AI服务提供商已经开始将训练与推理分开部署——训练继续使用英伟达GPU,而推理则倾向于采用更具性价比的专用芯片。
最近的例子包括OpenAI与Cerebras签署的大额计算合作协议。Cerebras专注于优化推理性能,并声称其产品在某些场景下优于英伟达GPU。
Anthropic同样选择使用Amazon Web Services和Google Cloud自研芯片来支持模型运行,减少对英伟达方案的依赖。
Meta也与AMD建立了大规模合作,共同开发用于推理任务的优化GPU架构。

在国内市场上,一些本土企业也开始转向自主研发算力解决方案。比如DeepSeek绕过英伟达直接将早期访问权限授予华为,并在昇腾平台上完成了模型迁移。
据Bernstein Research预测,到2026年,在中国AI芯片市场中,华为份额可能达到50%,而英伟达则降至个位数。
英伟达的竞争对手也在加强推理专用架构布局。
谷歌、Amazon等公司在OpenAI最新融资计划中的合作表明他们正在推进自家研发芯片的应用,其中亚马逊将重点使用其Trainium芯片支持Agent应用。
国内如字节跳动、阿里巴巴和百度也加入自主研发算力行列。
面对这种趋势,英伟达需要明确地回应市场对于推理能力的需求变化。
这种转变意味着GPU在某些方面不如LPU适合推理场景。
训练阶段追求的是大规模并行和整体吞吐量,而推理则更注重单token速度与稳定响应。

推理过程可以分为pre-fill处理用户输入和decode逐token生成输出两个阶段。
低延迟的生成性能是决定用户体验的关键因素,这时系统的瓶颈在于频繁的数据存取操作而非纯粹的计算能力。
因此,《华盛顿邮报》评论说,英伟达在AI浪潮中首次面临核心硬件架构上的挑战。
尽管英伟达在全球GPU市场占据超过90%份额,Hopper、Blackwell以及即将推出的Rubin系列仍然是训练的主要力量。但面对推理需求的激增,英伟达必须做出回应。
他们给出的答案就是这枚LPU芯片。
此外,黄仁勋还宣布今年GTC大会上将发布一款前所未见的新系列产品。

外界猜测这款产品可能包括新一代GPU或Feynman系列全新架构的芯片。
由此,趋势已经很清晰:推理成为主战场,而客户开始分散风险。
那么,为啥GPU不适合推理呢?
因为训练阶段追求的是“大规模并行”和总体吞吐量,而推理阶段则要追求“单token速度”和稳定响应。
具体来说,推理则分为两个阶段:pre-fill:处理用户输入;decode:逐token生成输出。
真正决定用户体验的,是第二步——低延迟生成。
此时系统瓶颈不在算力,而在频繁的存取与搬运。GPU架构虽强,但为并行设计;LPU则调整了存储与计算路径,更贴合推理负载。
正因如此,《华盛顿邮报》甚至评论道:这是AI浪潮以来,英伟达第一次在核心硬件层面面临架构挑战。
虽然英伟达仍占全球GPU市场超过90%,Hopper、Blackwell、即将登场的Rubin系列依旧是训练主力,但面对推理需求暴涨,英伟达也必须正面回应。
而这枚LPU芯片,就是他们的答案。
除了这枚神秘芯片,老黄之前还官宣表示:
今年GTC大会上还将发布“世界前所未见”的新系列产品。
外界普遍猜测包括:Rubin系列新一代GPU;Feynman系列全新架构芯片。
或者更具体一点,跳票的消费级显卡???
参考链接
[1]https://www.wsj.com/tech/ai/nvidia-plans-new-chip-to-speed-ai-processing-shake-up-computing-market-51c9b86e?st=SdUxv4&reflink=desktopwebshare_permalink
[2]https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer?ncid=no-ncid
[3]https://berttempleton.substack.com/p/nvidias-blackwell-ultra-and-vera
