Groq推即用型推理芯片，OpenAI率先采用；英伟达转舵放弃GPU LPUs计划

作者：世界网2026年3月4日AI3 阅读

英伟达即将迎来重大架构更新。

3月圣何塞GTC大会期间，黄仁勋将推出一套全新的AI推理系统。

这款系统的核心是一颗为推理优化设计的新芯片。

而这枚新芯片的首个大客户已经确定——刚完成1100亿美元融资的OpenAI。

更加值得关注的是，这款芯片采用的底层架构并非英伟达自主研发，而是由Groq团队打造的LPU（语言处理单元）架构。

这意味着英伟达首次在其核心AI算力产品线上大规模引入了外部设计。

英伟达去年斥资约200亿美元收购了Groq的核心技术和人才，这一举动震动整个行业。

如今这枚推理芯片标志着这笔交易成果的初步展现。

黄仁勋一贯采用买成熟方案快速部署的战略，这次也不例外。

据《华尔街日报》报道，英伟达正在开发一款新的推理计算系统，该系统将使用Groq设计的芯片，并在GTC大会上正式发布。

极致的ROI。

OpenAI最新的融资文件中已经透露了相关合作计划：

将进一步扩大与英伟达的合作关系，包括部署3GW的专用推理算力和Vera Rubin系统的额外训练能力。

如果黄仁勋如期发布这款芯片，这将是该公司的首次尝试大规模引入外部架构设计以应对核心AI算力产品线的需求变化。

在过去几个月中，包括OpenAI在内的众多头部客户都在积极寻找更高效的推理解决方案，并与其他芯片制造商进行合作谈判。

这一趋势反映了在推理需求急剧上升的背景下，英伟达需要更快地提供针对性的解决方案。

Groq的LPU。

采用LPU架构而非传统的GPU架构，在于其更适合低延迟的推理场景。

GPU通常依赖外部HBM存储大量模型参数，并频繁进行数据搬运操作。这种做法在训练阶段可以有效降低成本，但在推理时会遇到瓶颈。

Groq的LPU架构通过高密度片上SRAM解决了这一问题，将计算核心与内存紧密结合，极大缩短了数据路径并降低了延迟和能耗。

随着Agent应用的普及，AI算力需求从“训练优先”转变为更关注推理效率。

推理不再只是训练后的补充环节，而是成为规模更大、频率更高的长期负载。

英伟达将LPU纳入核心产品线，标志着公司对这一趋势的重要回应。

过去一年中，由于Agent应用的爆发式增长，算力需求结构发生了显著变化：市场重心从训练转向推理。

训练依然重要，但随着推理调用频率更高、规模更大和持续时间更长，成本开始成为关键因素。

一些AI服务提供商已经开始将训练与推理分开部署——训练继续使用英伟达GPU，而推理则倾向于采用更具性价比的专用芯片。

最近的例子包括OpenAI与Cerebras签署的大额计算合作协议。Cerebras专注于优化推理性能，并声称其产品在某些场景下优于英伟达GPU。

Anthropic同样选择使用Amazon Web Services和Google Cloud自研芯片来支持模型运行，减少对英伟达方案的依赖。

Meta也与AMD建立了大规模合作，共同开发用于推理任务的优化GPU架构。

在国内市场上，一些本土企业也开始转向自主研发算力解决方案。比如DeepSeek绕过英伟达直接将早期访问权限授予华为，并在昇腾平台上完成了模型迁移。

据Bernstein Research预测，到2026年，在中国AI芯片市场中，华为份额可能达到50%，而英伟达则降至个位数。

英伟达的竞争对手也在加强推理专用架构布局。

谷歌、Amazon等公司在OpenAI最新融资计划中的合作表明他们正在推进自家研发芯片的应用，其中亚马逊将重点使用其Trainium芯片支持Agent应用。

国内如字节跳动、阿里巴巴和百度也加入自主研发算力行列。

面对这种趋势，英伟达需要明确地回应市场对于推理能力的需求变化。

这种转变意味着GPU在某些方面不如LPU适合推理场景。

训练阶段追求的是大规模并行和整体吞吐量，而推理则更注重单token速度与稳定响应。

推理过程可以分为pre-fill处理用户输入和decode逐token生成输出两个阶段。

低延迟的生成性能是决定用户体验的关键因素，这时系统的瓶颈在于频繁的数据存取操作而非纯粹的计算能力。

因此，《华盛顿邮报》评论说，英伟达在AI浪潮中首次面临核心硬件架构上的挑战。

尽管英伟达在全球GPU市场占据超过90%份额，Hopper、Blackwell以及即将推出的Rubin系列仍然是训练的主要力量。但面对推理需求的激增，英伟达必须做出回应。

他们给出的答案就是这枚LPU芯片。

此外，黄仁勋还宣布今年GTC大会上将发布一款前所未见的新系列产品。

外界猜测这款产品可能包括新一代GPU或Feynman系列全新架构的芯片。

由此，趋势已经很清晰：推理成为主战场，而客户开始分散风险。

那么，为啥GPU不适合推理呢？

因为训练阶段追求的是“大规模并行”和总体吞吐量，而推理阶段则要追求“单token速度”和稳定响应。

具体来说，推理则分为两个阶段：pre-fill：处理用户输入；decode：逐token生成输出。

真正决定用户体验的，是第二步——低延迟生成。

此时系统瓶颈不在算力，而在频繁的存取与搬运。GPU架构虽强，但为并行设计；LPU则调整了存储与计算路径，更贴合推理负载。

正因如此，《华盛顿邮报》甚至评论道：这是AI浪潮以来，英伟达第一次在核心硬件层面面临架构挑战。

虽然英伟达仍占全球GPU市场超过90%，Hopper、Blackwell、即将登场的Rubin系列依旧是训练主力，但面对推理需求暴涨，英伟达也必须正面回应。

而这枚LPU芯片，就是他们的答案。

除了这枚神秘芯片，老黄之前还官宣表示：

今年GTC大会上还将发布“世界前所未见”的新系列产品。

外界普遍猜测包括：Rubin系列新一代GPU；Feynman系列全新架构芯片。

或者更具体一点，跳票的消费级显卡？？？

参考链接

[1]https://www.wsj.com/tech/ai/nvidia-plans-new-chip-to-speed-ai-processing-shake-up-computing-market-51c9b86e?st=SdUxv4&reflink=desktopwebshare_permalink

[2]https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer?ncid=no-ncid

[3]https://berttempleton.substack.com/p/nvidias-blackwell-ultra-and-vera

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

Groq推即用型推理芯片，OpenAI率先采用；英伟达转舵放弃GPU LPUs计划

作者：世界网2026年3月4日AI3 阅读

英伟达即将迎来重大架构更新。

3月圣何塞GTC大会期间，黄仁勋将推出一套全新的AI推理系统。

这款系统的核心是一颗为推理优化设计的新芯片。

而这枚新芯片的首个大客户已经确定——刚完成1100亿美元融资的OpenAI。

更加值得关注的是，这款芯片采用的底层架构并非英伟达自主研发，而是由Groq团队打造的LPU（语言处理单元）架构。

这意味着英伟达首次在其核心AI算力产品线上大规模引入了外部设计。

英伟达去年斥资约200亿美元收购了Groq的核心技术和人才，这一举动震动整个行业。

如今这枚推理芯片标志着这笔交易成果的初步展现。

黄仁勋一贯采用买成熟方案快速部署的战略，这次也不例外。

据《华尔街日报》报道，英伟达正在开发一款新的推理计算系统，该系统将使用Groq设计的芯片，并在GTC大会上正式发布。

极致的ROI。

OpenAI最新的融资文件中已经透露了相关合作计划：

将进一步扩大与英伟达的合作关系，包括部署3GW的专用推理算力和Vera Rubin系统的额外训练能力。

如果黄仁勋如期发布这款芯片，这将是该公司的首次尝试大规模引入外部架构设计以应对核心AI算力产品线的需求变化。

在过去几个月中，包括OpenAI在内的众多头部客户都在积极寻找更高效的推理解决方案，并与其他芯片制造商进行合作谈判。

这一趋势反映了在推理需求急剧上升的背景下，英伟达需要更快地提供针对性的解决方案。

Groq的LPU。

采用LPU架构而非传统的GPU架构，在于其更适合低延迟的推理场景。

GPU通常依赖外部HBM存储大量模型参数，并频繁进行数据搬运操作。这种做法在训练阶段可以有效降低成本，但在推理时会遇到瓶颈。

Groq的LPU架构通过高密度片上SRAM解决了这一问题，将计算核心与内存紧密结合，极大缩短了数据路径并降低了延迟和能耗。

随着Agent应用的普及，AI算力需求从“训练优先”转变为更关注推理效率。

推理不再只是训练后的补充环节，而是成为规模更大、频率更高的长期负载。

英伟达将LPU纳入核心产品线，标志着公司对这一趋势的重要回应。

过去一年中，由于Agent应用的爆发式增长，算力需求结构发生了显著变化：市场重心从训练转向推理。

训练依然重要，但随着推理调用频率更高、规模更大和持续时间更长，成本开始成为关键因素。

一些AI服务提供商已经开始将训练与推理分开部署——训练继续使用英伟达GPU，而推理则倾向于采用更具性价比的专用芯片。

最近的例子包括OpenAI与Cerebras签署的大额计算合作协议。Cerebras专注于优化推理性能，并声称其产品在某些场景下优于英伟达GPU。

Anthropic同样选择使用Amazon Web Services和Google Cloud自研芯片来支持模型运行，减少对英伟达方案的依赖。

Meta也与AMD建立了大规模合作，共同开发用于推理任务的优化GPU架构。

据Bernstein Research预测，到2026年，在中国AI芯片市场中，华为份额可能达到50%，而英伟达则降至个位数。

英伟达的竞争对手也在加强推理专用架构布局。

谷歌、Amazon等公司在OpenAI最新融资计划中的合作表明他们正在推进自家研发芯片的应用，其中亚马逊将重点使用其Trainium芯片支持Agent应用。

国内如字节跳动、阿里巴巴和百度也加入自主研发算力行列。

面对这种趋势，英伟达需要明确地回应市场对于推理能力的需求变化。

这种转变意味着GPU在某些方面不如LPU适合推理场景。

训练阶段追求的是大规模并行和整体吞吐量，而推理则更注重单token速度与稳定响应。

推理过程可以分为pre-fill处理用户输入和decode逐token生成输出两个阶段。

低延迟的生成性能是决定用户体验的关键因素，这时系统的瓶颈在于频繁的数据存取操作而非纯粹的计算能力。

因此，《华盛顿邮报》评论说，英伟达在AI浪潮中首次面临核心硬件架构上的挑战。

他们给出的答案就是这枚LPU芯片。

此外，黄仁勋还宣布今年GTC大会上将发布一款前所未见的新系列产品。

外界猜测这款产品可能包括新一代GPU或Feynman系列全新架构的芯片。

由此，趋势已经很清晰：推理成为主战场，而客户开始分散风险。

那么，为啥GPU不适合推理呢？

因为训练阶段追求的是“大规模并行”和总体吞吐量，而推理阶段则要追求“单token速度”和稳定响应。

具体来说，推理则分为两个阶段：pre-fill：处理用户输入；decode：逐token生成输出。

真正决定用户体验的，是第二步——低延迟生成。

此时系统瓶颈不在算力，而在频繁的存取与搬运。GPU架构虽强，但为并行设计；LPU则调整了存储与计算路径，更贴合推理负载。

正因如此，《华盛顿邮报》甚至评论道：这是AI浪潮以来，英伟达第一次在核心硬件层面面临架构挑战。

虽然英伟达仍占全球GPU市场超过90%，Hopper、Blackwell、即将登场的Rubin系列依旧是训练主力，但面对推理需求暴涨，英伟达也必须正面回应。

而这枚LPU芯片，就是他们的答案。

除了这枚神秘芯片，老黄之前还官宣表示：

今年GTC大会上还将发布“世界前所未见”的新系列产品。

外界普遍猜测包括：Rubin系列新一代GPU；Feynman系列全新架构芯片。

或者更具体一点，跳票的消费级显卡？？？

参考链接

[1]https://www.wsj.com/tech/ai/nvidia-plans-new-chip-to-speed-ai-processing-shake-up-computing-market-51c9b86e?st=SdUxv4&reflink=desktopwebshare_permalink

[2]https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer?ncid=no-ncid

[3]https://berttempleton.substack.com/p/nvidias-blackwell-ultra-and-vera

“”

Groq推即用型推理芯片，OpenAI率先采用；英伟达转舵放弃GPU LPUs计划

Groq推即用型推理芯片，OpenAI率先采用；英伟达转舵放弃GPU LPUs计划

相关文章

相关文章