
新智元报道
去GPU化的浪潮势不可挡,英伟达难以阻止。OpenAI对英伟达的性能不满,转而选择谷歌TPU;Anthropic则投资巨额资金转向TPU路线。老黄为了自救不得不高价收购Groq。如今,算力竞赛正式进入能效至上的新时代:谁能率先突破「每焦耳每微秒」的技术极限,谁便有可能在未来十年内占据主导地位。
黄仁勋将在两周后登上GTC 2026的演讲台。
他早些时候透露:“我们准备了几款前所未有的全新芯片。”
这种自信源自一份令人惊艳的成绩单——英伟达在2026财年收入达到2159亿美元,净利润翻倍,并且数据中心业务在过去三年内增长了十三倍。
CFO在财报电话会议上披露了一项引人注目的数字:客户已经部署了九吉瓦的Blackwell基础设施!
英伟达发布财报后的盘后交易中一度上涨超过4%,随后却悄然转跌,次日开盘低开并持续走弱,最终收市下跌5.46%。

但诡异的一幕出现了。
华尔街不仅看懂了数字本身,更洞察到了趋势的本质。
Anthropic斥资210亿美元购买基于谷歌TPU的算力系统;Meta也与谷歌签下数以十亿计美元的大单,大规模租用TPU进行模型训练。
为了提高编程体验接近实时响应,OpenAI首次将GPT-5.3-Codex-Spark部署在能耗更低、延迟更短的Cerebras芯片上。
英伟达的最大客户正逐步分散筹码。
根据摩根大通的产能报告,谷歌计划于2027年部署六百万至七百万颗TPU,并大部分供给外部客户如Anthropic、OpenAI和苹果等。

高盛投资研究部预测,在全球AI服务器中非GPU芯片出货占比将从2024年的36%升至2027年的45%。
IDC也预计,到2028年,中国非GPU服务器市场规模占比将达到近半壁江山。
当前正经历一个更深层的转折点:AI的竞争焦点不再仅仅是算力规模,而是转向极致追求能效比和延迟。
往日拼的是谁有更多的计算资源、更大的集群规模。
GPU的致命短板
而现在则是看同样花费一块钱,谁能够生成更多的Token。
「每美元产生的Token数」已经取代峰值算力,成为衡量芯片商业价值的关键指标。
GPU架构的特性决定了每次计算时数据需要在外部显存和处理单元之间频繁移动。
这种高频率的数据传输不仅增加了能耗还导致了延迟问题。增加更多的GPU并不能解决这些问题。
路透社报道指出,OpenAI多次对英伟达芯片的性能表示不满——特别是响应速度未能达到预期,在代码生成产品Codex上尤为明显。
这种压力促使英伟达这条“巨龙”不得不寻求变革。
图灵奖得主David Patterson教授在其最新研究中指出,每次Token生成时都不可避免地会遇到数据搬运的问题,而这一过程的能耗远高于计算本身。
未来的核心挑战在于如何让数据尽可能接近计算单元。
对此,他提出了三个AI芯片的发展方向:近内存处理、三维堆叠和低延迟互连技术。
这些措施都旨在通过架构创新减少数据搬运的能耗与延迟。
换句话说,谁能在更低的能耗和延迟下运行下一代模型,谁就能在未来十年的算力竞争中占据有利位置。
谷歌TPU正逐渐进入商用市场
长期以来,谷歌TPU仅供自家大模型训练与推理使用,外界无法接触。
自去年开始,谷歌将TPU推向了商用领域。
博通CEO透露Anthropic下了价值210亿美元的大订单;Meta也签下数十亿美元的TPU租赁协议。潜在客户还包括苹果和已合并的xAI等公司。
这种趋势背后的原因不难理解:随着大模型进入规模化部署阶段,算力需求急剧增加、成本压力加大,单一依赖GPU已经显得越发不够用。而谷歌TPU的性能则足以与顶级GPU匹敌。
订单随即涌入。
第七代TPU于2025年推出,是目前谷歌最强且可扩展性最佳的人工智能芯片——
单芯片峰值算力达到4614 TFLOPS(FP8精度),最大集群由9216个节点组成,在相同任务下功耗与成本都显著降低。
谷歌的TPU走出围墙,OpenAI选择晶圆级芯片,英伟达则高价收购了Groq。这些动向表明巨头们正押注于TPU领域进行竞争。
单极时代的算力格局正在被多元化的架构所取代。
决定下一代人工智能上限的不再是单纯的算力堆砌军备竞赛,而是能耗、延迟和确定性等新指标的综合评价体系。
对于国产芯片来说,这场变化既是机会也是挑战。唯有进行底层创新才能在全球新一轮算力竞争中占得一席之地。

全球算力版图正经历震荡,“高阶TPU”正在崛起!
谷歌TPU崛起还有更为直接的例证:在TPU上训练的Gemini 3,在多个权威基准测试中位居榜首,为业界顶尖模型之一。
回到成本账上。
TPU凭借AI专用架构带来的2-4倍能效优势,将大模型推理的综合成本相比GPU拉低50%以上。而这正是Anthropic、Meta们用订单投票的根本逻辑。
当下,大多数大模型企业已经在用TPU+GPU的组合来缓解成本压力。
在实际测试中,OpenAI的Codex-Spark在Cerebras CS 3系统上每秒生成超过一千个Token的速度运行,实现了实时代码交互体验。
GPU独霸的时代已经一去不复返。数据表明,在推理速度方面,Cerebras CS-3比英伟达旗舰产品DGX B200快了二十多倍,在成本与能耗上也分别降低了三分之一以上。这显示出了显著的综合性能优势。

而且在前沿技术如晶圆级芯片的应用中,计算核心之间的互联距离被极大缩短,带宽和通信延迟都有大幅提升。这种架构的优势能够进一步推高算力规模与效能。
清微智能、Cerebras等国内外公司正在通过高效数据流动态配置及先进集成方式不断突破现有技术瓶颈。
例如利用3D Chiplet技术构建三维立体数据流架构,形成高效的计算模式。其核心在于“计算芯粒+3D DRAM芯粒”的组合在垂直与水平两个维度上实现了灵活调度数据流的功能,缩短传输路径并降低延迟和能耗,从而提高整体效率。

十年磨一剑
另一方面,算力网格技术通过动态配置信息实时下发,根据不同任务特性实现多种互联拓扑结构间的灵活切换。这可以有效减少通信延迟,并充分利用数据流架构的计算能力。
此外,晶圆级芯片技术将使数据流架构的优势得到最大限度发挥。它在整张晶圆上高密度集成大量计算核心,极大缩短了连接距离,带来了带宽和低延迟等显著提升。
这些突破性进展预示着一场新的芯片革命正在加速进行之中。尽管Groq已被英伟达收编,“高阶TPU”的进化并未停止脚步。国产芯片企业若想在全球竞争中站稳脚跟,唯有不断创新才能抓住机遇、迎接挑战。
Groq创始人Jonathan Ross,被称为「TPU之父」,谷歌TPU的核心设计者之一。离开谷歌后,他创立Groq的目标很明确:做一颗超越谷歌TPU的芯片。
两者的差异在架构。
谷歌TPU走的是「固定架构+集群扩展」路线。
其中,芯片内部搭载固定计算单元,依托二维数据流运算;芯片间通过3D Torus拓扑实现高效互联。架构稳定,但灵活性有限。

谷歌TPU架构
Groq的TSP(Tensor Streaming Processor)则是一种「软件定义硬件」的数据流处理器。
其核心理念是,通过构建可重构的软硬件系统,在保持可编程性的同时,达到接近ASIC的极致性能。
具体来说,芯片内部做了功能切片化微架构设计,配合软件层的灵活配置,可根据不同任务实时调整计算逻辑和数据流路径。
同时,依托大容量片上SRAM及静态调度机制,显著提升了数据访存效率并降低搬运能耗。
美国DARPA「电子复兴计划」(ERI)高度看好「软件定义硬件」方向,将其列为国家级战略核心。这也是Groq被称为「高阶TPU」的原因。
数据显示,在相同推理任务中,Groq芯片首token延迟比谷歌TPU v7降低20%至50%,每token成本降低10%至30%。
这场芯片革命,才刚开始加速
Groq被收编,但「高阶TPU」的进化没停。
国内清微智能、海外Cerebras等公司正在高效数据流动态配置和先进集成方式上持续突破。
1. 通过3D Chiplet技术构建三维立体数据流架构。
具体来说,「计算核心+3D DRAM芯粒」的组合在垂直与水平两个维度上形成了高效的数据流计算模式,突破了传统二维架构的效率局限。
三维架构可以依据计算任务的需求和数据特性,在两个维度上灵活调度数据流,最大化缩短传输路径,降低搬运过程中的延迟与能耗,从而进一步提升整体计算效率。
2. 依托算力网格技术构建灵活数据流计算范式。
传统固定组网存在扩展性和语义适配瓶颈。而算力网格技术则可以通过灵活组网,实现Scale up与Scale out的协同。
根据AI任务特性,系统能实时下发数据流的动态配置信息,在多种互联拓扑结构间灵活切换、精准调度。最终降低互联延迟,充分释放数据流架构的算力。
3. 通过前沿的晶圆级芯片技术,将数据流架构的优势发挥到极致。
这项技术将数据流架构从芯片尺度扩展到整片晶圆。
在整张晶圆上高密度集成大量计算核心,计算核心间的互联距离被极大缩短。带来的结果是,互联带宽实现数量级提升,通信延迟大幅降低。
数据流架构的算力规模与计算效能由此被推到极致。这也是为什么晶圆级芯片被视为数据流计算架构的理想物理载体。
以Cerebras为例。
数据显示,Cerebras CS 3系统推理性能比英伟达旗舰DGX B200快21倍,成本与功耗均降低三分之一,在算力、成本、能效上展现出显著的综合优势。
在实测中,OpenAI的Codex-Spark跑出了每秒超1000 token的生成速度,让代码编写第一次有了实时交互的体验。

Cerebras CS-3 vs英伟达GPU:大模型推理速度对比
GPU独霸的时代,回不去了
谷歌TPU走出围墙,OpenAI拥抱晶圆级芯片,英伟达天价收编Groq。
这些信号均指向同一个方向:TPU已变成巨头们真金白银押注的主战场。
算力世界的单极时代,正在被多元架构终结。
决定下一代AI天花板的,不是算力堆砌的军备竞赛,而是能耗、延迟、确定性共同构成的新指标。
对国产芯片来说,这场变局既是机遇也是挑战。 跟随者只能分残羹,走出自己的底层创新之路,才有资格参与下一轮全球算力洗牌。
参考资料:
全球算力格局震荡,“高阶TPU”崛起!
https://www.theinformation.com/articles/google-strikes-multibillion-dollar-ai-chip-deal-meta-sharpening-nvidia-rivalry
https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale
https://openai.com/index/introducing-gpt-5-3-codex-spark/
https://cloud.google.com/blog/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads
