
本文探讨了未来数字世界的核心商品——Token,并分析其在人工智能时代的重要性。
黄仁勋于2026年的GTC大会上,定义了AI时代的底层通货,并将数据中心比喻为生产智能的工厂。
在过去几年里,全球绝大多数此类“工厂”都依赖英伟达的GPU和CUDA生态进行运作。然而,这种情况引发了人们对算力供应链单点依赖的关注,尤其是在全球人工智能市场Token供给方面的问题。
2026年4月24日,DeepSeek V4正式发布,并在技术报告中确认使用华为昇腾950PR硬件验证清单,完成了从英伟达CUDA到国产算力的全栈迁移。与此同时,美团LongCat-2.0-Preview也开放了测试,这是目前唯一公开确认由国产算力完成的大规模训练模型。
这两款大模型在同一日加入了“万亿参数俱乐部”,这意味着在英伟达体系之外,一条自主的“国产Token”供应链正在加速形成。
要理解这一天的意义,我们需要深入分析其背后的含义。
1. 新晋万亿参数俱乐部成员
近年来,对于大模型来说,达到万亿参数级别如同攀登珠穆朗玛峰。通常情况下,这需要依赖美国的技术栈和装备,特别是英伟达的硬件设备。
硅谷独角兽公司如Open AI和Anthropic等,都是通过在英伟达H100/A100集群上进行训练而获得成功的付费玩家。凭借其软硬一体的CUDA生态系统,英伟达在全球AI训练负载市场中占据了超过90%的市场份额。
对于中国人工智能企业而言,这种单一依赖带来了许多不确定性。近年来,美国对高端AI芯片向中国的出口限制日益严格,从最初的A100、H100禁售扩展到了特供版H20的许可问题,直至今年4月完全禁止了高端芯片的实质销售。
由于存在政策和技术上的障碍,算力不仅成为了成本支出的一部分,也变成了生存的关键因素。
在这样的背景下,DeepSeek V4和美团LongCat-2.0-Preview在同一天加入了“万亿参数俱乐部”,分别通过不同的方式实现了国产算力替代的目标。
DeepSeek V4最初使用英伟达CUDA架构进行早期训练,后来转向了华为昇腾950PR芯片。这种过渡不仅展示了其灵活性,还证明了新硬件在低精度推理中的高效性。
同期开放测试的LongCat-2.0-Preview则完全依赖于国产算力集群来完成整个训练过程,动用了大约5万至6万张国产算力卡。这是迄今为止最大的一次国产算力任务。
从技术角度看,这两款模型均采用了MoE架构,并支持超长上下文窗口的处理能力,这使得它们在知识容量、长文本理解和复杂逻辑推理方面达到了全球领先水平。
通过优化架构而非单纯依赖硬件升级,DeepSeek V4和LongCat-2.0-Preview展示了如何提高国产卡算力效率来弥补技术差距。例如,V4使用混合注意力架构及Muon优化器等底层创新,在上下文长度增加8倍的情况下仍能大幅度降低算力消耗。
这种高效的性能转化为了更具竞争力的商业定价策略。DeepSeek V4最新的API价格仅需每百万token 0.02元,吸引了不少用户从Claude或者GPT转向这款新模型。
此次两款大模型的成功发布激发了国产算力替代市场的连锁反应,并逐渐成为行业趋势。
华为昇腾、百度昆仑芯、寒武纪思元等国内企业不断推进其AI芯片的性能和生态建设;同时,摩尔线程、壁仞科技等初创公司也在快速追赶英伟达的步伐。
TrendForce预测到2026年国产高端芯片市场份额将增至70%,这表明行业对国产算力寄予厚望,并不再仅仅满足于“可用”水平。
中国AI厂商加速布局国产替代,除了受到美国出口管制的压力外,高昂的算力成本也是关键因素之一。中美在AI模型使用量上的巨大差异凸显了这一问题。
中信证券分析指出,Token需求激增导致算力供给出现瓶颈,全球范围内均面临严重的算力荒问题。
2、算力突围前后
特别是中国市场的庞大需求,如果持续高度依赖单一的“英伟达+台积电”供应链,将面临供应限制和价格上涨的风险。
这种结构性矛盾使得国产替代不再只是备选方案,而是必须面对的问题。然而,实现这一目标面临着诸多挑战。
其中之一是抛弃现有的代码库、编译和调试工具,从零开始进行开发工作。英伟达CUDA经过二十年积累,积累了超过400万开发者及其配套的cuBLAS、cuDNN等库支持。相比之下,国产算力平台在算子库覆盖度及优化深度等方面存在不足。
另一难点在于硬件并行计算能力。由于单卡性能差距的存在,要实现同样的计算效果需要更多的硬件并联,这可能导致系统稳定性问题。
在大规模集群环境中尤其如此,故障率会随着规模扩大而呈指数级上升,任何微小的计算错误或通信延迟都可能引发更大的连锁反应。
LongCat-2.0-Preview的成功训练展示了团队在并行策略、通信拓扑优化及容错机制上的深度自主研发能力。这标志着国产算力系统工程方面的重大进步。
然而,这只是整个生态系统构建过程中的一小部分工作。芯片设计制造、软件栈乃至应用层面均需要长期投入和持续创新。
以美团为例,其对多家AI领域的公司进行了密集投资,从大模型的上游开发到下游应用各个环节都进行了全面布局。
美团的这种战略举措不仅反映了自身的业务需求,也体现了中国科技资本对未来技术趋势的整体规划和前瞻性视野。
与此同时,在国产芯片基础上成功运行的大规模AI模型还需要进一步的数据层面优化。
工程反馈数据是关键因素之一。当超大规模AI模型在国产集群上训练时会遇到各种问题,这些问题的解决过程实际上促进了国产软硬件技术的进步和完善。
对于LongCat这样的原生国产模型来说,在整个开发周期中完全依赖国产算力有助于提供完整且真实的反馈数据,从而促进芯片技术和软件生态系统的成长。
此外,大模型还需要与实际应用场景紧密结合,通过高质量的数据交互来推动其持续进化。
特斯拉的例子展示了从真实世界采集、仿真训练到算法迭代的闭环流程如何加速自动驾驶技术的发展。
类似地,在中国城市复杂多变的道路环境中,美团所拥有的即时配送网络和丰富的数据资源为AI模型提供了宝贵的物理底座支持。
例如,无人机在楼宇间导航时的数据、无人车处理各种路况的信息以及骑手与机器协同作业中收集的样本都是高价值的真实世界资料。这些数据成为LongCat等大模型进一步优化的重要养分。
综上所述,DeepSeek V4和LongCat-2.0-Preview的成功不仅标志着国产算力替代方案的进步,更是中国AI产业链独立自主发展的里程碑事件。尽管前方依然充满挑战,但这一领域正在快速成熟和发展之中。
技术团队逐一攻克这些问题的过程,本身就是一场对国产芯片软硬件的大规模测试。每一个被修复的bug、每一段被调优的通信协议,都会反馈给国产芯片厂商,推动下一代硬件的改进和软件栈的成熟。
对LongCat-2.0-Preview这样的“原生国产模型”来说,从训练阶段起便全程依托国产算力集群完成,产生的工程反馈较为完整和真实。这种“模型反哺芯片”的闭环,有利于国产算力生态向下扎根。
另一方面,大模型需要物理底座,和具体任务、真实世界产生高质量的数据互动。
特斯拉凭借全球最大的真实驾驶数据库,构建了其自动驾驶的核心基石,从真实世界采集、到仿真训练、再到算法迭代的“Real-to-Sim-to-Real”飞轮,同时驱动了自动驾驶汽车与人形机器人的进化。
同样的逻辑,正在一个更复杂高频,贴近日常生活的场景展开,那不是加州的高速公路,而是中国城市的街头巷尾。美团拥有全国2800多个市县的即时配送网络,覆盖中国最复杂的物理环境。美团无人机已累计完成商业订单超78万笔,国内外开通70条航线。美团无人车已至少已完成550万单配送任务,自动驾驶总里程突破1900万公里。
无人机在楼宇间穿行时的视觉避障数据、无人车在复杂路况下的实时决策轨迹、骑手与机器协同调度中的动态优化样本,都是高价值、高密度的真实世界数据。这些是LongCat大模型持续进化的养料,也是国产算力芯片在严苛环境中验证可靠性、能效比的真实环境。
同一天里先后发布和开放测试的DeepSeek V4与LongCat-2.0-Preview,构成了国产算力进化的一体两面。前者以开源、低价与通用能力,证明了国产算力可支撑全球顶尖的基础模型;后者以原生国产训练、万亿参数规模与物理世界闭环,证明了国产算力集群可独立完成极限的工程任务。
这不仅仅是算力焦虑下的替代叙事,更是一场 “主动定义”的转身,独立生长、正向循环的中国AI产业链,还需要长期努力,但正在加速成型。
