在“五一”假期后的首个交易日,智谱和MiniMax股票价格双双飙升。
5月4日当天,智谱股价涨幅超过百分之十,并且接近千元大关;而MiniMax则上涨了12.62%,收盘价为803港元。
根据摩根士丹利的报告分析,中国AI企业的“性价比”叙事是推动这两家公司股价上扬的主要原因。
该行在《China’s AI Path: More Bang For The Buck》的研究报告中指出,在计算能力受限的情况下,中美顶尖模型之间的智能差距已缩小至三个月左右。
报告进一步强调,中国AI企业能够在远低于美国同行的推理成本下达到几乎相同的智能化水平。
这一点其实很容易理解。大多数人都希望使用更为经济实惠且性能稳定的模型,而不仅仅是追求最强劲的选项。
市场并非单纯地在追捧“国产替代”故事,而是看好中国AI企业通过性价比优势实现实际调用量、收入和估值的增长潜力。
但是随之而来的是一个问题:这种性价比究竟是如何形成的?
如果只是采取低价策略吸引客户,那么很快就会陷入价格战的泥潭中。
若仅仅是依赖模型蒸馏技术,而现在包括Anthropic及OpenAI在内的多家公司已经关闭了相关功能入口,为何评级反而上调了呢?
实际上,真正让这个“性价比”叙事更具说服力的是智谱在五一假期前发布的《Scaling Pain:超大规模Coding Agent推理实践》这篇技术文章。
这篇文章没有谈论宏大的AGI愿景,而是详细介绍了诸如KV Cache、吞吐量和异常处理等底层工程技术的应用情况。
文章揭示了中国AI性价比背后的一些关键秘密。
A
在这篇文章中,智谱解释了如何通过优化缓存机制、调度策略以及异常监控系统,使同样的硬件设备能够完成更多的任务,并且减少错误的发生概率。
智谱团队发现,AI应用体验不佳的原因往往不是模型不够聪明,而是后台系统的混乱导致的问题。他们解决了缓存数据冲突问题,提升了GPU调度效率和缓存复用率,还增加了一个可以提前检测异常输出的预警机制。
结果是,在同样的算力条件下,经过优化后,这些系统能够更好地服务更多用户,并且提高了稳定性和可靠性。
通过底层技术改进,GLM-5系列在Coding Agent应用场景中的吞吐量最高提升了132%,而异常输出率则从万分之十降至万分之三左右。
比如一张原本每小时只能处理约100个任务的GPU,在经过优化后能够实现最多服务232个任务的能力提升。
单独来看,每一项改进都不足以决定胜负。但结合在一起,则意味着在相同计算资源下实现了两倍以上的吞吐量增长和显著增强了系统的稳定性。
模型本身并未发生变化,而是通过工程技术的优化来提高性能。
在摩根士丹利看来,中国AI企业不仅具备接近一线水平的能力,还能以更低的成本提供稳定的智能化服务。
从OpenRouter平台的数据来看,中国头部AI公司的token消耗份额快速攀升至32%,而美国同类产品则下滑到仅占市场的19%左右。
MiniMax、智谱和阿里等公司在过去几个月内的token使用量相比去年年底增长了四倍以上。
中国AI企业正在形成一套与海外巨头截然不同的增长逻辑,即通过提供更加经济实惠且性能稳定的模型来吸引用户。
海外头部企业的商业模式则是依靠强大的模型能力和高昂的价格进行盈利。而在中国市场,许多公司则更注重如何以更低的成本实现接近一线的智能化水平。
据摩根士丹利报告透露,中国AI产品的平均输入价格约为每百万token 0.3美元,相比之下部分海外同类产品则高达5美元左右。
当AI技术从早期尝鲜工具转变为日常生产力时,性价比将成为影响用户选择的关键因素之一。
对于企业而言,如果模型更加经济实惠,则更有可能将其应用于更多场景。这反过来也会增加平台的token消耗量,进一步摊薄其基础设施成本。
这种机制可能会形成一个良性循环:首先吸引开发者和企业使用更低廉且性能接近一线水平的产品;随后更高的调用量促使更多的真实应用场景出现,从而推动模型及推理系统的持续优化。
接下来就是利用工程能力来降低单位token和任务的成本,使得厂商能够进一步降价、提高量或者在某些高价值领域涨价。
最终,在这种模式下谁能够在更低的基础设施成本下承载更多的token消耗,谁就更有可能成为下一代AI平台型公司。
如果只是单纯地通过降低价格来吸引用户,则市场可能会担心这是补贴和价格战的结果,并且长期来看难以持续盈利。

然而,如果降价背后是基于吞吐量提升、缓存复用率提高以及异常检测准确度增加等技术改进的话,那么这种低价策略实际上是在释放工程能力所带来的成本空间。
尽管从财务报表上看这两种方式可能相似,但实际上它们之间的区别非常大。前者被视为补贴行为,市场会对这种情况进行折价处理;而后者则被认为是建立在工程技术壁垒基础上的溢价操作。
最终可以得出一个结论:以前AI企业的估值主要取决于其模型能力上限和接近AGI的程度。但现在随着agent时代的到来,估值还需要关注成本下限,也就是谁能够以更低的成本提供更稳定、大规模且高质量的服务。
尽管中国AI企业在追求最尖端智能方面可能不占优势,但是它们却有可能将“智能化”这一概念转化为所有企业和个人都能负担得起的基础设施服务。
市场只会为那些能够清晰阐述自身逻辑和发展路径的企业支付溢价。
修复方案通过Pull Request #22811提交给了SGLang社区,并被采纳。
SGLang是一个开源项目,全称可以理解为一种面向大语言模型的推理/服务框架。它不是一个大模型,也不是一家AI公司,而是一套让大模型高效运行的基础软件。
智谱在使用SGLang这套开源推理框架时,发现了一个高并发缓存bug。
它没有只在自己内部修,智谱还把修复代码提交给SGLang这个开源项目。
项目维护者审核后接受并合并。于是,这个修复进入了公共版本,其他使用SGLang的开发者和公司之后也可以用到。
这什么意思呢?
如果千问的某个部署链路用了SGLang+HiCache,那么阿里也会因为智谱发现并修复了这个问题而受益。
还是刚才说的那句话,模型是没有变的,但通过工程优化,让它在用起来的时候更聪明了。
B
智谱这篇博客真正戳破的,是一个更深的层次。
Chatbot时代的便宜,很大程度上来自训练成本低,一部分训练集来自对头部模型的蒸馏。
Agent时代,这招行不通了。
今年以来,Anthropic和OpenAI陆续关闭了蒸馏入口,明确禁止用其模型输出训练竞争模型。靠蒸馏取巧的路,越来越窄。
但中国AI公司的性价比叙事并没有弱下去,市场反而在为这个故事加码。
原因在于,性价比的定义已经变了。
Chatbot时代,平均上下文55K tokens,单次对话,低并发。
Agent时代,平均上下文70K+ tokens,长时间任务(8小时级),高并发、高前缀复用。
Chatbot时代,AI性价比的计量单位很简单。同样问一个问题,谁的模型更便宜,谁的回答更接近一线水平。
行业讨论的是每百万token多少钱、模型参数多大、榜单成绩高不高。
Agent时代,没人问这个,这套算法失效了。
用户买的不再是一句回答。他买的是一个完整任务的完成结果。
一个Coding Agent要读代码、理解上下文、规划步骤、调用工具、修改文件、跑测试、失败重试。它消耗的token不是一次问答的增量,而是一个工作流的总账。
OpenRouter作为全球最大的调用平台,它每周处理的token总量,从2026年1月第一周的6.4万亿,涨到2月9日当周的13万亿,一个月翻了一倍。
OpenRouter官方的说法是,100K到1M长文本区间的增量调用需求,正是agent工作流的典型消耗场景。
大家使用AI的模式,已经从“对话型”切换到了“流程型”。因此,AI性价比的单位,也从“token单价”变成了“任务单价”。
这就导致,有些模型它的token便宜,但是由于模型性能不行,进行任务的过程中总是失败,或者任务结果不达标,导致它的agent价格并不便宜。
比如说,一个8小时级别的Coding任务,中途只要乱码一次,整个工作流可能都要重来。节省下来的token单价,补不回浪费的时间。
中国AI的性价比叙事正在升级。
以前讲的是“输出相同水准的答案,我更便宜”。现在讲的是“同样复杂的任务,我能用更低成本跑完”。
开源基础设施也在成为中国AI的新护城河。
前文提到的SGLang就是如此。中国AI的工程能力,开始向上游社区辐射。
这件事的价值不只在于智谱修了一个bug,而在于中国AI公司正在把真实业务里的高并发、长上下文、agent调用问题,反向沉淀成公共基础设施的能力。
就像前文提到的,当一个修复进入SGLang这样的开源框架,它就不再只服务于智谱自己的模型。所有使用这套框架部署大模型的团队,都有机会获得更稳定的缓存、更低的推理成本和更好的agent体验。
模型能力可以被追赶,价格可以被压低,但基础设施一旦进入开源生态,就会变成标准、接口和开发习惯。
谁更早把自己的工程经验写进这些底层系统,谁就更容易在下一轮AI应用爆发里占住位置。
C
回到资本市场。
AI大模型概念股全线走高,资本愿意给AI公司重新定价?市场买的到底是什么?
答案是,资本市场正在为“中国AI公司能用更低推理成本做出接近一线智能”的叙事买单。
还是以OpenRouter的数据来说。
中国头部AI公司的token消耗份额,从2025年4月的5%快速攀升至2026年3月的32%。美国头部模型份额,从58%大幅下滑至19%。
MiniMax、智谱、阿里的token使用量,在2026年2-3月较去年12月增长4-6倍。
除了token调用以外,中国AI还在形成一套,完全不同于海外巨头的增长逻辑。
海外头部模型在卖“能力溢价”。
模型能力越强,单次调用越贵,用户为最强智能付费。Claude、GPT-5、Gemini都在往这个方向走。
中国AI在卖“工程”。
模型能力逼近一线模型,但是价格、延迟、调用门槛更低,更符合绝大多数高频场景的需求。
摩根士丹利的报告里提到,中国模型的输入价格约为0.3美元/百万token,部分海外同类产品的价格在5美元左右。这中间是十几倍的差距。
当AI从尝鲜工具变成生产力工具,性价比会直接决定调用频次。
模型便宜一点,企业就敢把更多客服、代码、营销、数据分析任务交给它。任务跑得越多,token消耗越大,平台越能摊薄基础设施成本。

我认为在这个环节,它是有可能会形成一个飞轮的。
第一圈,是用更低的API价格和更接近一线的能力,去吸引开发者和企业。
第二圈,更高的调用量会带来更多真实场景,倒逼模型和推理系统继续优化。
第三圈,也就是智谱这篇技术博客里讲到的,用工程优化降低单位token和单位任务成本,让厂商有能力继续降价、涨量,或者在高价值场景里涨价。
第四圈,当token消耗成为AI时代的新流量,谁能以更低成本承载更多token,谁就更接近下一阶段的平台型公司。
如果只是模型降价,市场会担心这是补贴和价格战,越来越烧钱,总有人的钱包撑不住。
而且,价格战撑不起高估值。
但如果降价背后是吞吐提升、缓存复用、异常率下降和调度效率提升,那么低价就不是牺牲利润换增长,而是工程能力释放出来的成本空间。
价格战和这种工程优化的结果,虽然都是让模型更便宜,而且在财报上看起来可能差不多。在估值模型里,差得很远。
前者是补贴,市场会折价。后者是工程壁垒,市场会溢价。
最后可以落到一个判断。
过去AI公司的估值看模型能力上限,看谁更接近AGI。当时市场在为“最强智能”付费,最强智能的定义越来越模糊,单次调用越来越贵。
现在agent时代,估值还要看成本下限。看谁能把智能稳定、便宜、大规模地交付出去。
对于追求最尖端的“智能”,这可能不是中国AI擅长的事情。
然而中国AI是最有可能把“智能”这两个字,做成所有人和企业都用得起的基础设施。
而市场只愿意为能说清楚自己逻辑的公司付钱。
