江宇撰写,云鹏编辑
3月18日,智东西报道,英伟达GTC大会于今日凌晨召开,月之暗面创始人杨植麟作为唯一受邀现场演讲的中国独立大模型公司创始人,发表了题为《How We Scaled Kimi K2.5》的演讲,首次完整披露了Kimi K2.5背后的技术路线图。

3月16日,月之暗面刚刚发布了一篇论文,预告了下一代模型的关键模块——注意力残差(Attention Residuals,简称AttnRes)。该论文的核心内容是对大模型中最基础且长期以来被视为默认结构的残差连接(Residual Connection)进行了重新设计。

这项成果迅速引起了海外AI圈的广泛关注。埃隆·马斯克(Elon Musk)称赞其“非常出色”;前OpenAI研究副总裁兼联合创始人安德烈·卡帕西(Andrej Karpathy)则指出,人们可能尚未充分理解《Attention is All You Need》这篇Transformer开创性论文的全部含义。

在此次GTC演讲中,杨植麟将研究工作置于Kimi更完整的技术框架中,绘制了一张更系统的路线图。他总结了Kimi K2.5的技术演进,强调了Token效率、长上下文和智能体集群(Agent Swarms)这三个维度的共振。
杨植麟认为,当前的扩展不再仅仅是资源的堆砌,而是需要在计算效率、长程记忆和自动化协作等方面寻找规模效应。如果能将这些维度的技术增益相乘,模型将展现出超越现有水平的智能。
自1月底Kimi发布K2.5以来,这是月之暗面首次系统性地披露其技术路线图。

杨植麟指出,目前行业广泛使用的技术标准,实质上是八九年前的产物,如今已经成为扩展的瓶颈。面对这一挑战,Kimi团队选择了从优化器、注意力机制和残差连接三个基础模块着手,逐一进行重构,并持续开源。
一、重新设计训练底座:MuonClip使Token效率翻倍
Kimi团队首先关注Token效率,杨植麟在演讲中重点讨论了优化器的问题。
自2014年起,Adam优化器一直是行业的默认选择,但在大规模训练中,更高Token效率的替代方案变得至关重要。Kimi团队通过实验发现,Muon优化器在Token效率上具有显著优势,在同等计算资源下,可以将训练Token的效率提高一倍。

▲Muon优化器在相同算力下实现约两倍的Token效率
然而,在将Muon应用于万亿参数规模的K2模型训练过程中,Kimi团队遇到了稳定性问题:训练过程中Logits值迅速增长至1000以上,导致模型发散。
针对这一问题,Kimi团队开发了MuonClip优化器。杨植麟表示,该方法通过Newton-Schulz迭代结合QK-Clip机制,对训练过程中的数值进行约束。在实际训练中,Kimi K2的max logits被控制在100以内并逐渐降低,同时模型的loss未受影响,实现了稳定的训练过程。

▲MuonClip使max logits控制在100以内,实现稳定训练
此外,为了使Muon在大规模GPU集群中具备可扩展性,Kimi团队设计了“Distributed Muon(分布式Muon)”,将优化器状态分布在数据并行组中,仅在需要时聚合梯度完成计算,以此提升内存效率和整体训练效率。
二、提升长上下文能力:Kimi Linear使解码速度提高5到6倍
长上下文是Kimi技术路线图中的另一条重要主线。
在这一部分,杨植麟重点介绍了Kimi Linear。这是一套基于KDA(Kimi Delta Attention,Kimi增量注意力)的混合线性注意力架构。
它的核心在于重新安排注意力层的组成方式,而不是默认所有层都使用全注意力(Full Attention)。
具体而言,Kimi Linear采用约3:1的KDA与全局注意力混合比例,既降低了内存开销,又保持了模型的表达能力。
杨植麟在演讲中提到,Kimi Linear已经完成了1.4T token规模的训练,在长上下文、短上下文以及强化学习任务中均优于全注意力及其他基线方案。

更明显的变化体现在推理效率上。在128K到1M上下文范围内,解码速度可以提高约5到6倍,同时在不同长度场景下保持稳定表现。

这一改进解决了长期以来的一个问题:随着上下文窗口的扩大,推理成本和延迟同步增加,导致长任务能力难以真正落地。Kimi Linear则将长上下文从“可支持能力”转变为“可高效使用能力”。
三、重新设计残差连接:让每一层更主动地获取信息
相比优化器和线性注意力,Attention Residuals(注意力残差)是Kimi技术路线图中的另一个重要尝试。
残差连接作为深度网络中的基础层设计,已使用了大约十年。
杨植麟提到,传统残差连接采用固定加法累加方式,随着网络加深,隐藏状态会持续增长,深层信息容易被稀释。Kimi团队的做法是将残差路径替换为基于Softmax注意力的动态聚合,使模型可以根据输入内容,有选择地从前序层获取信息。
这一变化让信息流从“逐层叠加”转向“按需读取”,在深层网络中保持更稳定的信息表达。
在这一部分,杨植麟拓展了前OpenAI首席科学家Ilya Sutskever在NeurIPS 2024的相关思路:如果将残差连接视为沿深度展开的简化LSTM,那么Attention可以理解为对这条信息通道的进一步扩展。

▲Ilya提出“将LSTM旋转90度得到残差连接”,Attention可视为其扩展
基于这一理解,Kimi提出Attention Residuals,并已将相关代码和技术报告开源。
四、视觉强化学习反哺文本能力,跨模态带来认知增益
除了模型底层架构,杨植麟在演讲中还分享了一项跨模态研究方向的重要观察。
他提到,在原生视觉-文本联合预训练过程中,引入视觉强化学习(Vision RL)后,模型不仅在视觉任务上表现出色,还会反向提升纯文本能力。消融实验结果显示,在经过视觉RL训练后,模型在MMLU-Pro和GPQA-Diamond等文本基准上的表现提升了约1.7%-2.2%。

杨植麟认为,这表明空间推理与视觉逻辑能力可以转化为更深层次的通用认知能力。相关工作也指出,多模态系统的未来将更加注重任务之间的协作和协调。
五、智能体集群:执行效率显著提升
随着任务复杂度的提升,智能体集群相比单Agent的效率优势会持续扩大。在实验中,执行时间可获得数倍缩短。
为防止多Agent系统出现“串行塌缩”,即表面多Agent,实际退回单Agent执行,Kimi设计了并行强化学习奖励机制,包括Instantiation reward(实例化奖励)、Finish reward(完成奖励)和Outcome reward(结果奖励),用于引导模型进行任务拆解和并行执行。
▲三类奖励机制用于防止“伪并行”和串行塌缩

结语:Kimi绘制了一张新的扩展蓝图
在总结中,杨植麟谈到了AI研究范式的转变。
他提到,过去受限于算力资源,研究往往难以在不同规模上验证同一方法。而随着“Scaling Ladder(缩放阶梯)”的建立,研究者可以进行更系统的规模化实验,从而得到更可靠的结论。
这也成为Kimi当前路径的基础:Adam诞生已超过11年,Kimi将其推进为MuonClip并开源;Attention提出已超过8年,Kimi发展出Kimi Linear并开源;Residual connections已有约10年历史,Kimi进一步提出Attention Residuals并开源。

整体来看,Kimi此次披露的路线图,将下一阶段大模型竞争的焦点明确为三条主线:训练效率、长上下文能力以及智能体协作结构。这三条路径正在同时推进,并开始相互叠加。

▲三类奖励机制用于防止“伪并行”和串行塌缩
结语:Kimi给出一张新的Scaling施工图
在总结中,杨植麟谈到了AI研究范式的变化。
他提到,过去受限于算力资源,研究往往难以在不同规模上验证同一方法。而随着“Scaling Ladder(缩放阶梯)”的建立,研究者可以进行更系统的规模化实验,从而得到更可靠的结论。
这也成为Kimi当前路径的基础:Adam诞生已超过11年,Kimi将其推进为MuonClip并开源;Attention提出已超过8年,Kimi发展出Kimi Linear并开源;Residual connections已有约10年历史,Kimi进一步提出Attention Residuals并开源。

整体来看,Kimi此次披露的路线图,将下一阶段大模型竞争的焦点明确到了三条主线:训练效率、长上下文能力以及智能体协作结构。这三条路径正在同时推进,并开始相互叠加。
