
一项被忽视多年的创新成果得到了业界巨擘马斯克的认可
作者:苗正
近日,科技界掀起了一场关于人工智能架构设计的新讨论
博主Avi Chawla在其社交媒体平台X上发表了一篇长文,详细解析了Kimi团队发布的技术报告
这篇帖子迅速引起了广泛关注,马斯克本人也在评论区回复:“Kimi团队的工作令人印象深刻。”

马斯克以严格的标准和批评著称,对其他公司如Anthropic和OpenAI的批评尤为严厉
他的公司xAI近期经历了大规模重组,包括多位华裔创始人的离职,以及Grok表现不佳的情况
在这种背景下,马斯克对Kimi团队的研究表示认可,无疑是一个意外之举
被称赞的内容实际上是一项颠覆性的创新
Kimi团队提出了一种全新的方法,试图替换掉自2015年以来几乎未被改动的Transformer架构核心组件
这是一份纯粹探讨架构设计的技术论文
尽管普通用户可能无法立即感受到这份论文的影响,但它确实触及了深度学习的基础架构
01
月之暗面到底改了什么
理解这份论文的关键在于了解现代大语言模型的底层架构,无论是GPT、Claude,还是国内的DeepSeek,它们的基础都是Transformer
Transformer架构之所以能够训练到数十甚至上百层而不崩溃,得益于“残差连接(Residual Connection)”机制
这个机制的原理其实很简单
每一层网络完成计算后,将其输出与输入相加,然后传递给下一层继续计算。这种设计使得梯度在反向传播时能够沿“高速公路”直达底层,避免了深层模型中梯度消失的问题
这个设计最早见于2015年何恺明参与撰写的ResNet论文,并被Transformer架构直接沿用
但问题在于,这种“加法”处理方式是平等的
比如,第一层和第四十层的输出在最终隐藏状态中的权重是相同的,缺乏对哪一层信息更重要的判断机制
随着层数的增加,早期层的信息会被逐渐稀释,这会导致模型的不稳定性
这一现象被称为“PreNorm稀释”
Kimi团队注意到,这种问题与早期RNN架构面临的问题存在一定的相似性
RNN在时间维度上的固定权重累加导致难以捕捉长距离依赖,后来Transformer用注意力机制解决了这个问题,实现了根据内容动态决定关注哪些位置的能力
但是,在深度维度上,同样的问题一直存在,却没有得到类似的解决方法
为了解决这一问题,Kimi团队提出了全注意力残差(Full Attention Residuals)方案
这个方案赋予每一层一个可学习的查询向量,该向量会对之前所有层的输出进行注意力计算,产生一组归一化的权重
当前层的输入不再是之前所有层输出的简单求和,而是按照这组权重的加权组合

这种机制类似于微信群中的“重点消息”功能,帮助用户快速获取关键信息
然而,全注意力残差方案在大规模训练时遇到了内存和通信开销的问题
为了解决这个问题,Kimi团队又提出了块注意力残差(Block Attention Residuals)方案
这个方案将所有层分成若干个块,每个块内部使用传统的残差连接,但块与块之间使用注意力机制进行选择性聚合
这种方式减少了需要存储和传输的数据量,从而减轻了内存和通信的压力
在此基础上,团队还进行了一系列工程优化,包括跨阶段缓存和两阶段推理策略等
最终,注意力残差作为标准残差连接的替代品,训练时的额外开销很小,推理时的延迟也仅增加了不到2%

为了验证这一方案的效果,Kimi团队进行了两个实验
一个是scaling law实验,结果显示,注意力方案在不同模型规模下均表现出色
二是使用Kimi的大模型进行了实际验证,结果显示,添加了块注意力残差的版本在一系列测试中全面超过了未添加版本
训练动态分析表明,块注意力残差确实缓解了PreNorm稀释问题,梯度分布更加均匀
论文还进行了一项统一的矩阵分析,证明了标准残差连接和各种变体本质上都是深度维度上的线性注意力的特例
自2015年ResNet以来,残差连接板块没有实质性的变化,而Kimi的这篇论文则提供了一个既有理论依据,又能大规模实际部署且低成本的解决方案
正是由于这一结论,马斯克亲自为其点赞

月之暗面正处于上市的准备阶段
该公司在过去几个月内完成了多轮融资,估值迅速攀升至180亿美元
其收入增长也非常迅猛,Kimi K2.5模型发布不到一个月,累计收入就超过了2025年全年总收入
根据支付平台Stripe的数据,Kimi个人订阅用户的支付订单数在1月环比增长了8280%,2月又环比增长了123.8%,已经进入了全球前十名
02
然而,尽管融资进展顺利,月之暗面仍面临一些争议
最近,OpenClaw创始人彼得·斯坦伯格对月之暗面的Kimi Claw产品提出了质疑
问题的起因是,月之暗面推出了OpenClaw的云端一键部署服务Kimi Claw,这与OpenClaw的本地优先设计理念相悖
斯坦伯格的核心关切在于,OpenClaw的逻辑是“本地优先”,而KimiClaw的做法则将数据迁移到了云端,带来了不同的安全和隐私风险
斯坦伯格的质疑在技术社区中产生了实际影响
许多用户因此决定暂不使用KimiClaw产品
对于正在筹措新一轮融资的月之暗面来说,来自OpenClaw创始人的批评无疑会在海外市场造成一些负面影响
然而,就在这一背景下,马斯克的那条回复出现了
这一举动无疑为月之暗面的研究成果带来了额外的曝光度
虽然这两件事看似不相关,但在公众舆论中,它们可能会被联系在一起解读

一方面是对产品的安全质疑,另一方面则是来自顶级人物的认可
对于正在寻求新一轮融资的月之暗面而言,后者无疑是一剂强心针
但这并不意味着马斯克的那条推文代表了他个人的投资意向或技术偏好
然而,无论如何,马斯克的回复无疑激发了更多人关注这份论文,一个被忽视多年的组件被重新审视,未来的发展方向令人期待。
对于正在高速融资的月之暗面来说,来自OpenClaw创始人的公开批评,多少会在海外技术社区中制造一些负面情绪。
然后马斯克的那条回复出现了。
虽然这两件事是风马牛不相及的,但在舆论场上,它们会不可避免地被放在一起解读。
一边是OpenClaw创始人对月之暗面产品的安全质疑,另一边是马斯克对月之暗面研究论文的公开认可。
对于正在进行新一轮融资的月之暗面来说,后者的时机几乎不能更好。在资本市场的叙事逻辑里,这种来自顶级人物的认可,往往比任何分析报告都更有说服力。
当然了,不应该过度去解读马斯克的一条推文。他在X上的互动频率极高,对各种技术话题都会随手点评,一句“impressive”并不意味着他会投资月之暗面或者在xAI中采用月之暗面的方法。
但不管怎么说,马斯克那条回复发出去之后,很多原本不关注架构研究的人,也开始去翻这篇论文了。一个十一年没人碰过的组件被重新打开,接下来会发生什么,谁也不知道。
