最近,关于DeepSeekV4的技术报告引起了广泛关注。
报告中列举了多项技术特性,包括mHC、CSA、HCA、Muon和FP4等,但未提及Engram。
由于这一情况,人们纷纷热议这个话题。
Engram去哪了?
Engram是在今年一月由DeepSeek与北京大学联合开源的项目,旨在研究大型模型的记忆效率问题。
自从发布以来,关于它的讨论从未间断过。
它不仅被视为V4版本的重要预兆,还因为它能显著提高模型处理特定信息的能力,如查询“伦敦是英国首都”这类事实时无需重新计算整个深度网络。

通过这样的设计,Engram能够减少显存占用,并释放深层网络容量用于更复杂的推理任务。
因此,在论文发布后的几个月里,人们对Engram成为V4架构基础的期待不断上升。
当DeepSeek V4版本公布时,人们迫不及待地想要在报告中找到Engram的身影,但最终却失望而归。
这一缺失让不少人认为V4是不完整的。

可以说,没有集成Engram技术成为了V4的一个遗憾。

尽管如此,Engram并未消失。自那以后,陆续有三项重要研究相继推出:
第一项探讨了如何通过CXL内存池化技术解决大型模型部署的存储问题;
- 其次是对Engram多头哈希优化进行实证检验的工作,反驳了一些直观改进方案的有效性;
- 最后是AutoArk团队将文本领域的Engram应用到视觉模式上的尝试。
- 这些研究证明了尽管V4未采用Engram技术,但该理念及其后续发展已经悄然展开,并为下一代模型奠定了基础。
Engram的核心功能在于为Transformer添加了一个原生的知识查询模块。它能够迅速查找到预先存储的信息,从而避免不必要的计算开销。
回顾2026年1月12日这一天,DeepSeek与北京大学联合发布了33页的论文《通过可扩展查找实现条件记忆》。
论文的第一作者是ChengXin,北大博士生,曾在V3项目中署名。最后一位作者为梁文锋教授。
简而言之,Engram可以看作是在Transformer架构内加入的一种知识查表功能。

该团队的核心发现指出,在语言建模任务中存在着两种截然不同的需求:动态组合推理和静态知识检索。
过去的问题在于,传统的Transformer模型将这两项任务混为一谈。当识别实体时,模型需要通过多层注意力机制和前馈网络逐步构建特征。
举个例子,“戴安娜王妃”(Diana, Princess of Wales)这一称谓的解析过程需要经过六层网络才能完成。
在此期间,系统会不断尝试确定“Wales是英国的一个地区”,以及“Princess of Wales是一种头衔”等中间状态的信息。
直到最后一层时,模型才会识别出这是戴安娜王妃的名字。
这样的操作不仅耗费计算资源,而且可以被静态查找表所替代。Engram的设计正是基于此,它能够直接查询已知信息而非重新构建整个知识结构。
通过这种方式,Transformer不再需要从基础公理开始推导每一个问题的答案,而是可以直接调用预设的知识库。
具体实现上,在Transformer的第2层和第15层之间嵌入了两个Engram模块。
输入序列触发哈希查找,将当前token及其先前几个token组成的N-gram映射到一个巨大的嵌入表中,并从中取出相应的向量。
门控机制则确保查询结果与上下文不匹配时被自动屏蔽。例如,“张仲景”是一个特定的历史人物名,而“张”单独出现则可能代表姓氏,这种区别由门控功能来识别并处理。
Engram被视为MoE(混合专家)之外的另一种稀疏性扩展方式,后者通过激活部分专家节点减少计算量,而Engram则是通过查找特定的知识库条目降低存储需求。
在实验中,团队固定了总参数和每token激活参数,并让MoE专家与Engram记忆模块争夺预算资源。最终发现当大约20%-25%的稀疏参数被分配给Engram时,模型性能达到最优。

之后的研究表明,在一些特定任务上,如知识密集型问题(MMLU、CMMLU)和长上下文场景(Multi-Query NIAH),Engram的应用效果明显优于预期。

这种提升的一个原因是Engram能够释放模型的早期层用于更复杂的推理工作。此外,实验结果还显示Engram模块的存在实际上增加了网络的有效深度。
从工程角度而言,Engram的设计确保了其高效性。通过将庞大的知识库表存储在主机DRAM上,并且利用GPU和CPU异步预取机制实现了低延迟的查找性能。
不过遗憾的是,在V4版本中并未看到这一创新技术的应用。

尽管如此,Engram的研发者们并没有止步不前。三个月内,已有三个重要的研究项目对它进行了进一步探索:
一项是将Engram技术应用于CXL内存池化系统;
另一个是通过实验否定了一种看似合理的多头哈希优化方案;

还有一个则是AutoArk团队成功地将其应用到了视觉模型Stable Diffusion中。
这些工作表明,虽然DeepSeek V4未集成Engram技术,但该理念及其后续发展已经在其他领域取得了显著进展,并为下一代大型语言模型的发展奠定了基础。
可以说,这个模块天生就不靠HBM,只可惜如今V4来了,Engram没来。
没在v4,但在其他地方
发明者把它放在那里没动,但路上还是有人。三个月里,至少出现了三个值得说一下的工作。
把Engram塞进CXL内存池
3月10日,北大、阿里云、山东英信、人大、港大联合发了一篇系统论文,《Pooling Engram Conditional Memory in Large Language Models using CXL》。

他们没改Engram本身,而是回答了一个更工程的问题,如果Engram真的成了下一代标配,内存放哪。
答案是CXL内存池化。GPU HBM放计算权重,本地DRAM做二级缓存,CXL池做三级。8台服务器共享4TB内存池,XConn XC50256交换芯片做拓扑,512GB/s带宽。
整套集成进SGLang,做了预取-计算重叠,跑下来端到端吞吐损失小于5%。Engram论文里那句「1000亿嵌入表卸载DRAM」的轻描淡写,被他们做成了27B和40B两个规模的真实测试。
结论很清楚,Engram这种确定性寻址、可预取的负载,几乎是为CXL量身定做的。
一个反直觉的实验
Engram论文上线第十一天,1月23日,一个叫TaoLin的研究者,单作者,放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。

他想验证一个看上去显然的优化,Engram用多头哈希查表会有冲突,如果把高频N-gram用Minimal Perfect Hash Function完全消除冲突,模型会不会更好。
他设计了Engram-Nine,把记忆分成无冲突的「热层」和保留多头哈希的「冷层」。
结果反直觉。在严格iso-parameter控制下,无冲突设计没有稳定提升验证loss。
route-stratified评估还发现,训练初期热路径(高频)loss更低,但训练后期冷路径反过来超过热路径。
一个看上去显然的优化方向,被一个真做实验的人证伪了。
把Engram推到视觉(AutoArk/TinyEngram)
GitHub上一个叫AutoArk的团队搞了Tiny Engram。

基于Qwen-3完整复现文本Engram之后,他们做了一件论文里没做的事,把Engram搬到Stable Diffusion上。
视觉patch经过分层编码,底层抓纹理,中层抓部件,高层抓风格,然后整套丢进哈希查表。
跟LoRA比下来,达到同等效果,Engram需要的额外参数只有LoRA的15%到30%。连续注入多个新概念时,LoRA会出现明显的概念退化,Engram不会。
Engram原本是为文本设计的。AutoArk等于把这扇门撞开了,凡是能离散化、能哈希的模态,Engram都能搬。
三个月里,Engram这条路上,发明者最沉默,跟进者各自走了一步。
一个团队替它解决多机内存层级,一个独立研究者证伪了它一个看似显然的优化方向,一个开源团队把它推到了视觉。

而deepseek-ai/Engram这个仓库,最后一次提交还停在1月14日。
One more thing
Engram论文的摘要结尾有一句话:
我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。

看来,这个下一代得是V5了,难不成会是V4.1?
[1]https://arxiv.org/pdf/2601.07372
[2]https://arxiv.org/pdf/2603.10087
[3]https://arxiv.org/pdf/2601.16531
