DeepSeek V4的未竟之憾

作者：世界网2026年5月4日科技3 阅读

最近，关于DeepSeekV4的技术报告引起了广泛关注。

报告中列举了多项技术特性，包括mHC、CSA、HCA、Muon和FP4等，但未提及Engram。

由于这一情况，人们纷纷热议这个话题。

Engram去哪了？

Engram是在今年一月由DeepSeek与北京大学联合开源的项目，旨在研究大型模型的记忆效率问题。

自从发布以来，关于它的讨论从未间断过。

它不仅被视为V4版本的重要预兆，还因为它能显著提高模型处理特定信息的能力，如查询“伦敦是英国首都”这类事实时无需重新计算整个深度网络。

通过这样的设计，Engram能够减少显存占用，并释放深层网络容量用于更复杂的推理任务。

因此，在论文发布后的几个月里，人们对Engram成为V4架构基础的期待不断上升。

当DeepSeek V4版本公布时，人们迫不及待地想要在报告中找到Engram的身影，但最终却失望而归。

这一缺失让不少人认为V4是不完整的。

可以说，没有集成Engram技术成为了V4的一个遗憾。

尽管如此，Engram并未消失。自那以后，陆续有三项重要研究相继推出：

第一项探讨了如何通过CXL内存池化技术解决大型模型部署的存储问题；

其次是对Engram多头哈希优化进行实证检验的工作，反驳了一些直观改进方案的有效性；
最后是AutoArk团队将文本领域的Engram应用到视觉模式上的尝试。
这些研究证明了尽管V4未采用Engram技术，但该理念及其后续发展已经悄然展开，并为下一代模型奠定了基础。

Engram的核心功能在于为Transformer添加了一个原生的知识查询模块。它能够迅速查找到预先存储的信息，从而避免不必要的计算开销。

回顾2026年1月12日这一天，DeepSeek与北京大学联合发布了33页的论文《通过可扩展查找实现条件记忆》。

论文的第一作者是ChengXin，北大博士生，曾在V3项目中署名。最后一位作者为梁文锋教授。

简而言之，Engram可以看作是在Transformer架构内加入的一种知识查表功能。

该团队的核心发现指出，在语言建模任务中存在着两种截然不同的需求：动态组合推理和静态知识检索。

过去的问题在于，传统的Transformer模型将这两项任务混为一谈。当识别实体时，模型需要通过多层注意力机制和前馈网络逐步构建特征。

举个例子，“戴安娜王妃”（Diana, Princess of Wales）这一称谓的解析过程需要经过六层网络才能完成。

在此期间，系统会不断尝试确定“Wales是英国的一个地区”，以及“Princess of Wales是一种头衔”等中间状态的信息。

直到最后一层时，模型才会识别出这是戴安娜王妃的名字。

这样的操作不仅耗费计算资源，而且可以被静态查找表所替代。Engram的设计正是基于此，它能够直接查询已知信息而非重新构建整个知识结构。

通过这种方式，Transformer不再需要从基础公理开始推导每一个问题的答案，而是可以直接调用预设的知识库。

具体实现上，在Transformer的第2层和第15层之间嵌入了两个Engram模块。

输入序列触发哈希查找，将当前token及其先前几个token组成的N-gram映射到一个巨大的嵌入表中，并从中取出相应的向量。

门控机制则确保查询结果与上下文不匹配时被自动屏蔽。例如，“张仲景”是一个特定的历史人物名，而“张”单独出现则可能代表姓氏，这种区别由门控功能来识别并处理。

Engram被视为MoE（混合专家）之外的另一种稀疏性扩展方式，后者通过激活部分专家节点减少计算量，而Engram则是通过查找特定的知识库条目降低存储需求。

在实验中，团队固定了总参数和每token激活参数，并让MoE专家与Engram记忆模块争夺预算资源。最终发现当大约20%-25%的稀疏参数被分配给Engram时，模型性能达到最优。

之后的研究表明，在一些特定任务上，如知识密集型问题（MMLU、CMMLU）和长上下文场景（Multi-Query NIAH），Engram的应用效果明显优于预期。

这种提升的一个原因是Engram能够释放模型的早期层用于更复杂的推理工作。此外，实验结果还显示Engram模块的存在实际上增加了网络的有效深度。

从工程角度而言，Engram的设计确保了其高效性。通过将庞大的知识库表存储在主机DRAM上，并且利用GPU和CPU异步预取机制实现了低延迟的查找性能。

不过遗憾的是，在V4版本中并未看到这一创新技术的应用。

尽管如此，Engram的研发者们并没有止步不前。三个月内，已有三个重要的研究项目对它进行了进一步探索：

一项是将Engram技术应用于CXL内存池化系统；

另一个是通过实验否定了一种看似合理的多头哈希优化方案；

还有一个则是AutoArk团队成功地将其应用到了视觉模型Stable Diffusion中。

这些工作表明，虽然DeepSeek V4未集成Engram技术，但该理念及其后续发展已经在其他领域取得了显著进展，并为下一代大型语言模型的发展奠定了基础。

可以说，这个模块天生就不靠HBM，只可惜如今V4来了，Engram没来。

没在v4，但在其他地方

发明者把它放在那里没动，但路上还是有人。三个月里，至少出现了三个值得说一下的工作。

把Engram塞进CXL内存池

3月10日，北大、阿里云、山东英信、人大、港大联合发了一篇系统论文，《Pooling Engram Conditional Memory in Large Language Models using CXL》。

他们没改Engram本身，而是回答了一个更工程的问题，如果Engram真的成了下一代标配，内存放哪。

答案是CXL内存池化。GPU HBM放计算权重，本地DRAM做二级缓存，CXL池做三级。8台服务器共享4TB内存池，XConn XC50256交换芯片做拓扑，512GB/s带宽。

整套集成进SGLang，做了预取-计算重叠，跑下来端到端吞吐损失小于5%。Engram论文里那句「1000亿嵌入表卸载DRAM」的轻描淡写，被他们做成了27B和40B两个规模的真实测试。

结论很清楚，Engram这种确定性寻址、可预取的负载，几乎是为CXL量身定做的。

一个反直觉的实验

Engram论文上线第十一天，1月23日，一个叫TaoLin的研究者，单作者，放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。

他想验证一个看上去显然的优化，Engram用多头哈希查表会有冲突，如果把高频N-gram用Minimal Perfect Hash Function完全消除冲突，模型会不会更好。

他设计了Engram-Nine，把记忆分成无冲突的「热层」和保留多头哈希的「冷层」。

结果反直觉。在严格iso-parameter控制下，无冲突设计没有稳定提升验证loss。

route-stratified评估还发现，训练初期热路径(高频)loss更低，但训练后期冷路径反过来超过热路径。

一个看上去显然的优化方向，被一个真做实验的人证伪了。

把Engram推到视觉(AutoArk/TinyEngram)

GitHub上一个叫AutoArk的团队搞了Tiny Engram。

基于Qwen-3完整复现文本Engram之后，他们做了一件论文里没做的事，把Engram搬到Stable Diffusion上。

视觉patch经过分层编码，底层抓纹理，中层抓部件，高层抓风格，然后整套丢进哈希查表。

跟LoRA比下来，达到同等效果，Engram需要的额外参数只有LoRA的15%到30%。连续注入多个新概念时，LoRA会出现明显的概念退化，Engram不会。

Engram原本是为文本设计的。AutoArk等于把这扇门撞开了，凡是能离散化、能哈希的模态，Engram都能搬。

三个月里，Engram这条路上，发明者最沉默，跟进者各自走了一步。

一个团队替它解决多机内存层级，一个独立研究者证伪了它一个看似显然的优化方向，一个开源团队把它推到了视觉。

而deepseek-ai/Engram这个仓库，最后一次提交还停在1月14日。

One more thing

Engram论文的摘要结尾有一句话：

我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。

看来，这个下一代得是V5了，难不成会是V4.1?

[1]https://arxiv.org/pdf/2601.07372

[2]https://arxiv.org/pdf/2603.10087

[3]https://arxiv.org/pdf/2601.16531

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

DeepSeek V4的未竟之憾

作者：世界网2026年5月4日科技3 阅读

最近，关于DeepSeekV4的技术报告引起了广泛关注。

报告中列举了多项技术特性，包括mHC、CSA、HCA、Muon和FP4等，但未提及Engram。

由于这一情况，人们纷纷热议这个话题。

Engram去哪了？

Engram是在今年一月由DeepSeek与北京大学联合开源的项目，旨在研究大型模型的记忆效率问题。

自从发布以来，关于它的讨论从未间断过。

它不仅被视为V4版本的重要预兆，还因为它能显著提高模型处理特定信息的能力，如查询“伦敦是英国首都”这类事实时无需重新计算整个深度网络。

通过这样的设计，Engram能够减少显存占用，并释放深层网络容量用于更复杂的推理任务。

因此，在论文发布后的几个月里，人们对Engram成为V4架构基础的期待不断上升。

当DeepSeek V4版本公布时，人们迫不及待地想要在报告中找到Engram的身影，但最终却失望而归。

这一缺失让不少人认为V4是不完整的。

可以说，没有集成Engram技术成为了V4的一个遗憾。

尽管如此，Engram并未消失。自那以后，陆续有三项重要研究相继推出：

第一项探讨了如何通过CXL内存池化技术解决大型模型部署的存储问题；

其次是对Engram多头哈希优化进行实证检验的工作，反驳了一些直观改进方案的有效性；
最后是AutoArk团队将文本领域的Engram应用到视觉模式上的尝试。
这些研究证明了尽管V4未采用Engram技术，但该理念及其后续发展已经悄然展开，并为下一代模型奠定了基础。

Engram的核心功能在于为Transformer添加了一个原生的知识查询模块。它能够迅速查找到预先存储的信息，从而避免不必要的计算开销。

回顾2026年1月12日这一天，DeepSeek与北京大学联合发布了33页的论文《通过可扩展查找实现条件记忆》。

论文的第一作者是ChengXin，北大博士生，曾在V3项目中署名。最后一位作者为梁文锋教授。

简而言之，Engram可以看作是在Transformer架构内加入的一种知识查表功能。

该团队的核心发现指出，在语言建模任务中存在着两种截然不同的需求：动态组合推理和静态知识检索。

过去的问题在于，传统的Transformer模型将这两项任务混为一谈。当识别实体时，模型需要通过多层注意力机制和前馈网络逐步构建特征。

举个例子，“戴安娜王妃”（Diana, Princess of Wales）这一称谓的解析过程需要经过六层网络才能完成。

在此期间，系统会不断尝试确定“Wales是英国的一个地区”，以及“Princess of Wales是一种头衔”等中间状态的信息。

直到最后一层时，模型才会识别出这是戴安娜王妃的名字。

这样的操作不仅耗费计算资源，而且可以被静态查找表所替代。Engram的设计正是基于此，它能够直接查询已知信息而非重新构建整个知识结构。

通过这种方式，Transformer不再需要从基础公理开始推导每一个问题的答案，而是可以直接调用预设的知识库。

具体实现上，在Transformer的第2层和第15层之间嵌入了两个Engram模块。

输入序列触发哈希查找，将当前token及其先前几个token组成的N-gram映射到一个巨大的嵌入表中，并从中取出相应的向量。

之后的研究表明，在一些特定任务上，如知识密集型问题（MMLU、CMMLU）和长上下文场景（Multi-Query NIAH），Engram的应用效果明显优于预期。

这种提升的一个原因是Engram能够释放模型的早期层用于更复杂的推理工作。此外，实验结果还显示Engram模块的存在实际上增加了网络的有效深度。

从工程角度而言，Engram的设计确保了其高效性。通过将庞大的知识库表存储在主机DRAM上，并且利用GPU和CPU异步预取机制实现了低延迟的查找性能。

不过遗憾的是，在V4版本中并未看到这一创新技术的应用。

尽管如此，Engram的研发者们并没有止步不前。三个月内，已有三个重要的研究项目对它进行了进一步探索：

一项是将Engram技术应用于CXL内存池化系统；

另一个是通过实验否定了一种看似合理的多头哈希优化方案；

还有一个则是AutoArk团队成功地将其应用到了视觉模型Stable Diffusion中。

这些工作表明，虽然DeepSeek V4未集成Engram技术，但该理念及其后续发展已经在其他领域取得了显著进展，并为下一代大型语言模型的发展奠定了基础。

可以说，这个模块天生就不靠HBM，只可惜如今V4来了，Engram没来。

没在v4，但在其他地方

发明者把它放在那里没动，但路上还是有人。三个月里，至少出现了三个值得说一下的工作。

把Engram塞进CXL内存池

3月10日，北大、阿里云、山东英信、人大、港大联合发了一篇系统论文，《Pooling Engram Conditional Memory in Large Language Models using CXL》。

他们没改Engram本身，而是回答了一个更工程的问题，如果Engram真的成了下一代标配，内存放哪。

答案是CXL内存池化。GPU HBM放计算权重，本地DRAM做二级缓存，CXL池做三级。8台服务器共享4TB内存池，XConn XC50256交换芯片做拓扑，512GB/s带宽。

结论很清楚，Engram这种确定性寻址、可预取的负载，几乎是为CXL量身定做的。

一个反直觉的实验

Engram论文上线第十一天，1月23日，一个叫TaoLin的研究者，单作者，放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。

他想验证一个看上去显然的优化，Engram用多头哈希查表会有冲突，如果把高频N-gram用Minimal Perfect Hash Function完全消除冲突，模型会不会更好。

他设计了Engram-Nine，把记忆分成无冲突的「热层」和保留多头哈希的「冷层」。

结果反直觉。在严格iso-parameter控制下，无冲突设计没有稳定提升验证loss。

route-stratified评估还发现，训练初期热路径(高频)loss更低，但训练后期冷路径反过来超过热路径。

一个看上去显然的优化方向，被一个真做实验的人证伪了。

把Engram推到视觉(AutoArk/TinyEngram)

GitHub上一个叫AutoArk的团队搞了Tiny Engram。

基于Qwen-3完整复现文本Engram之后，他们做了一件论文里没做的事，把Engram搬到Stable Diffusion上。

视觉patch经过分层编码，底层抓纹理，中层抓部件，高层抓风格，然后整套丢进哈希查表。

跟LoRA比下来，达到同等效果，Engram需要的额外参数只有LoRA的15%到30%。连续注入多个新概念时，LoRA会出现明显的概念退化，Engram不会。

Engram原本是为文本设计的。AutoArk等于把这扇门撞开了，凡是能离散化、能哈希的模态，Engram都能搬。

三个月里，Engram这条路上，发明者最沉默，跟进者各自走了一步。

一个团队替它解决多机内存层级，一个独立研究者证伪了它一个看似显然的优化方向，一个开源团队把它推到了视觉。

而deepseek-ai/Engram这个仓库，最后一次提交还停在1月14日。

One more thing

Engram论文的摘要结尾有一句话：

我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。

看来，这个下一代得是V5了，难不成会是V4.1?

[1]https://arxiv.org/pdf/2601.07372

[2]https://arxiv.org/pdf/2603.10087

[3]https://arxiv.org/pdf/2601.16531

“”

DeepSeek V4的未竟之憾

DeepSeek V4的未竟之憾

相关文章

相关文章