一位年轻的开发者最近成功开源了名为Mythos的架构，这位22岁的小伙借鉴了DeepSeek的技术。

梦晨 2026-04-20 15:59:51 量子位

这位开发者整合了现有的研究和关于Claude Mythos架构的主要猜测。

据了解，有人认为Mythos过于危险而被封存，但这个说法很快就被打破了。

OpenMythos创建了一个循环深度Transformer模型（RDT），通过跨专家的权重共享和条件计算实现迭代深度。

有研究显示，这种设计仅使用一半参数就能达到传统模型的效果。

这一突破性的成果是由Kye Gomez完成的，他也是Swarms智能体框架的创始人。

RDT架构的主要特点包括：

不堆参数，堆循环

同一组权重可以重复运行多达16次

推理过程完全在潜在空间中进行。

这些设计使得RDT模型能够以更少的参数量实现更深入的推理效果。
每次走不同的专家路径
在过去的两年里，AI行业倾向于使用大量不同层级的Transformer来学习不同的信息，导致了巨大的参数规模。

RDT则采用了几层，并通过反复循环运行多达16次的方式进行深度计算。

反复运行同一过程不会浪费资源吗？

RDT的回答是每次循环会激活不同“专家”来避免冗余工作。

混合专家网络在每一次循环中都会激活不同的子集，以提高效率。

这种设计借鉴了DeepSeekMoE的架构理念：使用大量细粒度路由专家和少量始终在线的共享专家。

Gomez总结道，MoE提供了知识广度而RDT则提升了推理深度。

要保持这一过程稳定，还需要引入LTI稳定循环注入技术来防止每轮计算发散。

新的研究表明，在参数量只有770M的情况下，RDT能够与拥有1.3B参数的标准Transformer模型匹敌。

这意味着使用更少的资源可以获得相同的效果。

与传统的Chain-of-Thought方法相比，RDT采取了一种完全内化的处理方式。

Kye引用了俄亥俄州立大学的研究论文，展示了循环Transformer架构的两个关键实验。

即使在面对未曾见过的知识组合时，循环Transformer也能给出正确的答案，而标准模型则无法做到这一点。

这说明循环机制不是简单的重复计算，而是深层次思考的过程。

在训练过程中教授了20轮推理链后，在测试中直接进行30轮推理的实验也证明了这一观点。

循环Transformer通过增加几轮循环即可应对这种情况，而标准模型则无法完成任务。

这些结果表明当前的大规模预训练模型已经积累了大量的事实信息，但缺乏组合这些知识的能力来回答新颖的问题。

循环机制似乎为这种能力的解锁提供了可能。

第一个：系统性泛化。

如果这些结论是正确的，则未来AI发展的主流趋势可能会从“构建更大规模的模型”转向“优化现有模型的推理过程”。

这些研究成果已经引起了学术界的广泛关注，并吸引了更多理论和实验研究的关注。

第二个：深度外推。

GitHub项目地址：https://github.com/kyegomez/OpenMythos#the-central-hypothesis

循环Transformer的应对方式就是在推理时多加几轮循环，标准Transformer直接崩溃。

这些结果说明当前大模型在预训练中已经记住了大量事实，瓶颈在于知识组合。

它们无法将已知事实串联起来回答新颖问题。循环似乎免费解锁了这种组合能力。

如果这些结论成立，Scaling的主流将从”训练更大的模型”转向“让现有模型在推理时多想几遍”。

有了这些研究结果，Anthropic的Mythos是否真的用了这套架构，似乎已经不重要了。

对循环Transformer的猜想已经吸引了来自学术界的大量目光。

更多理论和实验验证正在路上。

GitHub：
https://github.com/kyegomez/OpenMythos#the-central-hypothesis

参考链接：
[1]
https://x.com/KyeGomezB/status/2045660378844024994
[2]
https://arxiv.org/abs/2604.07822
[3]
https://arxiv.org/abs/2604.12946

一位年轻的开发者最近成功开源了名为Mythos的架构，这位22岁的小伙借鉴了DeepSeek的技术。

梦晨 2026-04-20 15:59:51 量子位

这位开发者整合了现有的研究和关于Claude Mythos架构的主要猜测。

据了解，有人认为Mythos过于危险而被封存，但这个说法很快就被打破了。

OpenMythos创建了一个循环深度Transformer模型（RDT），通过跨专家的权重共享和条件计算实现迭代深度。

有研究显示，这种设计仅使用一半参数就能达到传统模型的效果。

这一突破性的成果是由Kye Gomez完成的，他也是Swarms智能体框架的创始人。

RDT架构的主要特点包括：

不堆参数，堆循环

同一组权重可以重复运行多达16次

推理过程完全在潜在空间中进行。

这些设计使得RDT模型能够以更少的参数量实现更深入的推理效果。
每次走不同的专家路径
在过去的两年里，AI行业倾向于使用大量不同层级的Transformer来学习不同的信息，导致了巨大的参数规模。

RDT则采用了几层，并通过反复循环运行多达16次的方式进行深度计算。

反复运行同一过程不会浪费资源吗？

RDT的回答是每次循环会激活不同“专家”来避免冗余工作。

混合专家网络在每一次循环中都会激活不同的子集，以提高效率。

这种设计借鉴了DeepSeekMoE的架构理念：使用大量细粒度路由专家和少量始终在线的共享专家。

Gomez总结道，MoE提供了知识广度而RDT则提升了推理深度。

要保持这一过程稳定，还需要引入LTI稳定循环注入技术来防止每轮计算发散。

新的研究表明，在参数量只有770M的情况下，RDT能够与拥有1.3B参数的标准Transformer模型匹敌。

这意味着使用更少的资源可以获得相同的效果。

与传统的Chain-of-Thought方法相比，RDT采取了一种完全内化的处理方式。

Kye引用了俄亥俄州立大学的研究论文，展示了循环Transformer架构的两个关键实验。

即使在面对未曾见过的知识组合时，循环Transformer也能给出正确的答案，而标准模型则无法做到这一点。

这说明循环机制不是简单的重复计算，而是深层次思考的过程。

在训练过程中教授了20轮推理链后，在测试中直接进行30轮推理的实验也证明了这一观点。

循环Transformer通过增加几轮循环即可应对这种情况，而标准模型则无法完成任务。

这些结果表明当前的大规模预训练模型已经积累了大量的事实信息，但缺乏组合这些知识的能力来回答新颖的问题。

循环机制似乎为这种能力的解锁提供了可能。

第一个：系统性泛化。

如果这些结论是正确的，则未来AI发展的主流趋势可能会从“构建更大规模的模型”转向“优化现有模型的推理过程”。

这些研究成果已经引起了学术界的广泛关注，并吸引了更多理论和实验研究的关注。

第二个：深度外推。

GitHub项目地址：https://github.com/kyegomez/OpenMythos#the-central-hypothesis

循环Transformer的应对方式就是在推理时多加几轮循环，标准Transformer直接崩溃。

这些结果说明当前大模型在预训练中已经记住了大量事实，瓶颈在于知识组合。

它们无法将已知事实串联起来回答新颖问题。循环似乎免费解锁了这种组合能力。

如果这些结论成立，Scaling的主流将从”训练更大的模型”转向“让现有模型在推理时多想几遍”。

有了这些研究结果，Anthropic的Mythos是否真的用了这套架构，似乎已经不重要了。

对循环Transformer的猜想已经吸引了来自学术界的大量目光。

更多理论和实验验证正在路上。

GitHub：
https://github.com/kyegomez/OpenMythos#the-central-hypothesis

参考链接：
[1]
https://x.com/KyeGomezB/status/2045660378844024994
[2]
https://arxiv.org/abs/2604.07822
[3]
https://arxiv.org/abs/2604.12946

22岁小伙成功开源Mythos架构！借鉴DeepSeek的MoE与注意力机制

一位年轻的开发者最近成功开源了名为Mythos的架构，这位22岁的小伙借鉴了DeepSeek的技术。

不堆参数，堆循环

22岁小伙成功开源Mythos架构！借鉴DeepSeek的MoE与注意力机制

一位年轻的开发者最近成功开源了名为Mythos的架构，这位22岁的小伙借鉴了DeepSeek的技术。

不堆参数，堆循环

相关文章

相关文章