MIT博士突破创新：在Transformer架构中构建计算机，破解大模型核心瓶颈

作者：世界网2026年3月22日科技8 阅读

新智元报道

刚刚，一项令人震撼的研究成果震惊了整个AI社区。

一位来自麻省理工学院的博士，成功地在Transformer架构中构建了一个计算机模型。

这一突破性进展，彻底打破了人们对大模型能力的原有认知。

此前，LLM在执行基本计算任务上一直存在明显短板，例如无法准确比较9.11和9.9哪个更大。

然而，这位博士巧妙地将WebAssembly解释器嵌入到了Transformer模型的权重中，实现了无损编码。

这项创新意味着，LLM不再仅仅是基于概率的文本生成机器，而是进化成为了一台真正的数字计算机。

现在，LLM能够几秒钟内完成数百万步的复杂程序运算，甚至在解决数独问题上达到了100%的准确率。

这一成果迅速引起了众多开发者的高度关注和热烈讨论。

值得一提的是，这项研究彻底颠覆了人们对大模型在计算任务上的固有偏见。

AI领域的大牛Karpathy对此表示惊叹，称这一研究令人深受启发。

通过这种方法，LLM的计算能力得到了显著提升。

在过去，尽管大模型能够解决复杂的科研问题，但在进行基本的数学运算时却显得力不从心。

如何让大模型在执行计算任务时更加可靠和高效，成为了研究的重点。

为此，雅典大学的副教授Christos Tzamos和他的团队，将任意C代码转化为智元，使得模型能够直接运行程序。

他们采用了一种高效的计算路径，大幅提升了Transformer的处理速度。

在短短几秒内，模型便完成了数百万步的程序运算，这在以前是难以想象的。

虽然LLM的计算速度无法与CPU媲美，但这项技术的关键在于赋予了LLM内在的计算能力，使其更智能化。

这种内在计算能力的提升，为未来的AI应用开辟了广阔的空间。

网友们纷纷赞叹，称这是真正的原生智能。

此前，人们普遍认为Transformer不适合进行计算，但这一研究打破了这一传统观念。

过去，每当展示大模型的强大推理能力时，总会有人问及9.11和9.9哪个更大，这成了每个AI项目不可避免的尴尬时刻。

这种问题之所以困扰AI，是因为Transformer模型最初设计是用来理解和生成自然语言，而非进行精确计算。

为解决这一难题，AI行业曾尝试通过调用外部工具的方式来弥补这一缺陷。

然而，这种方法不仅不够优雅，还可能引入额外的安全风险。

此次，麻省理工学院的博士团队提出了一个全新的解决方案：直接在Transformer内部构建一个完整的WebAssembly虚拟机。

这意味着，神经网络的前向传播过程本身就等同于执行计算机程序。

可以退出历史舞台？

通过这种方式，AI终于解决了长久以来困扰其发展的计算能力瓶颈。

传统Attention机制在进行计算时效率较低，而这项研究则直接推动了Transformer架构的革新。

这一突破性的进展，意味着AI不再需要借助外力来完成计算任务，而是能够自主执行复杂的计算程序。

未来，这种混合架构有望在数值计算、物理模拟、金融建模和密码学运算等多个领域引发革命性变化。

AI工程师Aviraj指出，虽然Percepta的方法非常出色，但他们的方法更加侧重于解决特定问题。

Percepta团队采用了一种专门为特定任务设计的极简指令集，而不是依赖于通用编译产物。

这种创新方法让Transformer能够在内部运行完整的计算机程序，从而彻底改变了AI的能力边界。

理解Transformer如何执行计算的一个重要视角，是将其视为一个不断增长的笔记本。

每一步计算都记录在新的一页上，一旦记录，之前的页面就不能更改。

这种只增不减的轨迹，与自回归Transformer的工作方式非常相似。

在这种模型中，每一个新的智元都是基于前面的少量位置生成的。

三年了。

这种方法使得许多算法都能够被表示成只增不减的轨迹，每一步只需要读取少量先前的位置。

在Christos Tzamos的系统中，AI模型生成的智元代表了虚拟机的动态状态，包括指令指针、内存、栈操作、算术运算和控制流。

AI模型通过回看相关的先前步骤来重构当前状态，实现了高效的计算路径。

虽然Transformer能够表示这种执行轨迹，但随着轨迹的增长，标准解码过程的成本会越来越高。

为解决这一问题，Christos Tzamos团队提出了一种快速解码路径，显著提高了计算效率。

总之，这项研究的价值在于将计算能力直接嵌入到LLM中，使其成为一个由推理系统和计算引擎组成的混合体。

这种进步为未来的AI发展指明了一个新的方向。

未来的AI将不再仅仅是概率模型，而是更加智能和高效的系统。

这一突破可能预示着下一代AI技术的真正发展方向。

他们把一台完整的WebAssembly虚拟机，硬编码进了Transformer的权重里。

也就是说，神经网络的前向传播过程本身，就等价于执行一台计算机。

过去AI的耻辱，如今终结了。

不过，但就数独问题而言，这不是LLM第一次突破。

工程师Aviraj认为Percepta的方法很酷，但他们采取了不同的、更面向具体问题的路径。

核心区别在于：不将通用编译产物（如C->WASM）作为模型的学习目标，而是为特定任务设计一个极简的、领域专用的指令集（PSVM）。

不过，这次看看Christos Tzamos团队如何在Transformer内部跑起来一台电脑的。

这个过程的关键，就是找到一种方法，来编码一台可工作的计算机。

计算：一条只增不减的轨迹

要理解Transformer如何在内部执行程序，不妨用一种稍微不同的方式来思考计算。

想象一个笔记本，计算的每一步都写在下一行。一旦写下，前面的行就不能更改；笔记本只会越来越厚。

这惊人地接近自回归Transformer的工作方式：提示词是输入，生成的智元形成不断增长的轨迹，每个新智元都是通过注意力机制回看少量位置后产生的。

比如，给定一个句子，统计其中动词的数量是奇数还是偶数。每个轨迹智元恰好关注两个位置：对应的输入词（检查它是否是动词）和前一个轨迹智元（读取当前的奇偶状态）。

请注意，无论句子有多长，每一步都只需要两次回看（一次看提示词，一次看轨迹）。

这正是其中的核心洞察：许多算法都可以表示成这种只增不减的轨迹，每一步只需读取少量、固定数量的先前位置。

那么，计算能否被表示成一条只增不减的轨迹，且每一步只需回看少量次数呢？

答案是肯定的。

在Christos Tzamos的系统中，AI模型明确地生成了这样的轨迹。

它生成的智元代表了一个虚拟机的动态状态：指令指针、内存和栈操作、算术运算、控制流以及输出。

AI只需通过回看相关的先前步骤，就能重构出当前状态。

这几乎就是图灵机！

图灵机是一种抽象的计算机模型，它通过在一个无限长的纸带上进行读写操作来执行计算。

但即使Transformer能表示这种执行轨迹，随着轨迹变长，标准的解码过程仍然会付出越来越高的成本。

然而，Christos Tzamos等提出了快速解码路径，消除了这一障碍，而二维注意力头限制，正是实现这一快速路径的关键。

总的来说，这件事真正有价值的地方，不在于「模型更会算了」，而有些能力，可以直接以「系统」的形式嵌入进去。

当Transformer内部开始运行真正的程序，LLM就不再只是一个概率模型，而更像一个由推理系统和计算引擎组成的混合体。

AI，正在变成一整套可以执行、可以组合、可以扩展的系统。

这，可能就是下一代AI的真正方向。

参考资料：

https://x.com/mtrainier2020/status/2033640996337291482

https://www.percepta.ai/blog/can-llms-be-computers

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

MIT博士突破创新：在Transformer架构中构建计算机，破解大模型核心瓶颈

作者：世界网2026年3月22日科技8 阅读

新智元报道

刚刚，一项令人震撼的研究成果震惊了整个AI社区。

一位来自麻省理工学院的博士，成功地在Transformer架构中构建了一个计算机模型。

这一突破性进展，彻底打破了人们对大模型能力的原有认知。

此前，LLM在执行基本计算任务上一直存在明显短板，例如无法准确比较9.11和9.9哪个更大。

然而，这位博士巧妙地将WebAssembly解释器嵌入到了Transformer模型的权重中，实现了无损编码。

这项创新意味着，LLM不再仅仅是基于概率的文本生成机器，而是进化成为了一台真正的数字计算机。

现在，LLM能够几秒钟内完成数百万步的复杂程序运算，甚至在解决数独问题上达到了100%的准确率。

这一成果迅速引起了众多开发者的高度关注和热烈讨论。

值得一提的是，这项研究彻底颠覆了人们对大模型在计算任务上的固有偏见。

AI领域的大牛Karpathy对此表示惊叹，称这一研究令人深受启发。

通过这种方法，LLM的计算能力得到了显著提升。

在过去，尽管大模型能够解决复杂的科研问题，但在进行基本的数学运算时却显得力不从心。

如何让大模型在执行计算任务时更加可靠和高效，成为了研究的重点。

为此，雅典大学的副教授Christos Tzamos和他的团队，将任意C代码转化为智元，使得模型能够直接运行程序。

他们采用了一种高效的计算路径，大幅提升了Transformer的处理速度。

在短短几秒内，模型便完成了数百万步的程序运算，这在以前是难以想象的。

虽然LLM的计算速度无法与CPU媲美，但这项技术的关键在于赋予了LLM内在的计算能力，使其更智能化。

这种内在计算能力的提升，为未来的AI应用开辟了广阔的空间。

网友们纷纷赞叹，称这是真正的原生智能。

此前，人们普遍认为Transformer不适合进行计算，但这一研究打破了这一传统观念。

过去，每当展示大模型的强大推理能力时，总会有人问及9.11和9.9哪个更大，这成了每个AI项目不可避免的尴尬时刻。

这种问题之所以困扰AI，是因为Transformer模型最初设计是用来理解和生成自然语言，而非进行精确计算。

为解决这一难题，AI行业曾尝试通过调用外部工具的方式来弥补这一缺陷。

然而，这种方法不仅不够优雅，还可能引入额外的安全风险。

此次，麻省理工学院的博士团队提出了一个全新的解决方案：直接在Transformer内部构建一个完整的WebAssembly虚拟机。

这意味着，神经网络的前向传播过程本身就等同于执行计算机程序。

可以退出历史舞台？

通过这种方式，AI终于解决了长久以来困扰其发展的计算能力瓶颈。

传统Attention机制在进行计算时效率较低，而这项研究则直接推动了Transformer架构的革新。

这一突破性的进展，意味着AI不再需要借助外力来完成计算任务，而是能够自主执行复杂的计算程序。

未来，这种混合架构有望在数值计算、物理模拟、金融建模和密码学运算等多个领域引发革命性变化。

AI工程师Aviraj指出，虽然Percepta的方法非常出色，但他们的方法更加侧重于解决特定问题。

Percepta团队采用了一种专门为特定任务设计的极简指令集，而不是依赖于通用编译产物。

这种创新方法让Transformer能够在内部运行完整的计算机程序，从而彻底改变了AI的能力边界。

理解Transformer如何执行计算的一个重要视角，是将其视为一个不断增长的笔记本。

每一步计算都记录在新的一页上，一旦记录，之前的页面就不能更改。

这种只增不减的轨迹，与自回归Transformer的工作方式非常相似。

在这种模型中，每一个新的智元都是基于前面的少量位置生成的。

三年了。

这种方法使得许多算法都能够被表示成只增不减的轨迹，每一步只需要读取少量先前的位置。

在Christos Tzamos的系统中，AI模型生成的智元代表了虚拟机的动态状态，包括指令指针、内存、栈操作、算术运算和控制流。

AI模型通过回看相关的先前步骤来重构当前状态，实现了高效的计算路径。

虽然Transformer能够表示这种执行轨迹，但随着轨迹的增长，标准解码过程的成本会越来越高。

为解决这一问题，Christos Tzamos团队提出了一种快速解码路径，显著提高了计算效率。

总之，这项研究的价值在于将计算能力直接嵌入到LLM中，使其成为一个由推理系统和计算引擎组成的混合体。

这种进步为未来的AI发展指明了一个新的方向。

未来的AI将不再仅仅是概率模型，而是更加智能和高效的系统。

这一突破可能预示着下一代AI技术的真正发展方向。

他们把一台完整的WebAssembly虚拟机，硬编码进了Transformer的权重里。

也就是说，神经网络的前向传播过程本身，就等价于执行一台计算机。

过去AI的耻辱，如今终结了。

不过，但就数独问题而言，这不是LLM第一次突破。

工程师Aviraj认为Percepta的方法很酷，但他们采取了不同的、更面向具体问题的路径。

核心区别在于：不将通用编译产物（如C->WASM）作为模型的学习目标，而是为特定任务设计一个极简的、领域专用的指令集（PSVM）。

不过，这次看看Christos Tzamos团队如何在Transformer内部跑起来一台电脑的。

这个过程的关键，就是找到一种方法，来编码一台可工作的计算机。

计算：一条只增不减的轨迹

要理解Transformer如何在内部执行程序，不妨用一种稍微不同的方式来思考计算。

想象一个笔记本，计算的每一步都写在下一行。一旦写下，前面的行就不能更改；笔记本只会越来越厚。

这惊人地接近自回归Transformer的工作方式：提示词是输入，生成的智元形成不断增长的轨迹，每个新智元都是通过注意力机制回看少量位置后产生的。

请注意，无论句子有多长，每一步都只需要两次回看（一次看提示词，一次看轨迹）。

这正是其中的核心洞察：许多算法都可以表示成这种只增不减的轨迹，每一步只需读取少量、固定数量的先前位置。

那么，计算能否被表示成一条只增不减的轨迹，且每一步只需回看少量次数呢？

答案是肯定的。

在Christos Tzamos的系统中，AI模型明确地生成了这样的轨迹。

它生成的智元代表了一个虚拟机的动态状态：指令指针、内存和栈操作、算术运算、控制流以及输出。

AI只需通过回看相关的先前步骤，就能重构出当前状态。

这几乎就是图灵机！

图灵机是一种抽象的计算机模型，它通过在一个无限长的纸带上进行读写操作来执行计算。

但即使Transformer能表示这种执行轨迹，随着轨迹变长，标准的解码过程仍然会付出越来越高的成本。

然而，Christos Tzamos等提出了快速解码路径，消除了这一障碍，而二维注意力头限制，正是实现这一快速路径的关键。

总的来说，这件事真正有价值的地方，不在于「模型更会算了」，而有些能力，可以直接以「系统」的形式嵌入进去。

当Transformer内部开始运行真正的程序，LLM就不再只是一个概率模型，而更像一个由推理系统和计算引擎组成的混合体。

AI，正在变成一整套可以执行、可以组合、可以扩展的系统。

这，可能就是下一代AI的真正方向。

参考资料：

https://x.com/mtrainier2020/status/2033640996337291482

https://www.percepta.ai/blog/can-llms-be-computers

“”

MIT博士突破创新：在Transformer架构中构建计算机，破解大模型核心瓶颈

MIT博士突破创新：在Transformer架构中构建计算机，破解大模型核心瓶颈

相关文章

相关文章