警惕！上世纪三十年代水平的AI竟挑战编程岗位

作者：世界网2026年5月4日科技2 阅读

量子位报道：经典模型焕发新生

即使在劳动节，也有一个年届百岁的复古大模型继续工作。

它被微调成了软件工程师的角色，尽管它只了解1930年的知识。

在训练过程中，仅用了少量的样本量就解决了它的第一个编程问题——为xarray库打补丁。

这个从未见过电视或互联网的AI，开始挑战Claude等模型，并试图与程序员竞争饭碗。（微笑）

让我们先了解一下1930是谁？

中古硅基软件工程师

它是最近流行的“老头AI”，正式名称为talkie-1930-13b。

这个项目的主导者包括Nick Levine、David Duvenaud和Alec Radford，后者正是GPT系列的创始人。

他们对模型最独特的设计之一就是训练数据截止日期——任何来自1931年之后的信息都被排除在外。

因此，它不知道第二次世界大战的结果或互联网的存在。

这个“老古董”的知识库被冻结在了1930年的最后一天。

然而，它的编程能力却让人惊讶。当面对一个Python问题时，这个跨越时代的模型竟然能够写出代码。

有人对Alec Radford开发的这款1930年复古大模型进行了微调，并让其解决实际软件工程中的问题。

离离原上谱。

如今，老头再次发力。

出人意料的是，它成功完成了任务，在经过250个训练样本后，首次推出了一个针对xarray库的小补丁。

开发团队还公开了这个项目的全过程。

从现代大型语言模型的标准来看，这个演示可能显得有些粗糙。

百岁老人，硬核上岗。

它花费了49轮才完成了简单的任务，过程缓慢且充满挑战。

在某些阶段，它甚至出错或失败，但最终还是找到了正确的解决方案。

尽管如此，这种试错和修正的过程却令人兴奋不已。

一个最直接的例子是，在第44轮时，它终于解决了问题。（微笑）

当微调训练数据规模扩大至大约75K个轨迹或10亿token时，模型在SWE-bench-Verified上的表现提升到了4.5%的pass@1。

这一进步远超其原来在HumanEval上仅有的4% pass@100的表现。

尽管绝对值仍较低，但对于一个只了解1930年知识的模型来说，这已经是非常突出的成绩了。

同时，在另一个对照实验中，团队还训练了一个名为talkie-web的兄弟模型，该模型基于互联网数据进行预训练。

有趣的是，尽管后者具有互联网背景，但在同样的微调条件下，其在SWE-bench-Verified上的成绩仅比1930年版本高出一个百分点。

目前，项目已经在GitHub上开源，并提供了详细的文档说明。

团队邀请所有有兴趣的朋友参与测试并分享结果。

他们希望看到当计算资源更多时，两个模型在持续训练下的性能对比情况。

在网友的评论中，有不少人开始探讨智能的本质问题。

我们通常认为AI需要吸收大量互联网信息才能变得更聪明。

然而，仅用有限的历史知识和正确的后训练方法便能完成现代编程任务……

这是否意味着我们需要重新审视“智能”的定义？

而4.5%的pass@1虽然在当前标准下并不出色，但它证明了一个重要观点。

即使是百年前的数据量加上适当的训练方法，也足以产生现代意义上的推理能力。

智能的发展或许不在于预训练数据的数量多少。

一个模型只需具备基础的语言理解和学习能力便已足够应对复杂的任务。

或许，在追求更大规模的道路上，我们也可以偶尔停下脚步思考一些更深层次的问题——

例如，“智能的本质到底是什么？”

没错，即便团队偏心，给孪生兄弟加上互联网数据，也就比老头高了1个百分点。

以上结果，欢迎复现。

这不是什么穿越爽文，团队已经在GitHub上开源了项目，链接放在文章结尾，感兴趣的朋友可以去跑跑看。

团队自己也很兴奋，在README里喊话：

如果你手头有更多算力，我们很想看到1930模型和互联网模型在后训练持续扩展时的完整scaling曲线对比。

想看想看，这可比单纯秀肌肉的benchmark有意思多了。

什么是智能？

团队并没有剖析背后的原因，但我看了不少网友在帖子下面的评论，觉得这是一个值得讨论的话题。

我们一直以为，AI需要吃掉整个互联网才能变聪明。

但如果一个只读过1930年以前书的模型，经过一点点后训练就能写代码修bug……

那我们对「什么是智能」的理解，是不是也得重新想想？

4.5%的pass@1，放在今天的SOTA面前当然不够看。但它证明的那件事，比任何benchmark分数都重要。

一个1930年代的人，如果拥有几乎相同的教育体系，完全可以理解现代软件工程。

一百年前的数据量，加上正确的后训练方法，就足以产生现代意义上的推理。

智能的瓶颈，或许从来不在于预训练数据的多少。

你不需要一个训练过所有知识的模型，它只需要具备基本的语言理解能力，这就够了。

或许，当我们在Scaling路上一路狂奔的间隙，也可以稍微停一停，抬起头来跟身边人侃侃大山、扯扯淡——

诶，你说……
智能的本质，到底是什么？

GitHub：
https://github.com/RicardoDominguez/talkie-coder

参考链接：
[1]
https://x.com/rdolmedo_/status/2050665193374732430?s=20
[2]
https://github.com/RicardoDominguez/talkie-coder

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

警惕！上世纪三十年代水平的AI竟挑战编程岗位

作者：世界网2026年5月4日科技2 阅读

量子位报道：经典模型焕发新生

即使在劳动节，也有一个年届百岁的复古大模型继续工作。

它被微调成了软件工程师的角色，尽管它只了解1930年的知识。

在训练过程中，仅用了少量的样本量就解决了它的第一个编程问题——为xarray库打补丁。

这个从未见过电视或互联网的AI，开始挑战Claude等模型，并试图与程序员竞争饭碗。（微笑）

让我们先了解一下1930是谁？

中古硅基软件工程师

它是最近流行的“老头AI”，正式名称为talkie-1930-13b。

这个项目的主导者包括Nick Levine、David Duvenaud和Alec Radford，后者正是GPT系列的创始人。

他们对模型最独特的设计之一就是训练数据截止日期——任何来自1931年之后的信息都被排除在外。

因此，它不知道第二次世界大战的结果或互联网的存在。

这个“老古董”的知识库被冻结在了1930年的最后一天。

然而，它的编程能力却让人惊讶。当面对一个Python问题时，这个跨越时代的模型竟然能够写出代码。

有人对Alec Radford开发的这款1930年复古大模型进行了微调，并让其解决实际软件工程中的问题。

离离原上谱。

如今，老头再次发力。

出人意料的是，它成功完成了任务，在经过250个训练样本后，首次推出了一个针对xarray库的小补丁。

开发团队还公开了这个项目的全过程。

从现代大型语言模型的标准来看，这个演示可能显得有些粗糙。

百岁老人，硬核上岗。

它花费了49轮才完成了简单的任务，过程缓慢且充满挑战。

在某些阶段，它甚至出错或失败，但最终还是找到了正确的解决方案。

尽管如此，这种试错和修正的过程却令人兴奋不已。

一个最直接的例子是，在第44轮时，它终于解决了问题。（微笑）

当微调训练数据规模扩大至大约75K个轨迹或10亿token时，模型在SWE-bench-Verified上的表现提升到了4.5%的pass@1。

这一进步远超其原来在HumanEval上仅有的4% pass@100的表现。

尽管绝对值仍较低，但对于一个只了解1930年知识的模型来说，这已经是非常突出的成绩了。

同时，在另一个对照实验中，团队还训练了一个名为talkie-web的兄弟模型，该模型基于互联网数据进行预训练。

有趣的是，尽管后者具有互联网背景，但在同样的微调条件下，其在SWE-bench-Verified上的成绩仅比1930年版本高出一个百分点。

目前，项目已经在GitHub上开源，并提供了详细的文档说明。

团队邀请所有有兴趣的朋友参与测试并分享结果。

他们希望看到当计算资源更多时，两个模型在持续训练下的性能对比情况。

在网友的评论中，有不少人开始探讨智能的本质问题。

我们通常认为AI需要吸收大量互联网信息才能变得更聪明。

然而，仅用有限的历史知识和正确的后训练方法便能完成现代编程任务……

这是否意味着我们需要重新审视“智能”的定义？

而4.5%的pass@1虽然在当前标准下并不出色，但它证明了一个重要观点。

即使是百年前的数据量加上适当的训练方法，也足以产生现代意义上的推理能力。

智能的发展或许不在于预训练数据的数量多少。

一个模型只需具备基础的语言理解和学习能力便已足够应对复杂的任务。

或许，在追求更大规模的道路上，我们也可以偶尔停下脚步思考一些更深层次的问题——

例如，“智能的本质到底是什么？”

没错，即便团队偏心，给孪生兄弟加上互联网数据，也就比老头高了1个百分点。

以上结果，欢迎复现。

这不是什么穿越爽文，团队已经在GitHub上开源了项目，链接放在文章结尾，感兴趣的朋友可以去跑跑看。

团队自己也很兴奋，在README里喊话：

如果你手头有更多算力，我们很想看到1930模型和互联网模型在后训练持续扩展时的完整scaling曲线对比。

想看想看，这可比单纯秀肌肉的benchmark有意思多了。

什么是智能？

团队并没有剖析背后的原因，但我看了不少网友在帖子下面的评论，觉得这是一个值得讨论的话题。

我们一直以为，AI需要吃掉整个互联网才能变聪明。

但如果一个只读过1930年以前书的模型，经过一点点后训练就能写代码修bug……

那我们对「什么是智能」的理解，是不是也得重新想想？

4.5%的pass@1，放在今天的SOTA面前当然不够看。但它证明的那件事，比任何benchmark分数都重要。

一个1930年代的人，如果拥有几乎相同的教育体系，完全可以理解现代软件工程。

一百年前的数据量，加上正确的后训练方法，就足以产生现代意义上的推理。

智能的瓶颈，或许从来不在于预训练数据的多少。

你不需要一个训练过所有知识的模型，它只需要具备基本的语言理解能力，这就够了。

或许，当我们在Scaling路上一路狂奔的间隙，也可以稍微停一停，抬起头来跟身边人侃侃大山、扯扯淡——

诶，你说……
智能的本质，到底是什么？

GitHub：
https://github.com/RicardoDominguez/talkie-coder

参考链接：
[1]
https://x.com/rdolmedo_/status/2050665193374732430?s=20
[2]
https://github.com/RicardoDominguez/talkie-coder

“”

警惕！上世纪三十年代水平的AI竟挑战编程岗位

中古硅基软件工程师

什么是智能？

警惕！上世纪三十年代水平的AI竟挑战编程岗位

中古硅基软件工程师

什么是智能？

相关文章

相关文章