深夜攻关后，Karpathy惊叹“后AGI时代”：AI自动修改代码超百次，他自己则去放松了

作者：世界网2026年3月9日科技2 阅读

新智元报道

为了增强Agent的能力，Karpathy连续进行了110次实验，并最终将其命名为「autoresearch」，并宣布开源了这个项目——一个仅包含630行代码的小型AI研究实验室。

最近，一位知名的技术专家在社交媒体上发布了一条消息，引发整个AI行业的热烈讨论：

他用轻松的语气说：「这就是后AGI时代的感受。」然后便离开了去蒸桑拿。

在这段对话中，Karpathy表达了他对技术进步的感受——即便什么都不做也能取得显著成果。

这种技术突破背后的原因是什么？让这位专家如此放松？

原来，在他的Agent自主运行的12个小时内，它提交了110次代码变更，成功将一个语言模型的验证损失从0.862415降低至0.858039，并且没有额外增加任何训练时间。

几天后，Karpathy决定分享他的研究成果——他创建了一个包含仅630行代码的小型项目autoresearch，并发布到了GitHub上供所有人使用。

该项目自推出以来已迅速获得大量关注和支持。

Karpathy强调说，只要有足够的计算资源，任何人都可以利用这个工具在一夜之间运行一个AI研究实验室。

这两件事合并起来展示了人工智能的新趋势：从人类的辅助工具转变为自主优化的研究伙伴。

与此同时，人类专家的工作模式也发生了变化——如今他们只需编写提示词，并享受桑拿带来的放松时间。

起源故事始于一个名为nanochat的小项目，在这个项目中Karpathy展示了如何以极低的成本训练出强大的语言模型。

nanochat

在开源后不久，该项目因其成本效益和创新性而受到广泛欢迎。

通过大约8000行干净的PyTorch代码，它构建了一个完整的从零开始的语言模型训练流水线：分词、预训练、微调、强化学习、推理及Web界面等。

利用8个H100 GPU节点，可以在4小时内完成一个小型ChatGPT的训练过程。

更令人兴奋的是，nanochat能够通过调整单一参数实现高效的代码迭代优化。

项目的核心是Transformer模型深度的调节，其他超参数会自动适应最优设置。

近期的一个重要里程碑表明，在单个8×H100节点上训练时间已从3小时缩短至2小时，成功达到GPT-2级别的性能水平。

随后Karpathy开始尝试让AI代理自主优化nanochat的代码。

通过编写一份大约120行的Markdown文档，他详细说明了项目的目标和改进标准，并将这些指令传达给AI代理。

接下来几小时内，AI代理独立完成了上百次的实验，实现了显著的效果提升而无需增加训练时间。

在整个过程中，Karpathy发现调整AI工作的流程比直接修改代码更有效率。

这种「元优化」的方法标志着人类角色的重大转变：从编写代码到设计让AI自行进行实验的系统。

Karpathy将其描述为「后AGI时代的体验」，虽然他认为这个术语带有玩笑性质，但他也预见了未来AI在自主改进方面的发展潜力。

自动化研究工具autoresearch进一步将这一概念推向现实世界的应用中。

具体怎么玩的？

该项目采用了简洁的设计理念：一块GPU、一个Python脚本和几分钟的训练时间即可完成实验。

其核心机制是固定的五分钟训练周期，确保所有实验条件一致且易于比较。

Karpathy指出，人类只需编写提示词来指导AI的工作方向，而剩余的任务则由智能体自动执行。

结果呢？

通过这种方式，autoresearch能够帮助研究者在短时间内完成大量实验，并为模型优化提供了全新途径。

随着技术的进步和AI能力的增强，这一趋势预示着人工智能将逐步实现自我改进的能力。

Karpathy还提出未来的目标是设计出可以持续、无需人工干预地进行研究工作的智能体。

autoresearch项目的开源使得这种高级别的研究工作变得触手可及，让更多的个人和小型团队也能参与其中。

这一趋势不仅影响了AI的研发模式，还开启了人机协作的新范式：人类负责定义问题、设定方向；而智能体则专注于探索解决方案并优化性能。

随着技术的发展，未来也许我们真的可以放心地将研究工作交给人工智能，自己去享受生活中的轻松时刻。

这意味着人类研究员的角色正在发生质变：从「亲手写代码做实验」，变成了「设计一个能让AI自动做实验的系统」。

Karpathy把这种感觉称为「后AGI（post-AGI）」。

当然，他自己也说这个说法半开玩笑——今天的AI代理在实现想法方面已经相当厉害，但在提出创造性的新想法方面还差得远，目前更接近于一个自动化的超参数调优工具，而不是一个真正的研究员。

但他紧接着说了一句意味深长的话：「随着AI能力的提升，这条路的方向是清楚的——AI在自主改进下一代自己。」

autoresearch

630行代码，一块GPU，5分钟一轮实验

如果说nanochat上的AI代理自动迭代是一次「概念验证」，那么autoresearch就是Karpathy把这个概念打包成了一个人人可用的开源工具。

Karpathy正式开源了autoresearch项目。

他给这个项目写了一段极具科幻感的序言：

曾几何时，前沿AI研究还靠着一群碳水化合物计算机——他们在吃饭睡觉摸鱼的间隙，偶尔通过组会仪式用声波互相吼两嗓子，就这么推进着人类的技术边界。

那个年代已经一去不返。如今，研究完全被AI智能体接管……据说代码已经迭代到了第10205代，但这数字真伪已无从考证——那些代码早已进化为能自我修改的二进制生命，远远超出了人类的认知范畴。

这个代码仓库，正是这一切故事的起点。

虽然这段话写的是「未来愿景」，但autoresearch项目本身的设计，已经在认真地朝着这个方向迈步。

autoresearch本质上是nanochat的「精简单机版」。

Karpathy把大模型训练的核心代码压缩到了一个约630行的Python单文件里，在单块GPU上就能跑。

整个项目只有三个核心文件：

prepare.py —— 数据准备：下载训练数据、训练BPE分词器，还有运行时需要的数据加载器和评估工具。这个文件是固定的，AI不会碰它。

train.py —— 训练代码：包含完整的GPT模型定义、优化器（Muon + AdamW）和训练循环。从模型架构、超参数、优化器到批量大小，AI代理可以修改这里的一切。

program.md —— 人类写给AI的「指令书」：用自然语言描述研究目标和约束条件，人类研究员通过编辑这个文件来引导AI的工作方向。

项目的核心机制堪称精妙——固定5分钟训练时长。

不管你用的是什么GPU，不管AI代理怎么改模型大小、批量大小、架构设计，每一轮训练都精确控制在5分钟。

这个设计有两个好处：第一，所有实验结果直接可比，因为计算预算是固定的；第二，AI代理会自动为你的特定硬件找到最优配置。

你一晚上睡8个小时，AI代理大约能跑100轮实验。第二天早上起来，你面前摆着的是一份详细的实验日志，和一个（大概率）比昨晚更好的模型。

整个工作流被Karpathy概括为两句话：

人类负责迭代提示词（.md文件）

AI代理负责迭代训练代码（.py文件）

AI代理在一个Git特性分支上自主循环运行：改代码→训练5分钟→检查分数→如果更好就提交→如果更差就回滚→继续改。

每个提交都是一次经过验证的改进，像搭积木一样一层层往上垒。

而Karpathy为这个项目设定的终极目标，说出来有点疯狂：设计出能够无限期、无需任何人工干预、以最快速度取得研究进展的AI Agent。

一块GPU，一个文件，一个指标——这就是整个实验环境。

从「人做实验」

到「人设计做实验的AI」

传统的AI研究是这样的：一个博士生（或者一群博士生）想到一个idea，写代码实现，跑实验，看结果，改参数，再跑，再看，周而复始。

Karpathy自己就说，这基本上是他整个博士期间做的事情。

一个idea从提出到验证，可能要花几天甚至几周——因为人要吃饭，要睡觉，要开组会，要跟导师battle，要修bug修到怀疑人生。

现在呢？

AI代理不吃饭不睡觉不摸鱼不抱怨，它24小时不停地跑实验，5分钟一轮，一晚上100轮。

它不会因为连续跑了20次实验都失败了就心态崩了去刷社交媒体——它只会冷静地分析结果，调整策略，继续下一轮。

当然，Karpathy自己也坦率地承认：AI现在非常擅长实现想法，但在提出真正创造性的新想法方面还差得远。

autoresearch目前的工作方式，更像是一个极其勤奋且不知疲倦的「超参数调优工程师」，而不是一个能提出变革性理论的研究员。

但关键在于——趋势是清晰的。

Karpathy说的那句话，几乎可以作为这个时代的注脚：

AI在自主改进下一代的自己，人类研究员偶尔往里面扔几个想法就行了。

这不是科幻，这是今天正在GitHub上开源运行的代码。

而autoresearch的开源，让这件事的门槛降到了令人瞠目的程度。

现在，一个独立开发者，一块GPU，一份精心写好的提示词，就能在一夜之间跑完一个小型研究实验室一周的工作量。

这对整个AI开发生态的潜在影响是深远的。

中小团队甚至个人开发者，也能参与到模型训练和优化的竞技场中。

AI研发的民主化，正在从获取模型（开源权重）推进到优化模型（自动化实验）。

更深层次地看，autoresearch代表的是一种新的「人机协作范式」：人类负责定义问题、设定约束、提供方向性的直觉；AI负责在巨大的搜索空间里不知疲倦地试错和优化。

人类的创造力和AI的执行力，第一次以一种系统化的方式结合在了一起。

去蒸桑拿吧

世界正在被改写

回到Karpathy那条著名的帖子——「this is what post-agi feels like, brb sauna」。

这句话的妙处在于，它既是一句玩笑，也是一个真实的信号。

当一个AI领域最顶尖的研究者，能够放心地把模型优化的工作交给AI代理，自己去蒸桑拿而不是在电脑前盯着训练日志——这本身就说明了一些深刻的东西。

AI自主工作的能力已经跨过了一个临界点：它不仅能执行明确的指令，还能在一个真实的、开放的研究环境中，自主地发现改进空间并付诸行动。

Karpathy为autoresearch写的那段序言里有一句话特别值得玩味——这个代码仓库，正是这一切故事的起点。

这不是终点，这只是结束的开始。

AI代理在今天还只是一个不知疲倦的调参高手。

但明天，当模型能力再上一个台阶，当它们不仅能实现想法还能提出想法的时候——那个Karpathy笔下「代码进化为自我修改的二进制生命」的科幻场景，或许并没有我们想象的那么遥远。

到那时候，也许我们所有人都该去桑拿了。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

深夜攻关后，Karpathy惊叹“后AGI时代”：AI自动修改代码超百次，他自己则去放松了

作者：世界网2026年3月9日科技2 阅读

新智元报道

最近，一位知名的技术专家在社交媒体上发布了一条消息，引发整个AI行业的热烈讨论：

他用轻松的语气说：「这就是后AGI时代的感受。」然后便离开了去蒸桑拿。

在这段对话中，Karpathy表达了他对技术进步的感受——即便什么都不做也能取得显著成果。

这种技术突破背后的原因是什么？让这位专家如此放松？

几天后，Karpathy决定分享他的研究成果——他创建了一个包含仅630行代码的小型项目autoresearch，并发布到了GitHub上供所有人使用。

该项目自推出以来已迅速获得大量关注和支持。

Karpathy强调说，只要有足够的计算资源，任何人都可以利用这个工具在一夜之间运行一个AI研究实验室。

这两件事合并起来展示了人工智能的新趋势：从人类的辅助工具转变为自主优化的研究伙伴。

与此同时，人类专家的工作模式也发生了变化——如今他们只需编写提示词，并享受桑拿带来的放松时间。

起源故事始于一个名为nanochat的小项目，在这个项目中Karpathy展示了如何以极低的成本训练出强大的语言模型。

nanochat

在开源后不久，该项目因其成本效益和创新性而受到广泛欢迎。

通过大约8000行干净的PyTorch代码，它构建了一个完整的从零开始的语言模型训练流水线：分词、预训练、微调、强化学习、推理及Web界面等。

利用8个H100 GPU节点，可以在4小时内完成一个小型ChatGPT的训练过程。

更令人兴奋的是，nanochat能够通过调整单一参数实现高效的代码迭代优化。

项目的核心是Transformer模型深度的调节，其他超参数会自动适应最优设置。

近期的一个重要里程碑表明，在单个8×H100节点上训练时间已从3小时缩短至2小时，成功达到GPT-2级别的性能水平。

随后Karpathy开始尝试让AI代理自主优化nanochat的代码。

通过编写一份大约120行的Markdown文档，他详细说明了项目的目标和改进标准，并将这些指令传达给AI代理。

接下来几小时内，AI代理独立完成了上百次的实验，实现了显著的效果提升而无需增加训练时间。

在整个过程中，Karpathy发现调整AI工作的流程比直接修改代码更有效率。

这种「元优化」的方法标志着人类角色的重大转变：从编写代码到设计让AI自行进行实验的系统。

Karpathy将其描述为「后AGI时代的体验」，虽然他认为这个术语带有玩笑性质，但他也预见了未来AI在自主改进方面的发展潜力。

自动化研究工具autoresearch进一步将这一概念推向现实世界的应用中。

具体怎么玩的？

该项目采用了简洁的设计理念：一块GPU、一个Python脚本和几分钟的训练时间即可完成实验。

其核心机制是固定的五分钟训练周期，确保所有实验条件一致且易于比较。

Karpathy指出，人类只需编写提示词来指导AI的工作方向，而剩余的任务则由智能体自动执行。

结果呢？

通过这种方式，autoresearch能够帮助研究者在短时间内完成大量实验，并为模型优化提供了全新途径。

随着技术的进步和AI能力的增强，这一趋势预示着人工智能将逐步实现自我改进的能力。

Karpathy还提出未来的目标是设计出可以持续、无需人工干预地进行研究工作的智能体。

autoresearch项目的开源使得这种高级别的研究工作变得触手可及，让更多的个人和小型团队也能参与其中。

这一趋势不仅影响了AI的研发模式，还开启了人机协作的新范式：人类负责定义问题、设定方向；而智能体则专注于探索解决方案并优化性能。

随着技术的发展，未来也许我们真的可以放心地将研究工作交给人工智能，自己去享受生活中的轻松时刻。

这意味着人类研究员的角色正在发生质变：从「亲手写代码做实验」，变成了「设计一个能让AI自动做实验的系统」。

Karpathy把这种感觉称为「后AGI（post-AGI）」。

但他紧接着说了一句意味深长的话：「随着AI能力的提升，这条路的方向是清楚的——AI在自主改进下一代自己。」

autoresearch

630行代码，一块GPU，5分钟一轮实验

如果说nanochat上的AI代理自动迭代是一次「概念验证」，那么autoresearch就是Karpathy把这个概念打包成了一个人人可用的开源工具。

Karpathy正式开源了autoresearch项目。

他给这个项目写了一段极具科幻感的序言：

这个代码仓库，正是这一切故事的起点。

虽然这段话写的是「未来愿景」，但autoresearch项目本身的设计，已经在认真地朝着这个方向迈步。

autoresearch本质上是nanochat的「精简单机版」。

Karpathy把大模型训练的核心代码压缩到了一个约630行的Python单文件里，在单块GPU上就能跑。

整个项目只有三个核心文件：

prepare.py —— 数据准备：下载训练数据、训练BPE分词器，还有运行时需要的数据加载器和评估工具。这个文件是固定的，AI不会碰它。

program.md —— 人类写给AI的「指令书」：用自然语言描述研究目标和约束条件，人类研究员通过编辑这个文件来引导AI的工作方向。

项目的核心机制堪称精妙——固定5分钟训练时长。

不管你用的是什么GPU，不管AI代理怎么改模型大小、批量大小、架构设计，每一轮训练都精确控制在5分钟。

这个设计有两个好处：第一，所有实验结果直接可比，因为计算预算是固定的；第二，AI代理会自动为你的特定硬件找到最优配置。

你一晚上睡8个小时，AI代理大约能跑100轮实验。第二天早上起来，你面前摆着的是一份详细的实验日志，和一个（大概率）比昨晚更好的模型。

整个工作流被Karpathy概括为两句话：

人类负责迭代提示词（.md文件）

AI代理负责迭代训练代码（.py文件）

AI代理在一个Git特性分支上自主循环运行：改代码→训练5分钟→检查分数→如果更好就提交→如果更差就回滚→继续改。

每个提交都是一次经过验证的改进，像搭积木一样一层层往上垒。

而Karpathy为这个项目设定的终极目标，说出来有点疯狂：设计出能够无限期、无需任何人工干预、以最快速度取得研究进展的AI Agent。

一块GPU，一个文件，一个指标——这就是整个实验环境。

从「人做实验」

到「人设计做实验的AI」

传统的AI研究是这样的：一个博士生（或者一群博士生）想到一个idea，写代码实现，跑实验，看结果，改参数，再跑，再看，周而复始。

Karpathy自己就说，这基本上是他整个博士期间做的事情。

一个idea从提出到验证，可能要花几天甚至几周——因为人要吃饭，要睡觉，要开组会，要跟导师battle，要修bug修到怀疑人生。

现在呢？

AI代理不吃饭不睡觉不摸鱼不抱怨，它24小时不停地跑实验，5分钟一轮，一晚上100轮。

它不会因为连续跑了20次实验都失败了就心态崩了去刷社交媒体——它只会冷静地分析结果，调整策略，继续下一轮。

当然，Karpathy自己也坦率地承认：AI现在非常擅长实现想法，但在提出真正创造性的新想法方面还差得远。

autoresearch目前的工作方式，更像是一个极其勤奋且不知疲倦的「超参数调优工程师」，而不是一个能提出变革性理论的研究员。

但关键在于——趋势是清晰的。

Karpathy说的那句话，几乎可以作为这个时代的注脚：

AI在自主改进下一代的自己，人类研究员偶尔往里面扔几个想法就行了。

这不是科幻，这是今天正在GitHub上开源运行的代码。

而autoresearch的开源，让这件事的门槛降到了令人瞠目的程度。

现在，一个独立开发者，一块GPU，一份精心写好的提示词，就能在一夜之间跑完一个小型研究实验室一周的工作量。

这对整个AI开发生态的潜在影响是深远的。

中小团队甚至个人开发者，也能参与到模型训练和优化的竞技场中。

AI研发的民主化，正在从获取模型（开源权重）推进到优化模型（自动化实验）。

人类的创造力和AI的执行力，第一次以一种系统化的方式结合在了一起。

去蒸桑拿吧

世界正在被改写

回到Karpathy那条著名的帖子——「this is what post-agi feels like, brb sauna」。

这句话的妙处在于，它既是一句玩笑，也是一个真实的信号。

AI自主工作的能力已经跨过了一个临界点：它不仅能执行明确的指令，还能在一个真实的、开放的研究环境中，自主地发现改进空间并付诸行动。

Karpathy为autoresearch写的那段序言里有一句话特别值得玩味——这个代码仓库，正是这一切故事的起点。

这不是终点，这只是结束的开始。

AI代理在今天还只是一个不知疲倦的调参高手。

到那时候，也许我们所有人都该去桑拿了。

“”

深夜攻关后，Karpathy惊叹“后AGI时代”：AI自动修改代码超百次，他自己则去放松了

深夜攻关后，Karpathy惊叹“后AGI时代”：AI自动修改代码超百次，他自己则去放松了

相关文章

相关文章