Karpathy深夜惊叹“后AGI时代”：AI整晚修改代码百余次，他自己则去汗蒸放松

作者：世界网2026年3月9日科技3 阅读

新智元报道

Karpathy让Agent在一夜之间进行了上百次实验后，仅用630行代码的autoresearch项目开源了——这意味着现在只需要一块GPU就能拥有一个永不休息的研究实验室。

今日，Karpathy发布了一条引起全AI界轰动的消息：

这种感觉就像是AGI之后的世界一样。我什么都没碰，先去蒸桑拿了。

昨日他用这种方式表达了自己的感受：这是一种AGI时代的感觉，而他对自己的表述相当随意——放下手头的工作，直接去了蒸汽浴房。

一项什么样的技术突破能让这位AI领域的顶级专家如此轻松？

答案在于他的Agent在睡眠期间自主提交了上百次代码变更，将语言模型的验证损失从0.862415降至0.858039，且未增加任何训练时间。

而更令人震惊的是，几天后Karpathy便发布了一个仅含630行代码的开源项目autoresearch，放在了GitHub上供公众使用。

该项目一经发布，就迅速获得了三千多个星标。

Karpathy表示，任何人只要拥有一块GPU，在一夜之间就能运行一个AI研究实验室。

这一现象揭示了一个前所未有的图景：人工智能不再仅仅是人类的工具，它已经开始自我优化了。

人类研究员的新任务变成了编写提示词然后去享受桑拿时光。

从Karpathy的nanochat项目说起

nanochat

nanochat是他在2025年开源的一个项目，其口号十分激进——用一百美元训练出最好的ChatGPT。

这个项目的独特之处在于，它仅使用大约8000行干净的PyTorch代码就构建了一个完整的语言模型训练流水线：分词、预训练、微调、强化学习、推理和Web界面。

在一个配备有八块H100 GPU的节点上，只需四个小时即可训练出一个能够进行对话的小型ChatGPT。

nanochat真正令人兴奋的是它的可迭代性——项目围绕着Transformer模型的深度这一核心参数来优化其他超参数。

这使得它成为了一个极简但极其精确的实验平台，非常适合用于研究。

最近，nanochat在单个节点上仅用两小时就达到了GPT-2级别的性能，而一个月前则需要三小时才能达到同样的效果。

更重要的是Karpathy开始让AI代理自动迭代训练代码。

他编写了一份大约一百二十行的Markdown文档作为“任务说明书”，明确说明了项目的任务目标和改进标准。

AI Agent随后在一个Git分支上进行自主工作，包括读取、修改并运行实验代码。

在十二小时内进行了上百次代码提交，模型验证损失显著降低，并且没有增加任何训练时间。

期间有一次尝试虽然降低了验证损失但增加了训练时间，因此被系统自动拒绝了。

Karpathy强调他的主要工作是优化AI代理的流程而非直接修改nanochat代码本身。

他将这种现象称为“后AGI”时代，意味着人类研究员的角色正在从亲自编写代码转变为设计能够让AI自行进行实验和改进的系统。

具体怎么玩的？

然而他也承认目前的AI还远不能提出创造性的新想法，更像是一个自动化的超参数优化工具。

但随着技术的进步，人工智能自主改善自身的潜力是显而易见的。

autoresearch

结果呢？

Karpathy将这种概念打包成了autoresearch项目——一个仅需一块GPU和630行代码就能运行的研究环境。

这个项目的发布标志着AI研发门槛大幅度降低，使得个人开发者也能进行模型训练与优化。

通过定义问题、设定约束条件并提供方向性的指导，人类能够利用autoresearch在巨大的搜索空间中不断尝试和优化。

Karpathy的话道出了这一趋势的核心：“AI正在自主地改进下一代自己”，而人类只需偶尔向其中注入新的想法即可。

这一现象不仅不再是科幻小说中的场景，而是已经成为现实。

autoresearch的开源进一步降低了参与门槛，并推动了AI研发的民主化进程。

未来，随着模型能力提升至提出新想法的程度时，“代码进化为自我修改的二进制生命”的设想或许将不再遥远。

到那时，也许每个人都有必要去享受一下桑拿时光。

当然，他自己也说这个说法半开玩笑——今天的AI代理在实现想法方面已经相当厉害，但在提出创造性的新想法方面还差得远，目前更接近于一个自动化的超参数调优工具，而不是一个真正的研究员。

但他紧接着说了一句意味深长的话：「随着AI能力的提升，这条路的方向是清楚的——AI在自主改进下一代自己。」

autoresearch

630行代码，一块GPU，5分钟一轮实验

如果说nanochat上的AI代理自动迭代是一次「概念验证」，那么autoresearch就是Karpathy把这个概念打包成了一个人人可用的开源工具。

Karpathy正式开源了autoresearch项目。

他给这个项目写了一段极具科幻感的序言：

曾几何时，前沿AI研究还靠着一群碳水化合物计算机——他们在吃饭睡觉摸鱼的间隙，偶尔通过组会仪式用声波互相吼两嗓子，就这么推进着人类的技术边界。

那个年代已经一去不返。如今，研究完全被AI智能体接管……据说代码已经迭代到了第10205代，但这数字真伪已无从考证——那些代码早已进化为能自我修改的二进制生命，远远超出了人类的认知范畴。

这个代码仓库，正是这一切故事的起点。

虽然这段话写的是「未来愿景」，但autoresearch项目本身的设计，已经在认真地朝着这个方向迈步。

autoresearch本质上是nanochat的「精简单机版」。

Karpathy把大模型训练的核心代码压缩到了一个约630行的Python单文件里，在单块GPU上就能跑。

整个项目只有三个核心文件：

prepare.py—— 数据准备：下载训练数据、训练BPE分词器，还有运行时需要的数据加载器和评估工具。这个文件是固定的，AI不会碰它。

train.py—— 训练代码：包含完整的GPT模型定义、优化器（Muon + AdamW）和训练循环。从模型架构、超参数、优化器到批量大小，AI代理可以修改这里的一切。

program.md—— 人类写给AI的「指令书」：用自然语言描述研究目标和约束条件，人类研究员通过编辑这个文件来引导AI的工作方向。

项目的核心机制堪称精妙——固定5分钟训练时长。

不管你用的是什么GPU，不管AI代理怎么改模型大小、批量大小、架构设计，每一轮训练都精确控制在5分钟。

这个设计有两个好处：第一，所有实验结果直接可比，因为计算预算是固定的；第二，AI代理会自动为你的特定硬件找到最优配置。

你一晚上睡8个小时，AI代理大约能跑100轮实验。第二天早上起来，你面前摆着的是一份详细的实验日志，和一个（大概率）比昨晚更好的模型。

整个工作流被Karpathy概括为两句话：

人类负责迭代提示词（.md文件）
AI代理负责迭代训练代码（.py文件）

AI代理在一个Git特性分支上自主循环运行：改代码→训练5分钟→检查分数→如果更好就提交→如果更差就回滚→继续改。

每个提交都是一次经过验证的改进，像搭积木一样一层层往上垒。

而Karpathy为这个项目设定的终极目标，说出来有点疯狂：设计出能够无限期、无需任何人工干预、以最快速度取得研究进展的AIAgent。

一块GPU，一个文件，一个指标——这就是整个实验环境。

从「人做实验」

到「人设计做实验的AI」

传统的AI研究是这样的：一个博士生（或者一群博士生）想到一个idea，写代码实现，跑实验，看结果，改参数，再跑，再看，周而复始。

Karpathy自己就说，这基本上是他整个博士期间做的事情。

一个idea从提出到验证，可能要花几天甚至几周——因为人要吃饭，要睡觉，要开组会，要跟导师battle，要修bug修到怀疑人生。

现在呢？

AI代理不吃饭不睡觉不摸鱼不抱怨，它24小时不停地跑实验，5分钟一轮，一晚上100轮。

它不会因为连续跑了20次实验都失败了就心态崩了去刷社交媒体——它只会冷静地分析结果，调整策略，继续下一轮。

当然，Karpathy自己也坦率地承认：AI现在非常擅长实现想法，但在提出真正创造性的新想法方面还差得远。

autoresearch目前的工作方式，更像是一个极其勤奋且不知疲倦的「超参数调优工程师」，而不是一个能提出变革性理论的研究员。

但关键在于——趋势是清晰的。

Karpathy说的那句话，几乎可以作为这个时代的注脚：

AI在自主改进下一代的自己，人类研究员偶尔往里面扔几个想法就行了。

这不是科幻，这是今天正在GitHub上开源运行的代码。

而autoresearch的开源，让这件事的门槛降到了令人瞠目的程度。

现在，一个独立开发者，一块GPU，一份精心写好的提示词，就能在一夜之间跑完一个小型研究实验室一周的工作量。

这对整个AI开发生态的潜在影响是深远的。

中小团队甚至个人开发者，也能参与到模型训练和优化的竞技场中。

AI研发的民主化，正在从获取模型（开源权重）推进到优化模型（自动化实验）。

更深层次地看，autoresearch代表的是一种新的「人机协作范式」：人类负责定义问题、设定约束、提供方向性的直觉；AI负责在巨大的搜索空间里不知疲倦地试错和优化。

人类的创造力和AI的执行力，第一次以一种系统化的方式结合在了一起。

去蒸桑拿吧

世界正在被改写

回到Karpathy那条著名的帖子——「this is what post-agi feels like, brb sauna」。

这句话的妙处在于，它既是一句玩笑，也是一个真实的信号。

当一个AI领域最顶尖的研究者，能够放心地把模型优化的工作交给AI代理，自己去蒸桑拿而不是在电脑前盯着训练日志——这本身就说明了一些深刻的东西。

AI自主工作的能力已经跨过了一个临界点：它不仅能执行明确的指令，还能在一个真实的、开放的研究环境中，自主地发现改进空间并付诸行动。

Karpathy为autoresearch写的那段序言里有一句话特别值得玩味——这个代码仓库，正是这一切故事的起点。

这不是终点，这只是结束的开始。

AI代理在今天还只是一个不知疲倦的调参高手。

但明天，当模型能力再上一个台阶，当它们不仅能实现想法还能提出想法的时候——那个Karpathy笔下「代码进化为自我修改的二进制生命」的科幻场景，或许并没有我们想象的那么遥远。

到那时候，也许我们所有人都该去桑拿了。

你期待吗。

参考资料：

https://x.com/karpathy/status/2029950967031247231

https://x.com/karpathy/status/2030371219518931079

https://github.com/karpathy/autoresearch

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

Karpathy深夜惊叹“后AGI时代”：AI整晚修改代码百余次，他自己则去汗蒸放松

作者：世界网2026年3月9日科技3 阅读

新智元报道

今日，Karpathy发布了一条引起全AI界轰动的消息：

这种感觉就像是AGI之后的世界一样。我什么都没碰，先去蒸桑拿了。

昨日他用这种方式表达了自己的感受：这是一种AGI时代的感觉，而他对自己的表述相当随意——放下手头的工作，直接去了蒸汽浴房。

一项什么样的技术突破能让这位AI领域的顶级专家如此轻松？

答案在于他的Agent在睡眠期间自主提交了上百次代码变更，将语言模型的验证损失从0.862415降至0.858039，且未增加任何训练时间。

而更令人震惊的是，几天后Karpathy便发布了一个仅含630行代码的开源项目autoresearch，放在了GitHub上供公众使用。

该项目一经发布，就迅速获得了三千多个星标。

Karpathy表示，任何人只要拥有一块GPU，在一夜之间就能运行一个AI研究实验室。

这一现象揭示了一个前所未有的图景：人工智能不再仅仅是人类的工具，它已经开始自我优化了。

人类研究员的新任务变成了编写提示词然后去享受桑拿时光。

从Karpathy的nanochat项目说起

nanochat

nanochat是他在2025年开源的一个项目，其口号十分激进——用一百美元训练出最好的ChatGPT。

在一个配备有八块H100 GPU的节点上，只需四个小时即可训练出一个能够进行对话的小型ChatGPT。

nanochat真正令人兴奋的是它的可迭代性——项目围绕着Transformer模型的深度这一核心参数来优化其他超参数。

这使得它成为了一个极简但极其精确的实验平台，非常适合用于研究。

最近，nanochat在单个节点上仅用两小时就达到了GPT-2级别的性能，而一个月前则需要三小时才能达到同样的效果。

更重要的是Karpathy开始让AI代理自动迭代训练代码。

他编写了一份大约一百二十行的Markdown文档作为“任务说明书”，明确说明了项目的任务目标和改进标准。

AI Agent随后在一个Git分支上进行自主工作，包括读取、修改并运行实验代码。

在十二小时内进行了上百次代码提交，模型验证损失显著降低，并且没有增加任何训练时间。

期间有一次尝试虽然降低了验证损失但增加了训练时间，因此被系统自动拒绝了。

Karpathy强调他的主要工作是优化AI代理的流程而非直接修改nanochat代码本身。

他将这种现象称为“后AGI”时代，意味着人类研究员的角色正在从亲自编写代码转变为设计能够让AI自行进行实验和改进的系统。

具体怎么玩的？

然而他也承认目前的AI还远不能提出创造性的新想法，更像是一个自动化的超参数优化工具。

但随着技术的进步，人工智能自主改善自身的潜力是显而易见的。

autoresearch

结果呢？

Karpathy将这种概念打包成了autoresearch项目——一个仅需一块GPU和630行代码就能运行的研究环境。

这个项目的发布标志着AI研发门槛大幅度降低，使得个人开发者也能进行模型训练与优化。

通过定义问题、设定约束条件并提供方向性的指导，人类能够利用autoresearch在巨大的搜索空间中不断尝试和优化。

Karpathy的话道出了这一趋势的核心：“AI正在自主地改进下一代自己”，而人类只需偶尔向其中注入新的想法即可。

这一现象不仅不再是科幻小说中的场景，而是已经成为现实。

autoresearch的开源进一步降低了参与门槛，并推动了AI研发的民主化进程。

未来，随着模型能力提升至提出新想法的程度时，“代码进化为自我修改的二进制生命”的设想或许将不再遥远。

到那时，也许每个人都有必要去享受一下桑拿时光。

但他紧接着说了一句意味深长的话：「随着AI能力的提升，这条路的方向是清楚的——AI在自主改进下一代自己。」

autoresearch

630行代码，一块GPU，5分钟一轮实验

如果说nanochat上的AI代理自动迭代是一次「概念验证」，那么autoresearch就是Karpathy把这个概念打包成了一个人人可用的开源工具。

Karpathy正式开源了autoresearch项目。

他给这个项目写了一段极具科幻感的序言：

这个代码仓库，正是这一切故事的起点。

虽然这段话写的是「未来愿景」，但autoresearch项目本身的设计，已经在认真地朝着这个方向迈步。

autoresearch本质上是nanochat的「精简单机版」。

Karpathy把大模型训练的核心代码压缩到了一个约630行的Python单文件里，在单块GPU上就能跑。

整个项目只有三个核心文件：

prepare.py—— 数据准备：下载训练数据、训练BPE分词器，还有运行时需要的数据加载器和评估工具。这个文件是固定的，AI不会碰它。

program.md—— 人类写给AI的「指令书」：用自然语言描述研究目标和约束条件，人类研究员通过编辑这个文件来引导AI的工作方向。

项目的核心机制堪称精妙——固定5分钟训练时长。

不管你用的是什么GPU，不管AI代理怎么改模型大小、批量大小、架构设计，每一轮训练都精确控制在5分钟。

这个设计有两个好处：第一，所有实验结果直接可比，因为计算预算是固定的；第二，AI代理会自动为你的特定硬件找到最优配置。

你一晚上睡8个小时，AI代理大约能跑100轮实验。第二天早上起来，你面前摆着的是一份详细的实验日志，和一个（大概率）比昨晚更好的模型。

整个工作流被Karpathy概括为两句话：

人类负责迭代提示词（.md文件）
AI代理负责迭代训练代码（.py文件）

AI代理在一个Git特性分支上自主循环运行：改代码→训练5分钟→检查分数→如果更好就提交→如果更差就回滚→继续改。

每个提交都是一次经过验证的改进，像搭积木一样一层层往上垒。

而Karpathy为这个项目设定的终极目标，说出来有点疯狂：设计出能够无限期、无需任何人工干预、以最快速度取得研究进展的AIAgent。

一块GPU，一个文件，一个指标——这就是整个实验环境。

从「人做实验」

到「人设计做实验的AI」

传统的AI研究是这样的：一个博士生（或者一群博士生）想到一个idea，写代码实现，跑实验，看结果，改参数，再跑，再看，周而复始。

Karpathy自己就说，这基本上是他整个博士期间做的事情。

一个idea从提出到验证，可能要花几天甚至几周——因为人要吃饭，要睡觉，要开组会，要跟导师battle，要修bug修到怀疑人生。

现在呢？

AI代理不吃饭不睡觉不摸鱼不抱怨，它24小时不停地跑实验，5分钟一轮，一晚上100轮。

它不会因为连续跑了20次实验都失败了就心态崩了去刷社交媒体——它只会冷静地分析结果，调整策略，继续下一轮。

当然，Karpathy自己也坦率地承认：AI现在非常擅长实现想法，但在提出真正创造性的新想法方面还差得远。

autoresearch目前的工作方式，更像是一个极其勤奋且不知疲倦的「超参数调优工程师」，而不是一个能提出变革性理论的研究员。

但关键在于——趋势是清晰的。

Karpathy说的那句话，几乎可以作为这个时代的注脚：

AI在自主改进下一代的自己，人类研究员偶尔往里面扔几个想法就行了。

这不是科幻，这是今天正在GitHub上开源运行的代码。

而autoresearch的开源，让这件事的门槛降到了令人瞠目的程度。

现在，一个独立开发者，一块GPU，一份精心写好的提示词，就能在一夜之间跑完一个小型研究实验室一周的工作量。

这对整个AI开发生态的潜在影响是深远的。

中小团队甚至个人开发者，也能参与到模型训练和优化的竞技场中。

AI研发的民主化，正在从获取模型（开源权重）推进到优化模型（自动化实验）。

人类的创造力和AI的执行力，第一次以一种系统化的方式结合在了一起。

去蒸桑拿吧

世界正在被改写

回到Karpathy那条著名的帖子——「this is what post-agi feels like, brb sauna」。

这句话的妙处在于，它既是一句玩笑，也是一个真实的信号。

AI自主工作的能力已经跨过了一个临界点：它不仅能执行明确的指令，还能在一个真实的、开放的研究环境中，自主地发现改进空间并付诸行动。

Karpathy为autoresearch写的那段序言里有一句话特别值得玩味——这个代码仓库，正是这一切故事的起点。

这不是终点，这只是结束的开始。

AI代理在今天还只是一个不知疲倦的调参高手。

到那时候，也许我们所有人都该去桑拿了。

你期待吗。

参考资料：

https://x.com/karpathy/status/2029950967031247231

https://x.com/karpathy/status/2030371219518931079

https://github.com/karpathy/autoresearch

“”

Karpathy深夜惊叹“后AGI时代”：AI整晚修改代码百余次，他自己则去汗蒸放松

Karpathy深夜惊叹“后AGI时代”：AI整晚修改代码百余次，他自己则去汗蒸放松

相关文章

相关文章