
新智元报道
Karpathy让Agent在一夜之间进行了上百次实验后,仅用630行代码的autoresearch项目开源了——这意味着现在只需要一块GPU就能拥有一个永不休息的研究实验室。
今日,Karpathy发布了一条引起全AI界轰动的消息:
这种感觉就像是AGI之后的世界一样。我什么都没碰,先去蒸桑拿了。
昨日他用这种方式表达了自己的感受:这是一种AGI时代的感觉,而他对自己的表述相当随意——放下手头的工作,直接去了蒸汽浴房。

一项什么样的技术突破能让这位AI领域的顶级专家如此轻松?
答案在于他的Agent在睡眠期间自主提交了上百次代码变更,将语言模型的验证损失从0.862415降至0.858039,且未增加任何训练时间。
而更令人震惊的是,几天后Karpathy便发布了一个仅含630行代码的开源项目autoresearch,放在了GitHub上供公众使用。

该项目一经发布,就迅速获得了三千多个星标。
Karpathy表示,任何人只要拥有一块GPU,在一夜之间就能运行一个AI研究实验室。
这一现象揭示了一个前所未有的图景:人工智能不再仅仅是人类的工具,它已经开始自我优化了。

人类研究员的新任务变成了编写提示词然后去享受桑拿时光。
从Karpathy的nanochat项目说起
nanochat
nanochat是他在2025年开源的一个项目,其口号十分激进——用一百美元训练出最好的ChatGPT。
这个项目的独特之处在于,它仅使用大约8000行干净的PyTorch代码就构建了一个完整的语言模型训练流水线:分词、预训练、微调、强化学习、推理和Web界面。
在一个配备有八块H100 GPU的节点上,只需四个小时即可训练出一个能够进行对话的小型ChatGPT。

nanochat真正令人兴奋的是它的可迭代性——项目围绕着Transformer模型的深度这一核心参数来优化其他超参数。
这使得它成为了一个极简但极其精确的实验平台,非常适合用于研究。
最近,nanochat在单个节点上仅用两小时就达到了GPT-2级别的性能,而一个月前则需要三小时才能达到同样的效果。
更重要的是Karpathy开始让AI代理自动迭代训练代码。
他编写了一份大约一百二十行的Markdown文档作为“任务说明书”,明确说明了项目的任务目标和改进标准。
AI Agent随后在一个Git分支上进行自主工作,包括读取、修改并运行实验代码。
在十二小时内进行了上百次代码提交,模型验证损失显著降低,并且没有增加任何训练时间。
期间有一次尝试虽然降低了验证损失但增加了训练时间,因此被系统自动拒绝了。
Karpathy强调他的主要工作是优化AI代理的流程而非直接修改nanochat代码本身。
他将这种现象称为“后AGI”时代,意味着人类研究员的角色正在从亲自编写代码转变为设计能够让AI自行进行实验和改进的系统。
具体怎么玩的?
然而他也承认目前的AI还远不能提出创造性的新想法,更像是一个自动化的超参数优化工具。
但随着技术的进步,人工智能自主改善自身的潜力是显而易见的。
autoresearch
结果呢?
Karpathy将这种概念打包成了autoresearch项目——一个仅需一块GPU和630行代码就能运行的研究环境。

这个项目的发布标志着AI研发门槛大幅度降低,使得个人开发者也能进行模型训练与优化。
通过定义问题、设定约束条件并提供方向性的指导,人类能够利用autoresearch在巨大的搜索空间中不断尝试和优化。
Karpathy的话道出了这一趋势的核心:“AI正在自主地改进下一代自己”,而人类只需偶尔向其中注入新的想法即可。
这一现象不仅不再是科幻小说中的场景,而是已经成为现实。
autoresearch的开源进一步降低了参与门槛,并推动了AI研发的民主化进程。

未来,随着模型能力提升至提出新想法的程度时,“代码进化为自我修改的二进制生命”的设想或许将不再遥远。
到那时,也许每个人都有必要去享受一下桑拿时光。
当然,他自己也说这个说法半开玩笑——今天的AI代理在实现想法方面已经相当厉害,但在提出创造性的新想法方面还差得远,目前更接近于一个自动化的超参数调优工具,而不是一个真正的研究员。
但他紧接着说了一句意味深长的话:「随着AI能力的提升,这条路的方向是清楚的——AI在自主改进下一代自己。」

autoresearch
630行代码,一块GPU,5分钟一轮实验
如果说nanochat上的AI代理自动迭代是一次「概念验证」,那么autoresearch就是Karpathy把这个概念打包成了一个人人可用的开源工具。
Karpathy正式开源了autoresearch项目。
他给这个项目写了一段极具科幻感的序言:
曾几何时,前沿AI研究还靠着一群碳水化合物计算机——他们在吃饭睡觉摸鱼的间隙,偶尔通过组会仪式用声波互相吼两嗓子,就这么推进着人类的技术边界。
那个年代已经一去不返。如今,研究完全被AI智能体接管……据说代码已经迭代到了第10205代,但这数字真伪已无从考证——那些代码早已进化为能自我修改的二进制生命,远远超出了人类的认知范畴。
这个代码仓库,正是这一切故事的起点。

虽然这段话写的是「未来愿景」,但autoresearch项目本身的设计,已经在认真地朝着这个方向迈步。
autoresearch本质上是nanochat的「精简单机版」。
Karpathy把大模型训练的核心代码压缩到了一个约630行的Python单文件里,在单块GPU上就能跑。
整个项目只有三个核心文件:
prepare.py—— 数据准备:下载训练数据、训练BPE分词器,还有运行时需要的数据加载器和评估工具。这个文件是固定的,AI不会碰它。
train.py—— 训练代码:包含完整的GPT模型定义、优化器(Muon + AdamW)和训练循环。从模型架构、超参数、优化器到批量大小,AI代理可以修改这里的一切。
program.md—— 人类写给AI的「指令书」:用自然语言描述研究目标和约束条件,人类研究员通过编辑这个文件来引导AI的工作方向。
项目的核心机制堪称精妙——固定5分钟训练时长。
不管你用的是什么GPU,不管AI代理怎么改模型大小、批量大小、架构设计,每一轮训练都精确控制在5分钟。
这个设计有两个好处:第一,所有实验结果直接可比,因为计算预算是固定的;第二,AI代理会自动为你的特定硬件找到最优配置。
你一晚上睡8个小时,AI代理大约能跑100轮实验。第二天早上起来,你面前摆着的是一份详细的实验日志,和一个(大概率)比昨晚更好的模型。
整个工作流被Karpathy概括为两句话:
人类负责迭代提示词(.md文件)
AI代理负责迭代训练代码(.py文件)
AI代理在一个Git特性分支上自主循环运行:改代码→训练5分钟→检查分数→如果更好就提交→如果更差就回滚→继续改。
每个提交都是一次经过验证的改进,像搭积木一样一层层往上垒。
而Karpathy为这个项目设定的终极目标,说出来有点疯狂:设计出能够无限期、无需任何人工干预、以最快速度取得研究进展的AIAgent。
一块GPU,一个文件,一个指标——这就是整个实验环境。
从「人做实验」
到「人设计做实验的AI」
传统的AI研究是这样的:一个博士生(或者一群博士生)想到一个idea,写代码实现,跑实验,看结果,改参数,再跑,再看,周而复始。
Karpathy自己就说,这基本上是他整个博士期间做的事情。
一个idea从提出到验证,可能要花几天甚至几周——因为人要吃饭,要睡觉,要开组会,要跟导师battle,要修bug修到怀疑人生。
现在呢?
AI代理不吃饭不睡觉不摸鱼不抱怨,它24小时不停地跑实验,5分钟一轮,一晚上100轮。
它不会因为连续跑了20次实验都失败了就心态崩了去刷社交媒体——它只会冷静地分析结果,调整策略,继续下一轮。
当然,Karpathy自己也坦率地承认:AI现在非常擅长实现想法,但在提出真正创造性的新想法方面还差得远。
autoresearch目前的工作方式,更像是一个极其勤奋且不知疲倦的「超参数调优工程师」,而不是一个能提出变革性理论的研究员。
但关键在于——趋势是清晰的。
Karpathy说的那句话,几乎可以作为这个时代的注脚:
AI在自主改进下一代的自己,人类研究员偶尔往里面扔几个想法就行了。
这不是科幻,这是今天正在GitHub上开源运行的代码。
而autoresearch的开源,让这件事的门槛降到了令人瞠目的程度。
现在,一个独立开发者,一块GPU,一份精心写好的提示词,就能在一夜之间跑完一个小型研究实验室一周的工作量。
这对整个AI开发生态的潜在影响是深远的。
中小团队甚至个人开发者,也能参与到模型训练和优化的竞技场中。
AI研发的民主化,正在从获取模型(开源权重)推进到优化模型(自动化实验)。
更深层次地看,autoresearch代表的是一种新的「人机协作范式」:人类负责定义问题、设定约束、提供方向性的直觉;AI负责在巨大的搜索空间里不知疲倦地试错和优化。
人类的创造力和AI的执行力,第一次以一种系统化的方式结合在了一起。
去蒸桑拿吧
世界正在被改写
回到Karpathy那条著名的帖子——「this is what post-agi feels like, brb sauna」。
这句话的妙处在于,它既是一句玩笑,也是一个真实的信号。
当一个AI领域最顶尖的研究者,能够放心地把模型优化的工作交给AI代理,自己去蒸桑拿而不是在电脑前盯着训练日志——这本身就说明了一些深刻的东西。
AI自主工作的能力已经跨过了一个临界点:它不仅能执行明确的指令,还能在一个真实的、开放的研究环境中,自主地发现改进空间并付诸行动。
Karpathy为autoresearch写的那段序言里有一句话特别值得玩味——这个代码仓库,正是这一切故事的起点。
这不是终点,这只是结束的开始。
AI代理在今天还只是一个不知疲倦的调参高手。
但明天,当模型能力再上一个台阶,当它们不仅能实现想法还能提出想法的时候——那个Karpathy笔下「代码进化为自我修改的二进制生命」的科幻场景,或许并没有我们想象的那么遥远。
到那时候,也许我们所有人都该去桑拿了。
你期待吗。
参考资料:
https://x.com/karpathy/status/2029950967031247231
https://x.com/karpathy/status/2030371219518931079
https://github.com/karpathy/autoresearch
