
新智元报道
为了增强Agent的能力,Karpathy连续进行了110次实验,并最终将其命名为「autoresearch」,并宣布开源了这个项目——一个仅包含630行代码的小型AI研究实验室。
最近,一位知名的技术专家在社交媒体上发布了一条消息,引发整个AI行业的热烈讨论:
他用轻松的语气说:「这就是后AGI时代的感受。」然后便离开了去蒸桑拿。
在这段对话中,Karpathy表达了他对技术进步的感受——即便什么都不做也能取得显著成果。

这种技术突破背后的原因是什么?让这位专家如此放松?
原来,在他的Agent自主运行的12个小时内,它提交了110次代码变更,成功将一个语言模型的验证损失从0.862415降低至0.858039,并且没有额外增加任何训练时间。
几天后,Karpathy决定分享他的研究成果——他创建了一个包含仅630行代码的小型项目autoresearch,并发布到了GitHub上供所有人使用。

该项目自推出以来已迅速获得大量关注和支持。
Karpathy强调说,只要有足够的计算资源,任何人都可以利用这个工具在一夜之间运行一个AI研究实验室。
这两件事合并起来展示了人工智能的新趋势:从人类的辅助工具转变为自主优化的研究伙伴。

与此同时,人类专家的工作模式也发生了变化——如今他们只需编写提示词,并享受桑拿带来的放松时间。
起源故事始于一个名为nanochat的小项目,在这个项目中Karpathy展示了如何以极低的成本训练出强大的语言模型。
nanochat
在开源后不久,该项目因其成本效益和创新性而受到广泛欢迎。
通过大约8000行干净的PyTorch代码,它构建了一个完整的从零开始的语言模型训练流水线:分词、预训练、微调、强化学习、推理及Web界面等。
利用8个H100 GPU节点,可以在4小时内完成一个小型ChatGPT的训练过程。

更令人兴奋的是,nanochat能够通过调整单一参数实现高效的代码迭代优化。
项目的核心是Transformer模型深度的调节,其他超参数会自动适应最优设置。
近期的一个重要里程碑表明,在单个8×H100节点上训练时间已从3小时缩短至2小时,成功达到GPT-2级别的性能水平。
随后Karpathy开始尝试让AI代理自主优化nanochat的代码。
通过编写一份大约120行的Markdown文档,他详细说明了项目的目标和改进标准,并将这些指令传达给AI代理。
接下来几小时内,AI代理独立完成了上百次的实验,实现了显著的效果提升而无需增加训练时间。
在整个过程中,Karpathy发现调整AI工作的流程比直接修改代码更有效率。
这种「元优化」的方法标志着人类角色的重大转变:从编写代码到设计让AI自行进行实验的系统。
Karpathy将其描述为「后AGI时代的体验」,虽然他认为这个术语带有玩笑性质,但他也预见了未来AI在自主改进方面的发展潜力。
自动化研究工具autoresearch进一步将这一概念推向现实世界的应用中。
具体怎么玩的?
该项目采用了简洁的设计理念:一块GPU、一个Python脚本和几分钟的训练时间即可完成实验。
其核心机制是固定的五分钟训练周期,确保所有实验条件一致且易于比较。
Karpathy指出,人类只需编写提示词来指导AI的工作方向,而剩余的任务则由智能体自动执行。
结果呢?
通过这种方式,autoresearch能够帮助研究者在短时间内完成大量实验,并为模型优化提供了全新途径。

随着技术的进步和AI能力的增强,这一趋势预示着人工智能将逐步实现自我改进的能力。
Karpathy还提出未来的目标是设计出可以持续、无需人工干预地进行研究工作的智能体。
autoresearch项目的开源使得这种高级别的研究工作变得触手可及,让更多的个人和小型团队也能参与其中。
这一趋势不仅影响了AI的研发模式,还开启了人机协作的新范式:人类负责定义问题、设定方向;而智能体则专注于探索解决方案并优化性能。
随着技术的发展,未来也许我们真的可以放心地将研究工作交给人工智能,自己去享受生活中的轻松时刻。

这意味着人类研究员的角色正在发生质变:从「亲手写代码做实验」,变成了「设计一个能让AI自动做实验的系统」。
Karpathy把这种感觉称为「后AGI(post-AGI)」。
当然,他自己也说这个说法半开玩笑——今天的AI代理在实现想法方面已经相当厉害,但在提出创造性的新想法方面还差得远,目前更接近于一个自动化的超参数调优工具,而不是一个真正的研究员。
但他紧接着说了一句意味深长的话:「随着AI能力的提升,这条路的方向是清楚的——AI在自主改进下一代自己。」

autoresearch
630行代码,一块GPU,5分钟一轮实验
如果说nanochat上的AI代理自动迭代是一次「概念验证」,那么autoresearch就是Karpathy把这个概念打包成了一个人人可用的开源工具。
Karpathy正式开源了autoresearch项目。
他给这个项目写了一段极具科幻感的序言:
曾几何时,前沿AI研究还靠着一群碳水化合物计算机——他们在吃饭睡觉摸鱼的间隙,偶尔通过组会仪式用声波互相吼两嗓子,就这么推进着人类的技术边界。
那个年代已经一去不返。如今,研究完全被AI智能体接管……据说代码已经迭代到了第10205代,但这数字真伪已无从考证——那些代码早已进化为能自我修改的二进制生命,远远超出了人类的认知范畴。
这个代码仓库,正是这一切故事的起点。

虽然这段话写的是「未来愿景」,但autoresearch项目本身的设计,已经在认真地朝着这个方向迈步。
autoresearch本质上是nanochat的「精简单机版」。
Karpathy把大模型训练的核心代码压缩到了一个约630行的Python单文件里,在单块GPU上就能跑。
整个项目只有三个核心文件:
prepare.py —— 数据准备:下载训练数据、训练BPE分词器,还有运行时需要的数据加载器和评估工具。这个文件是固定的,AI不会碰它。
train.py —— 训练代码:包含完整的GPT模型定义、优化器(Muon + AdamW)和训练循环。从模型架构、超参数、优化器到批量大小,AI代理可以修改这里的一切。
program.md —— 人类写给AI的「指令书」:用自然语言描述研究目标和约束条件,人类研究员通过编辑这个文件来引导AI的工作方向。
项目的核心机制堪称精妙——固定5分钟训练时长。
不管你用的是什么GPU,不管AI代理怎么改模型大小、批量大小、架构设计,每一轮训练都精确控制在5分钟。
这个设计有两个好处:第一,所有实验结果直接可比,因为计算预算是固定的;第二,AI代理会自动为你的特定硬件找到最优配置。
你一晚上睡8个小时,AI代理大约能跑100轮实验。第二天早上起来,你面前摆着的是一份详细的实验日志,和一个(大概率)比昨晚更好的模型。
整个工作流被Karpathy概括为两句话:
人类负责迭代提示词(.md文件)
AI代理负责迭代训练代码(.py文件)
AI代理在一个Git特性分支上自主循环运行:改代码→训练5分钟→检查分数→如果更好就提交→如果更差就回滚→继续改。
每个提交都是一次经过验证的改进,像搭积木一样一层层往上垒。
而Karpathy为这个项目设定的终极目标,说出来有点疯狂:设计出能够无限期、无需任何人工干预、以最快速度取得研究进展的AI Agent。
一块GPU,一个文件,一个指标——这就是整个实验环境。
从「人做实验」
到「人设计做实验的AI」
传统的AI研究是这样的:一个博士生(或者一群博士生)想到一个idea,写代码实现,跑实验,看结果,改参数,再跑,再看,周而复始。
Karpathy自己就说,这基本上是他整个博士期间做的事情。
一个idea从提出到验证,可能要花几天甚至几周——因为人要吃饭,要睡觉,要开组会,要跟导师battle,要修bug修到怀疑人生。
现在呢?
AI代理不吃饭不睡觉不摸鱼不抱怨,它24小时不停地跑实验,5分钟一轮,一晚上100轮。
它不会因为连续跑了20次实验都失败了就心态崩了去刷社交媒体——它只会冷静地分析结果,调整策略,继续下一轮。
当然,Karpathy自己也坦率地承认:AI现在非常擅长实现想法,但在提出真正创造性的新想法方面还差得远。
autoresearch目前的工作方式,更像是一个极其勤奋且不知疲倦的「超参数调优工程师」,而不是一个能提出变革性理论的研究员。
但关键在于——趋势是清晰的。
Karpathy说的那句话,几乎可以作为这个时代的注脚:
AI在自主改进下一代的自己,人类研究员偶尔往里面扔几个想法就行了。
这不是科幻,这是今天正在GitHub上开源运行的代码。
而autoresearch的开源,让这件事的门槛降到了令人瞠目的程度。
现在,一个独立开发者,一块GPU,一份精心写好的提示词,就能在一夜之间跑完一个小型研究实验室一周的工作量。
这对整个AI开发生态的潜在影响是深远的。
中小团队甚至个人开发者,也能参与到模型训练和优化的竞技场中。
AI研发的民主化,正在从获取模型(开源权重)推进到优化模型(自动化实验)。
更深层次地看,autoresearch代表的是一种新的「人机协作范式」:人类负责定义问题、设定约束、提供方向性的直觉;AI负责在巨大的搜索空间里不知疲倦地试错和优化。
人类的创造力和AI的执行力,第一次以一种系统化的方式结合在了一起。
去蒸桑拿吧
世界正在被改写
回到Karpathy那条著名的帖子——「this is what post-agi feels like, brb sauna」。
这句话的妙处在于,它既是一句玩笑,也是一个真实的信号。
当一个AI领域最顶尖的研究者,能够放心地把模型优化的工作交给AI代理,自己去蒸桑拿而不是在电脑前盯着训练日志——这本身就说明了一些深刻的东西。
AI自主工作的能力已经跨过了一个临界点:它不仅能执行明确的指令,还能在一个真实的、开放的研究环境中,自主地发现改进空间并付诸行动。
Karpathy为autoresearch写的那段序言里有一句话特别值得玩味——这个代码仓库,正是这一切故事的起点。
这不是终点,这只是结束的开始。
AI代理在今天还只是一个不知疲倦的调参高手。
但明天,当模型能力再上一个台阶,当它们不仅能实现想法还能提出想法的时候——那个Karpathy笔下「代码进化为自我修改的二进制生命」的科幻场景,或许并没有我们想象的那么遥远。
到那时候,也许我们所有人都该去桑拿了。
