
新智元报道
AutoSOTA通过多智能体协作,实现了AI研究中繁复的性能优化过程自动化,将科研从手工操作转变为工业化流程。这项技术仅需5小时就能完成人类数月的工作量,极大地释放了科学家的创造力,促进了更多创新性的探索。
在当今的人工智能领域,实验室中的灯光常常见证了无数为了提高1%效能而进行的彻夜实验调整。这一过程被戏称为“炼丹”,虽然最终实现了最佳性能(State-of-the-Art,简称SOTA),但也让科学家们宝贵的直觉和创造力被困在了无休止的优化劳动中。
清华大学徐丰力助理教授团队与北京中关村学院共同推出了AutoSOTA项目。这不仅是技术工具的应用发布,更是试图改变AI科研领域的节奏模式,推动研究从低效的手工艺方式转向高效的工业流水线操作。

论文网址:https://arxiv.org/abs/2604.05550
项目网站:https://tsinghua-fib-lab.github.io/AutoSOTA/
研究背景
理解AutoSOTA的重要性,需要先了解当前AI科研的残酷现状。
以顶级人工智能会议为例,大量投稿论文与极少数脱颖而出的口头报告之间存在巨大比例差距,使得性能指标成为了衡量研究价值的重要标准。
登顶这一高峰却需要大量的资源投入。一项杰出的研究成果或许始于几个大胆的想法,但随后往往伴随着无数次的反复优化和调整。
例如,在Transformer架构问世后的几年里,全球科研人员投入了大量的计算能力和人力,才将GLUE评测集上的性能从约75%提升至超过90%,这一过程经历了数千次的迭代改进。
虽然这种逐步优化是必要的,但它消耗了科学家们用于原创性探索的大量精力。

图1 Transformer架构在GLUE评测集上的性能爬升
全自动刷榜
与现有只能进行局部代码优化的框架不同,AutoSOTA 并不只是对某个实验环节的加速。
它将智能体的功能范围大大扩展,在底层包括环境准备和代码执行等基础任务,在顶层则触及研究灵感激发这样的核心思维过程。其目标是实现从旧模型到新模型、从旧代码库到新代码库的全面科研自动化。

图2 AutoSOTA研究问题框架
借鉴人类算法研发中的分工与合作逻辑,AutoSOTA团队设计了8个各司其职的智能体(Agent),它们围绕共同的目标推进方案制定、实验操作、数据分析及优化迭代等工作。

图3 AutoSOTA端到端AI科研自动化系统
在资源准备和目标设定阶段,AgentResource负责物理环境搭建,从PDF中提取官方代码库,并自动下载大量外部数据集和权重。而AgentObjective则负责识别目标,通过层级结构将论文的宏观目标细化为详细的评估标准,精准锁定要超越的目标。
构建实验环境时,AgentInit负责初始化工作,补充和完善代码库中的缺失部分;作为监督者,AgentMonitor实时跟踪执行情况,并在遇到问题时提供高级指导。同时,AgentFix专注于解决各种错误,包括CUDA不匹配和缺少依赖包等问题。
在深度反思与突破创新阶段,AgentIdeator是核心创新大脑,它结合外部文献先验知识,提出架构重组的优化假设 ,AgentScheduler作为系统调度中枢,管理实验的GPU资源和节点状态,并在每次改代码前自动打好Git快照以便随时回滚,AgentSupervisor作为监督者,严格执行由禁止修改评估脚本、禁止更改数据集划分等规则组成的红线系统,所有生成的Idea必须经过它的严格审计。
与此同时,AutoSOTA配备了完整的工具箱和技能集,既能处理实验过程中的突发状况,也能胜任查阅文献、头脑风暴等高级任务,真正实现了从顶层规划到底层执行的闭环操作。
因此,AutoSOTA的目标不仅限于“更快地运行实验”,更在于引领AI科研自动化从单一环节的支持工具转变为一套系统化、常态化且高度智能的研究协作生态系统。
一周斩获105个SOTA
在最近进行的一次为期一周的真实压力测试中,AutoSOTA展示了其卓越的工业生产能力。此试验基于前一年的人工智能顶级会议论文成果,在无人干预的情况下持续运行了一周时间。
168小时内消耗了约220亿Token(相当于大约10.4万美元或75万元人民币),最终成功发现并优化了105个性能显著提升的新模型。这意味着系统平均每隔1.6小时就能完成一次性能突破,每个新模型平均实现了接近10%的性能改进。
更令人惊讶的是,这些成果不仅仅是简单的参数微调,其中超过六成的模型涉及新颖的设计创新,展示了AutoSOTA在复杂设计空间中的挖掘能力。它不仅进行机械搜索,还能基于现有研究提出新的结构优化方案。

AutoSOTA的工作效率与传统的人类科研路径形成了鲜明对比。对于经验丰富的研究人员或博士来说,完成一个从阅读文献到迭代优化的完整模型通常需要数月时间。
AutoSOTA的吞吐量与人类科研路径形成了极其鲜明的代差。对于一名经验丰富的人类研究者或人类博士而言,完成一个SOTA模型的完整迭代优化——包括精读文献、准备算力资源、安装工具搭建平台、模型训练评估、深入调研创新构思以及持续调优——通常需要数个月的时间。
相比之下,AutoSOTA仅需5小时即可走完这个全过程,从而实现了百倍的速度提升。
这种效率上的飞跃不仅仅是速度层面的变化,更是科研范式的一次革新。通过“算力换智能”,在相对稳定的条件下持续产出具备竞争力的学术成果,并能独立处理那些让研究者头疼的任务。
总结
AutoSOTA带给我们的震撼,不仅是产出了一批崭新的SOTA指标,更深层的意义在于它促使学界反思科研创新的初衷:单纯刷高SOTA分数,真的等同于实现了重大的科学突破吗?
AutoSOTA提出的问题是:如何才能将人类科学家最稀缺的注意力从机械实验中释放出来,重新聚焦于更具原创性价值和长远意义的研究课题?
未来的理想图景或许是这样的:科研智能体系统负责处理那些重复度高、劳动密集型的任务;而人类则专注于提出好问题、设定研究方向以及捕捉创新机遇。
从这个角度来看,AutoSOTA更像是一个加持在科研流程上的「创造力放大器」 。
AutoSOTA的初衷不是取代学者的原创智慧,而是将其从繁琐的工作中解放出来,让科学家们能够更专注地进行创造性思考和探索。

图5 AutoSOTA启发的人智协同科研范式
在追求未知的道路上,AutoSOTA已经迈出了标志性的一步。它不仅证明了智能体在AI科研自动化领域的巨大潜力,还为我们描绘了一个充满希望的未来:当繁重的任务被智能系统接管后,科学研究将回归其最原始的目标——提出问题、勇敢探索,并实现真正的原创性突破。
在这条探索之路上,AutoSOTA已经迈出了极具标志性的一步 。它不仅论证了智能体在AI科研自动化领域的磅礴潜力,更为我们描绘了一个充满希望的明天:当繁重的「性能优化」被智能体接管,科学研究终将回归其最纯粹、最珍贵的起点——大胆地提出问题,勇敢地驶向未知,去追寻真正无可替代的原始创新突破。
AutoSOTA的意义在于重新定义了SOTA的价值。
当性能优化可以被大规模自动化发现时,我们必须反思:SOTA性能的刷新是否等同于重大的科学突破?
AutoSOTA给出的答案是:它应当成为人类科学家的「创造力放大器」。
通过将工程实现与科学发现解耦,AutoSOTA让研究者能够面对那些尚未被解释、尚未被系统探索的科学无人区。
参考资料:
https://arxiv.org/abs/2604.05550
