高额投入见成效：清华团队一周内耗资十万打造百项技术新纪录

作者：世界网2026年4月30日科技2 阅读

新智元报道

AutoSOTA通过多智能体协作，实现了AI研究中繁复的性能优化过程自动化，将科研从手工操作转变为工业化流程。这项技术仅需5小时就能完成人类数月的工作量，极大地释放了科学家的创造力，促进了更多创新性的探索。

在当今的人工智能领域，实验室中的灯光常常见证了无数为了提高1%效能而进行的彻夜实验调整。这一过程被戏称为“炼丹”，虽然最终实现了最佳性能（State-of-the-Art，简称SOTA），但也让科学家们宝贵的直觉和创造力被困在了无休止的优化劳动中。

清华大学徐丰力助理教授团队与北京中关村学院共同推出了AutoSOTA项目。这不仅是技术工具的应用发布，更是试图改变AI科研领域的节奏模式，推动研究从低效的手工艺方式转向高效的工业流水线操作。

论文网址：https://arxiv.org/abs/2604.05550

项目网站：https://tsinghua-fib-lab.github.io/AutoSOTA/

研究背景

理解AutoSOTA的重要性，需要先了解当前AI科研的残酷现状。

以顶级人工智能会议为例，大量投稿论文与极少数脱颖而出的口头报告之间存在巨大比例差距，使得性能指标成为了衡量研究价值的重要标准。

登顶这一高峰却需要大量的资源投入。一项杰出的研究成果或许始于几个大胆的想法，但随后往往伴随着无数次的反复优化和调整。

例如，在Transformer架构问世后的几年里，全球科研人员投入了大量的计算能力和人力，才将GLUE评测集上的性能从约75%提升至超过90%，这一过程经历了数千次的迭代改进。

虽然这种逐步优化是必要的，但它消耗了科学家们用于原创性探索的大量精力。

图1 Transformer架构在GLUE评测集上的性能爬升

全自动刷榜

与现有只能进行局部代码优化的框架不同，AutoSOTA 并不只是对某个实验环节的加速。

它将智能体的功能范围大大扩展，在底层包括环境准备和代码执行等基础任务，在顶层则触及研究灵感激发这样的核心思维过程。其目标是实现从旧模型到新模型、从旧代码库到新代码库的全面科研自动化。

图2 AutoSOTA研究问题框架

借鉴人类算法研发中的分工与合作逻辑，AutoSOTA团队设计了8个各司其职的智能体（Agent），它们围绕共同的目标推进方案制定、实验操作、数据分析及优化迭代等工作。

图3 AutoSOTA端到端AI科研自动化系统

在资源准备和目标设定阶段，AgentResource负责物理环境搭建，从PDF中提取官方代码库，并自动下载大量外部数据集和权重。而AgentObjective则负责识别目标，通过层级结构将论文的宏观目标细化为详细的评估标准，精准锁定要超越的目标。

构建实验环境时，AgentInit负责初始化工作，补充和完善代码库中的缺失部分；作为监督者，AgentMonitor实时跟踪执行情况，并在遇到问题时提供高级指导。同时，AgentFix专注于解决各种错误，包括CUDA不匹配和缺少依赖包等问题。

在深度反思与突破创新阶段，AgentIdeator是核心创新大脑，它结合外部文献先验知识，提出架构重组的优化假设，AgentScheduler作为系统调度中枢，管理实验的GPU资源和节点状态，并在每次改代码前自动打好Git快照以便随时回滚，AgentSupervisor作为监督者，严格执行由禁止修改评估脚本、禁止更改数据集划分等规则组成的红线系统，所有生成的Idea必须经过它的严格审计。

与此同时，AutoSOTA配备了完整的工具箱和技能集，既能处理实验过程中的突发状况，也能胜任查阅文献、头脑风暴等高级任务，真正实现了从顶层规划到底层执行的闭环操作。

因此，AutoSOTA的目标不仅限于“更快地运行实验”，更在于引领AI科研自动化从单一环节的支持工具转变为一套系统化、常态化且高度智能的研究协作生态系统。

一周斩获105个SOTA

在最近进行的一次为期一周的真实压力测试中，AutoSOTA展示了其卓越的工业生产能力。此试验基于前一年的人工智能顶级会议论文成果，在无人干预的情况下持续运行了一周时间。

168小时内消耗了约220亿Token（相当于大约10.4万美元或75万元人民币），最终成功发现并优化了105个性能显著提升的新模型。这意味着系统平均每隔1.6小时就能完成一次性能突破，每个新模型平均实现了接近10%的性能改进。

更令人惊讶的是，这些成果不仅仅是简单的参数微调，其中超过六成的模型涉及新颖的设计创新，展示了AutoSOTA在复杂设计空间中的挖掘能力。它不仅进行机械搜索，还能基于现有研究提出新的结构优化方案。

AutoSOTA的工作效率与传统的人类科研路径形成了鲜明对比。对于经验丰富的研究人员或博士来说，完成一个从阅读文献到迭代优化的完整模型通常需要数月时间。

AutoSOTA的吞吐量与人类科研路径形成了极其鲜明的代差。对于一名经验丰富的人类研究者或人类博士而言，完成一个SOTA模型的完整迭代优化——包括精读文献、准备算力资源、安装工具搭建平台、模型训练评估、深入调研创新构思以及持续调优——通常需要数个月的时间。

相比之下，AutoSOTA仅需5小时即可走完这个全过程，从而实现了百倍的速度提升。

这种效率上的飞跃不仅仅是速度层面的变化，更是科研范式的一次革新。通过“算力换智能”，在相对稳定的条件下持续产出具备竞争力的学术成果，并能独立处理那些让研究者头疼的任务。

总结

AutoSOTA带给我们的震撼，不仅是产出了一批崭新的SOTA指标，更深层的意义在于它促使学界反思科研创新的初衷：单纯刷高SOTA分数，真的等同于实现了重大的科学突破吗？

AutoSOTA提出的问题是：如何才能将人类科学家最稀缺的注意力从机械实验中释放出来，重新聚焦于更具原创性价值和长远意义的研究课题？

未来的理想图景或许是这样的：科研智能体系统负责处理那些重复度高、劳动密集型的任务；而人类则专注于提出好问题、设定研究方向以及捕捉创新机遇。

从这个角度来看，AutoSOTA更像是一个加持在科研流程上的「创造力放大器」。

AutoSOTA的初衷不是取代学者的原创智慧，而是将其从繁琐的工作中解放出来，让科学家们能够更专注地进行创造性思考和探索。

图5 AutoSOTA启发的人智协同科研范式

在追求未知的道路上，AutoSOTA已经迈出了标志性的一步。它不仅证明了智能体在AI科研自动化领域的巨大潜力，还为我们描绘了一个充满希望的未来：当繁重的任务被智能系统接管后，科学研究将回归其最原始的目标——提出问题、勇敢探索，并实现真正的原创性突破。

在这条探索之路上，AutoSOTA已经迈出了极具标志性的一步。它不仅论证了智能体在AI科研自动化领域的磅礴潜力，更为我们描绘了一个充满希望的明天：当繁重的「性能优化」被智能体接管，科学研究终将回归其最纯粹、最珍贵的起点——大胆地提出问题，勇敢地驶向未知，去追寻真正无可替代的原始创新突破。

AutoSOTA的意义在于重新定义了SOTA的价值。

当性能优化可以被大规模自动化发现时，我们必须反思：SOTA性能的刷新是否等同于重大的科学突破？

AutoSOTA给出的答案是：它应当成为人类科学家的「创造力放大器」。

通过将工程实现与科学发现解耦，AutoSOTA让研究者能够面对那些尚未被解释、尚未被系统探索的科学无人区。

参考资料：

https://arxiv.org/abs/2604.05550

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

高额投入见成效：清华团队一周内耗资十万打造百项技术新纪录

作者：世界网2026年4月30日科技2 阅读

新智元报道

论文网址：https://arxiv.org/abs/2604.05550

项目网站：https://tsinghua-fib-lab.github.io/AutoSOTA/

研究背景

理解AutoSOTA的重要性，需要先了解当前AI科研的残酷现状。

以顶级人工智能会议为例，大量投稿论文与极少数脱颖而出的口头报告之间存在巨大比例差距，使得性能指标成为了衡量研究价值的重要标准。

登顶这一高峰却需要大量的资源投入。一项杰出的研究成果或许始于几个大胆的想法，但随后往往伴随着无数次的反复优化和调整。

虽然这种逐步优化是必要的，但它消耗了科学家们用于原创性探索的大量精力。

图1 Transformer架构在GLUE评测集上的性能爬升

全自动刷榜

与现有只能进行局部代码优化的框架不同，AutoSOTA 并不只是对某个实验环节的加速。

图2 AutoSOTA研究问题框架

图3 AutoSOTA端到端AI科研自动化系统

一周斩获105个SOTA

相比之下，AutoSOTA仅需5小时即可走完这个全过程，从而实现了百倍的速度提升。

总结

AutoSOTA提出的问题是：如何才能将人类科学家最稀缺的注意力从机械实验中释放出来，重新聚焦于更具原创性价值和长远意义的研究课题？

从这个角度来看，AutoSOTA更像是一个加持在科研流程上的「创造力放大器」。

AutoSOTA的初衷不是取代学者的原创智慧，而是将其从繁琐的工作中解放出来，让科学家们能够更专注地进行创造性思考和探索。

图5 AutoSOTA启发的人智协同科研范式

AutoSOTA的意义在于重新定义了SOTA的价值。

当性能优化可以被大规模自动化发现时，我们必须反思：SOTA性能的刷新是否等同于重大的科学突破？

AutoSOTA给出的答案是：它应当成为人类科学家的「创造力放大器」。

通过将工程实现与科学发现解耦，AutoSOTA让研究者能够面对那些尚未被解释、尚未被系统探索的科学无人区。

参考资料：

https://arxiv.org/abs/2604.05550

“”

高额投入见成效：清华团队一周内耗资十万打造百项技术新纪录

高额投入见成效：清华团队一周内耗资十万打造百项技术新纪录

相关文章

相关文章