UCSD研发AIBuildAI智能体，龙虾养殖实现新突破，MLE-Bench榜单夺冠

作者：世界网2026年3月24日科技4 阅读

新智元报道

近期，加州大学圣地亚哥分校的研究团队推出了一项名为AIBuildAI的创新技术，该技术能够通过自然语言描述任务，无需编程即可自动完成AI模型的设计、编码、训练、调参及优化。这项技术实现了从任务描述到模型部署的全过程自动化，标志着人工智能开发进入了新的全自动化阶段。

AIBuildAI智能体是由加州大学圣地亚哥分校的研究人员开发的，旨在简化AI模型的构建过程。该团队成员包括博士生朱瑞意、秦佩佳、曹启、张力和副教授谢鹏涛。

当前，构建一个高性能的AI模型往往需要大量的时间和精力。工程师们必须不断进行模型设计、编写代码、建立训练流水线、执行超参数搜索，并根据实验结果不断优化模型。

这一过程不仅需要深厚的专业知识，还伴随着高昂的人力成本和时间消耗。

针对这一挑战，加州大学圣地亚哥分校的研究团队开发了AIBuildAI智能体，能够自动化地完成AI模型的构建。用户只需用自然语言描述任务，AIBuildAI就能自动设计模型、编写代码、训练模型、调整超参数、评估性能，并根据实验结果进行迭代优化。

AIBuildAI的设计灵感来源于真实的AI研究团队的工作模式，其中技术负责人协调多条并行探索路线，研究员提出建模策略，工程师实现训练流水线，负责人依据实验结果评审和分配资源。AIBuildAI将这一流程抽象为一个多智能体搜索过程，通过多智能体协作和集中管理，实现了从任务描述到可部署模型的端到端自动化。

在AIBuildAI系统中，管理智能体扮演着项目负责人角色，不直接编写代码或执行训练任务，而是通过读取磁盘上的实验记录来做出决策。它在协调模式下决定下一步应调用哪个子智能体，在筛选模式下根据训练信号保留有潜力的候选方案，以节省时间和计算成本，并在进展停滞时触发修订或终止。

研究员智能体负责制定和调整模型策略。它在设计模式下直接探索数据集特征，提出多个差异化且可行的建模方案；在修订模式下，它诊断失败原因（如过拟合或欠拟合），并提出具体的改进方案供编码智能体实现。

编码智能体的任务是将设计方案转化为可运行的训练与推理流水线。它确保代码的正确性和完整性，执行一次短时验证运行以确认流水线可以端到端运行，然后将完整的训练过程交给调优器处理。

调优器智能体接管训练过程，专注于性能提升。它采用快速校准和决策策略：先进行简短的热身训练观察学习曲线，然后决定是否继续当前方案或调整超参数。整个过程在固定计算预算内完成。

技术核心

AIBuildAI系统具备三个关键特性：

在OpenAI MLE-Bench基准测试中，AIBuildAI以63.1%的综合获奖率位居榜首。MLE-Bench包含来自Kaggle竞赛的真实任务，涵盖了图像分类、目标检测/分割、自然语言理解和生成、时序信号建模以及结构化表格预测等多个类别，共75个任务。AIBuildAI展示了其在多样化语言任务上的泛化能力，证明了结构化多智能体协作在复杂工程工作自动化中的可行性。

上图展示了AIBuildAI在语言理解与生成任务上的详细表现，包括Billion Word Imputation任务中的Manager依次调度Setup、Designer、Coder和Tuner智能体，最终以RoBERTa-large为基础生成提交文件，取得5.5060的最优分数。此外，对比了AIBuildAI与AIRA-dojo、MLEvolve在多个具体语言任务上的性能表现。

AIBuildAI在多个任务上取得了最优成绩，例如chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza等，这充分展示了AIBuildAI在多样化的语言任务上的泛化能力。

AIBuildAI通过将AI开发流程分配给设计、编码、调优和协调等任务的专职智能体，并通过基于产出物的状态管理将各个智能体紧密协同，实现了端到端的自动化AI工程。

与以往将代码生成作为核心范式的单体系统不同，AIBuildAI引入了训练动态监控、早停机制和超参数调整等关键环节，更贴近真实工程师团队的工作方式。

AIBuildAI在MLE-Bench的75个任务上以63.1%的获奖率位居第一，证明了结构化多智能体协作在复杂工程工作自动化上的可行性，为打造媲美人类专业工程师的自动AI系统提供了技术路径。

接管训练过程，在已有代码基础上专注于性能提升。它采用先快速校准、再决定是否投入的策略：先跑一段简短的热身训练观察学习曲线，再决定是延长当前方案还是进行超参数调整。整个过程在固定计算预算内完成。

系统设计

AIBuildAI在系统层面还具备三项关键特征：

并行效率：多条解决方案轨迹在独立工作空间中并发运行，避免互相干扰，允许系统同时探索多个方法并将资源集中于表现好的候选方案。
可复现性：所有智能体通过存储于磁盘中产出物（方案文档、配置文件、日志、检查点）进行协调，而非依赖内存中的临时信息，确保每一步操作均可事后审查与复现。
安全性：智能体仅被允许写入自身轨迹目录，数据集以只读方式挂载，每次调用均生成可审计的操作日志。

实验结果

AIBuildAI在OpenAI MLE-Bench基准测试上进行了评估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了来自Kaggle竞赛的真实任务，涵盖图像分类，目标检测/分割、自然语言理解与生成、时序信号建模以及结构化表格预测等多个类别，共75个任务，要求系统完成从原始数据到可提交模型的全流程开发。目前，AIBuildAI以63.1%的综合获奖率位居MLE-Bench总榜第一。上图展示了AIBuildAI（橙条）的综合性能在所有的对比方法中实现了性能最佳。

上图展示了AIBuildAI 在语言理解与生成任务上的详细结果。上半部分以Billion Word Imputation为例，完整呈现了 AIBuildAI 各智能体的运行轨迹：Manager依次调度Setup、Designer（提出6个候选方案）、Coder（实现流水线）和 Tuner（迭代调参），最终Aggregator以RoBERTa-large为基础生成提交文件，取得5.5060的最优分数。下半部分对比了AIBuildAI与AIRA-dojo、MLEvolve在10个具体语言任务上的性能表现。

AIBuildAI（紫色）在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多个任务上均取得最优成绩，充分验证了 AIBuildAI 在多样化语言任务上的泛化能力。

总结

AIBuildAI通过将AI开发流程分配到包括设计、编码、调优与协调等任务的专职智能体，并以基于产出物的状态管理将各个智能体紧密协同，实现了端到端自动化AI工程。

不同于以往将代码生成作为核心范式的单体系统，AIBuildAI显示建模了训练动态监控、早停机制与超参数调整等关键环节，更贴近真实工程师团队的工作方式。

AIBuildAI在MLE-Bench的75个任务上，以63.1%的获奖率位居第一，证明了结构化多智能体协作在复杂工程工作自动化上的可行性，也为迈向媲美人类专业工程师的自动AI系统提供了清晰的技术路线。

参考资料：

https://github.com/aibuildai/AI-Build-AI

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

UCSD研发AIBuildAI智能体，龙虾养殖实现新突破，MLE-Bench榜单夺冠

作者：世界网2026年3月24日科技4 阅读

新智元报道

这一过程不仅需要深厚的专业知识，还伴随着高昂的人力成本和时间消耗。

技术核心

AIBuildAI系统具备三个关键特性：

系统设计

AIBuildAI在系统层面还具备三项关键特征：

并行效率：多条解决方案轨迹在独立工作空间中并发运行，避免互相干扰，允许系统同时探索多个方法并将资源集中于表现好的候选方案。
可复现性：所有智能体通过存储于磁盘中产出物（方案文档、配置文件、日志、检查点）进行协调，而非依赖内存中的临时信息，确保每一步操作均可事后审查与复现。
安全性：智能体仅被允许写入自身轨迹目录，数据集以只读方式挂载，每次调用均生成可审计的操作日志。

实验结果

总结

参考资料：

https://github.com/aibuildai/AI-Build-AI

“”

UCSD研发AIBuildAI智能体，龙虾养殖实现新突破，MLE-Bench榜单夺冠

UCSD研发AIBuildAI智能体，龙虾养殖实现新突破，MLE-Bench榜单夺冠

相关文章

相关文章