
新智元报道
近期,加州大学圣地亚哥分校的研究团队推出了一项名为AIBuildAI的创新技术,该技术能够通过自然语言描述任务,无需编程即可自动完成AI模型的设计、编码、训练、调参及优化。这项技术实现了从任务描述到模型部署的全过程自动化,标志着人工智能开发进入了新的全自动化阶段。
AIBuildAI智能体是由加州大学圣地亚哥分校的研究人员开发的,旨在简化AI模型的构建过程。该团队成员包括博士生朱瑞意、秦佩佳、曹启、张力和副教授谢鹏涛。
当前,构建一个高性能的AI模型往往需要大量的时间和精力。工程师们必须不断进行模型设计、编写代码、建立训练流水线、执行超参数搜索,并根据实验结果不断优化模型。
这一过程不仅需要深厚的专业知识,还伴随着高昂的人力成本和时间消耗。
针对这一挑战,加州大学圣地亚哥分校的研究团队开发了AIBuildAI智能体,能够自动化地完成AI模型的构建。用户只需用自然语言描述任务,AIBuildAI就能自动设计模型、编写代码、训练模型、调整超参数、评估性能,并根据实验结果进行迭代优化。

AIBuildAI的设计灵感来源于真实的AI研究团队的工作模式,其中技术负责人协调多条并行探索路线,研究员提出建模策略,工程师实现训练流水线,负责人依据实验结果评审和分配资源。AIBuildAI将这一流程抽象为一个多智能体搜索过程,通过多智能体协作和集中管理,实现了从任务描述到可部署模型的端到端自动化。
在AIBuildAI系统中,管理智能体扮演着项目负责人角色,不直接编写代码或执行训练任务,而是通过读取磁盘上的实验记录来做出决策。它在协调模式下决定下一步应调用哪个子智能体,在筛选模式下根据训练信号保留有潜力的候选方案,以节省时间和计算成本,并在进展停滞时触发修订或终止。
研究员智能体负责制定和调整模型策略。它在设计模式下直接探索数据集特征,提出多个差异化且可行的建模方案;在修订模式下,它诊断失败原因(如过拟合或欠拟合),并提出具体的改进方案供编码智能体实现。
编码智能体的任务是将设计方案转化为可运行的训练与推理流水线。它确保代码的正确性和完整性,执行一次短时验证运行以确认流水线可以端到端运行,然后将完整的训练过程交给调优器处理。


调优器智能体接管训练过程,专注于性能提升。它采用快速校准和决策策略:先进行简短的热身训练观察学习曲线,然后决定是否继续当前方案或调整超参数。整个过程在固定计算预算内完成。

技术核心
AIBuildAI系统具备三个关键特性:
在OpenAI MLE-Bench基准测试中,AIBuildAI以63.1%的综合获奖率位居榜首。MLE-Bench包含来自Kaggle竞赛的真实任务,涵盖了图像分类、目标检测/分割、自然语言理解和生成、时序信号建模以及结构化表格预测等多个类别,共75个任务。AIBuildAI展示了其在多样化语言任务上的泛化能力,证明了结构化多智能体协作在复杂工程工作自动化中的可行性。
上图展示了AIBuildAI在语言理解与生成任务上的详细表现,包括Billion Word Imputation任务中的Manager依次调度Setup、Designer、Coder和Tuner智能体,最终以RoBERTa-large为基础生成提交文件,取得5.5060的最优分数。此外,对比了AIBuildAI与AIRA-dojo、MLEvolve在多个具体语言任务上的性能表现。
AIBuildAI在多个任务上取得了最优成绩,例如chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza等,这充分展示了AIBuildAI在多样化的语言任务上的泛化能力。
AIBuildAI通过将AI开发流程分配给设计、编码、调优和协调等任务的专职智能体,并通过基于产出物的状态管理将各个智能体紧密协同,实现了端到端的自动化AI工程。
与以往将代码生成作为核心范式的单体系统不同,AIBuildAI引入了训练动态监控、早停机制和超参数调整等关键环节,更贴近真实工程师团队的工作方式。
AIBuildAI在MLE-Bench的75个任务上以63.1%的获奖率位居第一,证明了结构化多智能体协作在复杂工程工作自动化上的可行性,为打造媲美人类专业工程师的自动AI系统提供了技术路径。
接管训练过程,在已有代码基础上专注于性能提升。它采用先快速校准、再决定是否投入的策略:先跑一段简短的热身训练观察学习曲线,再决定是延长当前方案还是进行超参数调整。整个过程在固定计算预算内完成。
系统设计
AIBuildAI在系统层面还具备三项关键特征:
并行效率:多条解决方案轨迹在独立工作空间中并发运行,避免互相干扰,允许系统同时探索多个方法并将资源集中于表现好的候选方案。
可复现性:所有智能体通过存储于磁盘中产出物(方案文档、配置文件、日志、检查点)进行协调,而非依赖内存中的临时信息,确保每一步操作均可事后审查与复现。
安全性:智能体仅被允许写入自身轨迹目录,数据集以只读方式挂载,每次调用均生成可审计的操作日志。
实验结果

AIBuildAI在OpenAI MLE-Bench基准测试上进行了评估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了来自Kaggle竞赛的真实任务,涵盖图像分类,目标检测/分割、自然语言理解与生成、时序信号建模以及结构化表格预测等多个类别,共75个任务,要求系统完成从原始数据到可提交模型的全流程开发。目前,AIBuildAI以63.1%的综合获奖率位居MLE-Bench总榜第一。上图展示了AIBuildAI(橙条)的综合性能在所有的对比方法中实现了性能最佳。

上图展示了AIBuildAI 在语言理解与生成任务上的详细结果。上半部分以Billion Word Imputation为例,完整呈现了 AIBuildAI 各智能体的运行轨迹:Manager依次调度Setup、Designer(提出6个候选方案)、Coder(实现流水线)和 Tuner(迭代调参),最终Aggregator以RoBERTa-large为基础生成提交文件,取得5.5060的最优分数。下半部分对比了AIBuildAI与AIRA-dojo、MLEvolve在10个具体语言任务上的性能表现。
AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多个任务上均取得最优成绩,充分验证了 AIBuildAI 在多样化语言任务上的泛化能力。
总结
AIBuildAI通过将AI开发流程分配到包括设计、编码、调优与协调等任务的专职智能体,并以基于产出物的状态管理将各个智能体紧密协同,实现了端到端自动化AI工程。
不同于以往将代码生成作为核心范式的单体系统,AIBuildAI显示建模了训练动态监控、早停机制与超参数调整等关键环节,更贴近真实工程师团队的工作方式。
AIBuildAI在MLE-Bench的75个任务上,以63.1%的获奖率位居第一,证明了结构化多智能体协作在复杂工程工作自动化上的可行性,也为迈向媲美人类专业工程师的自动AI系统提供了清晰的技术路线。
参考资料:
https://github.com/aibuildai/AI-Build-AI
