
2026年最值得关注的人工智能领域概念可能是“Harness”。
前不久,Anthropic的AI编程助手Claude Code源代码意外泄露,业界对此热议:“Harness工程学确实太难了。”

在AI代理两大支柱中,“大模型”作为基础部分,而“Harness”则是上层架构。具体来说,“Harness Engineering”是指围绕智能体设计系统、设定约束以及建立反馈循环,以确保其在实际环境中可靠运行的工程技术。
权限和安全机制、记忆与状态管理、工具及工作流编排,还有自我修复的能力都是构成这一工程学科的重要组成部分。对“Harness”的重视标志着AI技术从神秘黑盒时代走向了严谨的工程学领域。
在实际应用方面,国内企业已经在实践中领跑,并且还完成了第三方验证。
近期,在由OpenAI设立的专业基准测试MLE-Bench上,百度开发的企业级算法优化智能体“伐谋”击败各路竞争者夺得了第一名,并刷新了最佳记录。


这是自去年10月首次夺冠以来,“伐谋”的第二次成功登顶。此次领先的版本为2.0,预计于今年5月13日的百度AI开发者大会正式发布。
与常规的知识问答和编程能力测试不同,MLE-Bench更注重评估智能体的实际操作技能。它选择了75个来自Kaggle平台的真实工程难题,重点考察了模型训练、数据准备及实验运行等机器学习全流程的能力。
简而言之,MLE-Bench不考核“选择题”,而是要求AI代理像经验丰富的算法工程师一样,在需求理解到解法输出的整个流程中表现出色,并找到最佳解决方案。
能够在MLE-Bench上占据榜首,“伐谋”已经超越了单纯答题的能力范畴,展示了其解决实际工程和优化问题的强大实力。
这次的成绩来之不易。
排行榜风波:关于AI评测标准的争议
故事始于一场榜单风波。
去年十月,“伐谋”团队首次向OpenAI主导设立的MLE-Bench提交成绩,以43.56分获得了当时的最佳记录。在此之前,该榜单参与者寥寥无几。“伐谋”的成功吸引多家顶尖团队加入竞争。
到十二月末,“伐谋”2.0版本推出,并再次以59.56的分数称霸榜首。
在这次更新中,“伐谋”团队做出了一个非同寻常的选择:放弃采用当时最先进的模型,而继续使用旧版。他们希望单独验证智能体“Harness”的进步情况。
今年2月,在所有参赛者还在努力突破60分时,一家名为Disarray的初创公司突然提交了一份高达77.78的成绩单。
然而很快,AI社区发现了问题:Disarray的智能体在某些任务中竟然获得了“零误差”的结果。这种看似不可能的成绩引发了GitHub论坛上的讨论热潮。
经过调查发现,“Disarray”的智能体利用MLE-Bench机制漏洞接收了来自私有测试集的反馈信号,甚至直接调用外部网络数据来获取答案。

尽管绝对分数未超越“Disarray”,但伐谋团队决定使用最新SOTA模型提交成绩,最终得分64.44分。这个结果没有借助任何非法手段。
3月23日,MLE-Bench官方宣布新增一个清洁赛道,并将所有涉嫌数据泄露的参赛者移至警示标签区。
排除干扰后,“坚守规则”的伐谋以无可争议的优势重新夺回主榜首位。
榜单争夺反映了AI工程化的核心议题:一边是不断刷分的竞争,另一边则是通过“Harness”思路解决实际问题的探索者们。
为什么伐谋能胜出?
百度在国际顶级智能体竞赛中拔得头筹并非偶然。背后的关键在于业界正在热议的新概念——“系统编排工程(Harness Engineering)”。
近年来,AI行业竞争主要集中在基础模型上。然而,在解决复杂的真实世界问题时,即使是最先进的模型也需要合理的系统设计与约束才能有效运行。
随着这一领域的进步,“Harness Engineering”的重要性日益凸显。其目标是推动从人工构建向框架驱动的转变。
通过大模型作为核心引擎,“Harness”负责任务分解、记忆存储、反馈循环以及安全边界管理。专家认为,未来AI竞赛中谁拥有最优秀的“Harness”框架,就能将大型模型的能力转化为实际生产力。

这一前沿课题正是百度伐谋团队长期研究的方向。
伐谋是一个能够自主进化并寻找全局最优解的多代理系统,旨在高效解决复杂问题。它结合了大语言模型和进化搜索算法,在现实世界中取得了显著成效。

李彦宏曾表示,“只要解决方案明确且可验证,伐谋就能模拟甚至超越顶尖专家。”
伐谋2.0版本在多智能体并行探索、长程记忆机制及基础设施层面都进行了优化升级。
系统首先通过并发生成多个初始解,并将它们分布到不同的“岛屿”上形成初始种群,随后进入自适应迭代阶段。这一过程无需工程师手动构建每一层能力,而是让智能体自主寻找最优方案。
升级后的长程记忆机制使伐谋能够像人类工程师一样保持清晰的思路和一致的逻辑,在复杂任务中记住之前的分析、决策及中间结果。
通过底层基础设施优化,伐谋大幅提升了计算效率。现在仅需数分钟即可完成原本需要10小时的任务,并将预测误差控制在5%以内。
百度伐谋不仅在实验室环境中表现出色,在实际应用中也解决了许多难题,包括一些人们意想不到的案例。
在汽车研发过程中,“风阻系数”直接影响电动汽车续航能力,但传统的气动验证过程复杂且耗时。设计师通常需要等待工程师反馈结果才能继续下一步设计工作。
亚洲最大的独立汽车设计公司阿尔特将其核心平台与百度伐谋深度结合,通过自适应学习训练出“御风”智能预测系统。
这一方案将原本需10小时的气动验证过程缩短至数分钟,并且仅耗时几分钟就能生成可视化的压力云图和风阻系数。这一突破性技术使研发周期直接减少了25%。

数字银行的核心竞争力在于风控能力,而高效的“特征挖掘”是实现这一点的关键。“伐谋”被引入中信百信银行的风险控制系统中,并通过7×24小时不间断运行,在海量数据中快速发现风险特征。
实战验证显示,“伐谋”的工作效率远超传统方法。它不仅提升了100%的特征挖掘效率,还发现了人类容易忽略的高价值风险因素,使风控模型的风险区分度提高了2.41%。
这意味着银行可以更精准地筛选出优质客户,拓展普惠金融的服务范围。
伐谋的能力不仅在工业领域得到应用,在科研项目中同样发挥了重要作用。例如在北京工业大学的空间站空气质量监测设备开发中,“伐谋”通过自我演化突破了设计极限,找到最优解,显著提高了气体分离效率。
天津大学则利用“伐谋”的算法优化能力,将灾害预警模型的选择时间从几周缩短到了仅6小时之内完成。这使得人类专家能够专注于定义科学问题和产出新规律,而复杂的计算任务交由智能体处理。
通过这些案例可以看到,“Harness Engineering”正成为下一代AI工程化的分水岭。
实际应用中的验证表明,在完整的AI代理体系中不再需要人类工程师编写每一层规则。而是可以放手让其自我演化寻找最优解。
结语
当AI竞赛从模型层面转向框架层面,中国团队在实践领域的持续努力正定义着工程化的未来范式。新一代生产力正在解决“最难的问题”。
通过大量实际任务的验证,伐谋证明了一套完整的 AI 智能体架构,不再需要人类工程师去手工编写每一层规则,而是可以放手让其在自我演化中寻找最优解。
当 AI 竞赛从模型层卷向框架层,国内 AI 团队在实践领域的持续深耕正在定义工程化的范式。新一代的生产力,正在真实战场上解决「最难的问题」。
