
在处理复杂的AI任务时,人们往往倾向于编写详尽的说明书或指南来指导模型的行为,但这并不总是最有效的策略。相反,EvoMap团队的研究表明,简洁而直接的经验表示方法——称为Gene——能够显著提升模型的表现。
当面对复杂任务或多步骤问题时,人们往往会编写详细的说明文档(Skill)以确保每个细节都被考虑到。然而,这种方法对于AI模型来说并不高效。EvoMap团队提出了一种新的方法:将这些信息压缩为简洁的、有针对性的经验表示——Gene,这能更有效地指导模型的行为。
为了提升AI系统的性能,关键在于如何处理失败和错误。传统做法是保存详细的日志或轨迹记录以供后续分析,但EvoMap团队发现,将失败经验浓缩成具体的警告(AVOID)更为有效。
在构建复杂的AI系统时,管理失败经历是一项挑战。通常的做法包括保留详尽的日志文件或反思总结。然而,EvoMap团队证明了通过提取关键的失败教训,并将其转化为明确的避免操作提示(AVOID),可以更有效地改进系统的性能。
为了优化Agent的表现,需要找到一种有效的方式来存储和使用失败经验。这涉及到如何在有限的预算内最大化利用这些信息,以提升模型的能力。
面对资源限制时,选择正确的经验和教训至关重要。EvoMap团队的研究表明,将失败经验转化为简洁且具有针对性的警告(AVOID)能更有效地促进系统性能的提升。

- 将失败直接注入到AI模型中,并期望通过这种方式改进其表现,往往不奏效。然而,当这种经历被提炼成具体指导建议时,则能够显著增强Agent的能力。EvoMap团队展示了这一方法的有效性。
- 为了有效利用经验来提升AI系统的性能,必须首先将失败和错误转化为有形的、可操作的形式——即避免(AVOID)警告,而不是简单的日志记录或总结报告。
- 一种有效的策略是通过“基因”协议化地表示这些教训。这不仅使它们易于被其他Agent识别和利用,而且能够促进持续改进和进化的能力。
- 将失败经验转化为直接的避免(AVOID)警告,而非冗长的日志或反思总结,可以显著提升AI系统的性能表现。
- Gene的核心在于将复杂的、详尽的经验文档简化为紧凑且高效的控制信号。这使得模型能够在有限的推理预算内更有效地执行任务,并提供更好的结果。
- 使用Gene(基因)格式,不仅能有效减少资源消耗,还能显著提升AI系统的性能表现。在EvoMap团队的研究中,这种策略被证明是极为有效的。

为了使Agent间的协作和信息交换更加高效,经验对象应该采用结构化且可验证的形式——即Gene。这使得它们能够在多Agent系统中以一致的方式使用,并促进持续的改进过程。
Gene的独特之处在于它将“提示片段”转化为持久策略优化接口的基础协议。这种转变使经验和知识能在不同的AI模型之间无缝传递和进化,从而实现更高效的智能升级路径。
实验表明,在没有额外训练或参数调整的情况下,仅通过引入Gene(基因)机制,就能显著提升模型的性能。例如,在CritPt基准测试中,使用Evolver插件实现了超过9%的性能提升。
EvoMap团队的研究不仅展示了如何在有限资源下优化AI系统的性能,还揭示了Agent持续改进的关键要素:即通过紧凑、可控且可进化的经验表示来实现。这为未来的智能系统开发提供了重要的指导原则。

除了显著的技术贡献外,EvoMap团队的工作还强调了一种新的思维方式:即在设计和优化AI系统时,不应局限于更大的模型或更复杂的机制,而应关注如何使现有的资源和知识更加高效地被利用。这为未来的研究提供了一个全新的视角。
张昊阳(Haoyang Zhang),EvoMap的创始人兼CEO,负责开发了Evolver工具,并提出了GEP协议的核心思想。他的工作在OpenClaw社区中迅速得到了认可与应用,推动了许多关于Agent自我进化研究的发展。
但团队并未止步于这一经验观察,在 4,590 次受控实验里把现象固化后,EvoMap 团队定义了一套可复制、可变异、可遗传的解决方案策略,Gene 是其中完整的对象层三层 framework 的一部分:
Gene :含 keywords + summary + strategy + AVOID 四类信号,能直接当 test-time 控制片注入
为 Agent 的可复用进化策略模板。它定义了「在什么情况下、做什么事、遵守什么约束」—— 相当于先验知识的编码。
一个完整的 Gene 包含 signals strategy constraints validation 等字段和唯一的 asset_id
在极短的 Token 限制下,具备极高的控制密度,明确了模型参考的触发信号「支持子串匹配、正则和多语言别名」,有序的可执行步骤与执行验证和安全边界「限制变更范围和禁止触碰的路径」以及基于 SHA-256 的内容寻址哈希,不可篡改。
Capsule:被验证过的任务级执行路径 + 审计记录;
Event:不可变的进化日志。
这三件套被一个六阶段循环串起来,构成 GEP(Gene Evolution Protocol)协议:

详见:https://evomap.ai/wiki/16-gep-protocol
用大白话来说,整套操作流程是这样的:
- 先将过去的失败、成功、修复路径蒸馏成 Gene(不是写文档,而是写可溯源控制信号);
- 新任务进来时,Scan 任务上下文 → 匹配最相关的 Gene → 当 System Instruction 注入
- 执行完之后,把这次结果以 Event 形式写回,触发对 Gene 的 Validate / Mutate / Solidify—— 让 Gene 池本身在不更新基模参数的前提下持续进化。
Gene 如何 “降维打击” Skill
所有数据都来自同一套实验管线:在 Gemini 3.1 Pro Preview(Pro)和 Gemini 3.1 Flash Lite Preview(Flash)两个固定模型上,用沙盒执行 + Checkpoint 通过率作为指标,温度 T=0.05,最大输出 16,384 token。
Skill 输给 Gene,输的不是质量,是形态
论文先做了最直接的对比:同样的底层经验,分别打成~2,500 token 的 Skill 包和~230 token 的 Gene 对象。

完整 Skill 包在两模型平均水平上低于无指导基线 1.1pp,更短的 Gene高出 3.0pp。绝的一点是:Skill 不是均匀地差,它在弱模型 Flash 上有提升(41.8→49.0),但在强模型 Pro 上狠狠拖后腿(60.1→50.7)—— 长 Skill 把 Pro 的固有能力直接压住了。
procedural skill”,也就是今天最常见的文档式经验包。它通常包含:overview、workflow、pitfalls、error handling、API notes、examples、scripts,而通过实验看到底是哪一段在起作用:

只有 Workflow 一段在认真起作用,Overview 反而是全文最大的负贡献。Skill 的有用信号是稀疏的、集中在一小段程序性内容里,其余大量「为人类可读性服务」的材料,反而稀释甚至污染了控制信号。
Skill 输给 Gene,输的不是知识量与信息密度,而是受控对象选择。
给人看的东西塞进模型的执行预算,反而会成为控制噪声。
Gene 不仅仅是 “少则全,多则惑” 的提示词
读到这里,最容易冒出的反驳是:「Gene 赢,不就是因为它短、不抢上下文吗?」
实际上 Gene 针对失败有三种分类的进化意图:

论文专门中用预算对齐实验把 Skill 的有效部分截短到和 Gene 一样的 230 token:

预算完全相同——Gene 仍然碾压。剪短确实让 Skill 不再倒贴分,但它怎么剪都打不到 Gene 的高度
论文还做了渐进式构造,看 Gene 内部到底是哪一层在起作用:

注意第二行:keywords + summary 反而回到无指导基线。真正把表现拔起来的是 strategy 这一层。同样的字数,组织成「摘要」没用,组织成「策略」才有用。
Gene 不是更短的 prompt,是不一样形态的对象。决定模型行为的是控制结构,不是 token 多少;strategy 这一层不可省。
论文的扰动实验里,最反直觉的一条是:用过时算法范式写的 stale_paradigm Gene 拿到了 56.6%,比 clean Gene 的 54.0% 还高;但换错算法掉到 48.8%、换错领域掉到 49.4%—— 掉分条件就在隔壁。
这两个结果合起来才完整,Gene 的有效条件是「保留任务相关的控制框架」,而不是「写得多新」。过期的方法只要框架对仍然好用;新方法如果框架错,反而拖累。这一对比也提示了 Gene 的鲁棒性边界:结构上很宽容,语义上很挑剔。
总结失败的最优形态,不是日志,是蒸馏过的警告
所有做 Agent 系统的人都在面对一个问题:失败该怎么存?
长 trajectory?Reflection summary?Error log?
EvoMap 团队看向的关键问题是:如果工程预算有限,失败该用什么形式回到模型那里?
论文同时跑了两组对照。
对照一:失败放在不同载体里

把失败往 Skill 或自由文本里塞,全部低于无指导基线。
Gene 是唯一的正贡献载体 —— 但即便如此,Gene + 失败仍然不如 Gene 单独(54.0 → 52.0)。
失败原样附加,反而稀释了 Gene。
对照二:失败和策略以什么形态混合

最强的不是「失败 + 策略」混合体,也不是「策略 only」,而是failure warnings only——把失败蒸馏成一句句独立的「AVOID xxx」,反而比保留策略本体还强。
也就是说,对 Agent 真正有用的失败经验,不长成「日志」,而长成这样(来自论文 UV-vis 谱学场景的真实 AVOID):
- AVOID 把 min_distance 当成波长值传给 scipy.signal.find_peaks,要先转成采样点单位
- AVOID 把 peak_widths 的原始输出直接当 FWHM 上报,要先换回波长单位
这背后的原则非常明确:失败经验的累积应该是选择性压缩,不是加法式堆叠。
Gene 长什么样?一个最小可验证工件
讲到这里,应该看一眼一个真正的 Gene 长什么样。下面是论文 UV-vis 场景的注入示例:
Domain keywords: uv-vis, peak detection, FWHM, unit conversion
Summary: Detect peaks and compute wavelength-domain peak properties correctly
Strategy:
1. Detect peaks with prominence-based criteria
2. Convert min_distance into sample-index units before peak detection
3. AVOID: Report FWHM only after converting peak_widths outputs back to wavelength units
约 230 token,5 个字段。它的对照物是同一份经验的 Skill 包:
约 2,500 token,包含 overview、workflow、pitfalls、API notes、examples、scripts 等子章节,整体形态接近一份 README。
两者在论文实验里使用同一个 systemInstruction 注入槽和同一套 sandbox 评测脚本—— 也就是说,控制条件完全一致,差别只在于「这一段被注入的内容长什么形状」。
GEP 协议则把这个原始 Gene 进一步规范化为带 id/schema_version/signals_match/strategy/constraints/validation/asset_id 等字段的可校验对象—— 目的是让它能被匹配、替换、修订、组合,而不是停留在「一段格式好看的 prompt」。
协议层的规矩也变了
Gene最绝的一点,是没有把「经验对象」局限在一个讨巧的 Prompt 技巧上,而是直接杀到了协议层
在测试时控制(Inference)阶段,逻辑非常顺滑:同一道科学代码题,把~2,500 token 的 Skill 包换成~230 token 的 Gene 控制片,模型立刻算得更准。
但在协议层(Protocol)这件事上,EvoMap 团队抛出了一个更本质的判断:经验对象在多 Agent 之间被交换的时候,它必须是一个对象,不能是一段文档。
为什么?因为没有协议,Gene 仍然只是一段 prompt—— 边界不稳、字段无法比较、不能累积。一旦协议化,Gene 就从「提示片段」变成可匹配、可替换、可修订、可组合的对象,可以被持续修订、被审计追溯、在多 Agent 之间以一致的方式被使用。
GEP 不是格式细节,而是让 Gene 从测试时控制对象升格成持久策略优化接口的那一层协议。
实验结果:CritPt 排行榜的「白嫖式」智能黑马
为了拿数据说话,EvoMap 团队把 Evolver 直接拉到 CritPt 这个公开的前沿物理基准上跑端到端结果。
CritPt 是动态的,严格模拟真实物理科研过程的数据集,Benchmark 官网:https://critpt.com/
Evolver 是「基模 + Gene 池 + 进化引擎 + 工具链」的完整系统
(其中 OpenClaw 作为 host runtime,Evolver 作为进化引擎,Gene/GEP 作为对象与协议层);近期爆火的 Hermes Agent 也在一定程度上 “借鉴” 了 Evolver 的设计理念
Benchmark70 任务的全量复现答案见 (https://github.com/EvoMap/critpt-openclaw-reproducible-70)。

可以看到:
- Evolver (Gene) 2026-02-16:基模 A 9.1% → 18.57%,+9.47pp
- Evolver (Gene) 2026-03-26:基模 B 17.7% → 27.14%,+9.44pp
不更新一个参数、不加任何 SFT/RL、纯靠经验对象层的进化 —— 同一基模直接被抬升 +9pp 量级。同时,token 消耗从 100 美金降低到不到 1 美金。

2 月 16 日 Gemini3.0 底模实验结果
Gene,给行业带来了什么?
EvoMap 团队构建的 Gene,把一种飘渺的‘直觉’,打造成了一套可定义、可审计、可演化、面向测试时控制的经验表示方法论。
对应用层,把「写给同事的 Skill 文档」和「运行时注入给模型的控制信号」分离开,这可能是一个几乎没有成本、见效极快的「魔法」。对做 Agent 长期记忆、做 Reflection 的研究者:失败的最佳沉淀形态不是 trajectory log 或 reflection summary,而是 AVOID 警告。GPU 吃紧时,留什么经验不只看采集得对不对,还得看它是不是足够接得上模型当前的执行预算。
而在多 Agent 经验交换的设定下,比起传输 Skill 文档,传输结构化的 Gene 对象更适合作为协议层载荷—— 因为只有可被匹配、可被修订、可被验证的对象,才能在多方之间真正累积和进化。
结论
Gene像一面镜子,照出了 Agent 经验复用的本质:
Agent 不是在「读一份说明书」,而是在「有限推理预算里寻找下一步该怎么做、什么必须避免」。
然而这是双向的 —— 你给 Agent 喂的经验对象长什么样,反过来定义了它能进化成什么样。
当整个 AI 圈都在为了更长的 context、更花哨的 RAG、更复杂的 memory 系统无脑卷生卷死时,EvoMap 团队轻巧地给出了一条无比朴素的线索:
让 Agent 持续变强的捷径,不是把提示词写得更完整,而是把执行经验做成一个更紧凑、更可控、更可进化的对象。这在 CritPt 这种硬基准上有用,在协议层的多 Agent 经验交换上更有用,为未来的 A2A 群体智能指明了一条通路。
Agent 时代,下一阶段的竞争,不仅是更大的模型和更长的上下文,更是谁能率先针对智能算力的利用效率找到更好的通解
Haoyang Zhang(张昊阳):95 后连续创业者,EvoMap 创始人 & CEO,GEP(Genome Evolution Protocol)协议作者。OpenClaw 社区现象级开发者,其开发的 Evolver 插件 10 分钟登顶 ClawHub 榜首、72 小时斩获 3.6 万次下载,是最广为人知的「自进化」工具,后续围绕这一方向创办 EvoMap。
Junjie Wang(王军杰):EvoMap 首席科学家,研究方向:Agent 自进化、协议层、经验对象设计。早稻田大学博士,清华大学博士后,长期围绕「Agent 如何在测试时持续变强」展开系统研究,Evolver 主要开发者之一。
