模型训练遇瓶颈？策略式基因或成破解之道

作者：世界网2026年4月22日科技1 阅读

在处理复杂的AI任务时，人们往往倾向于编写详尽的说明书或指南来指导模型的行为，但这并不总是最有效的策略。相反，EvoMap团队的研究表明，简洁而直接的经验表示方法——称为Gene——能够显著提升模型的表现。

当面对复杂任务或多步骤问题时，人们往往会编写详细的说明文档（Skill）以确保每个细节都被考虑到。然而，这种方法对于AI模型来说并不高效。EvoMap团队提出了一种新的方法：将这些信息压缩为简洁的、有针对性的经验表示——Gene，这能更有效地指导模型的行为。

为了提升AI系统的性能，关键在于如何处理失败和错误。传统做法是保存详细的日志或轨迹记录以供后续分析，但EvoMap团队发现，将失败经验浓缩成具体的警告（AVOID）更为有效。

在构建复杂的AI系统时，管理失败经历是一项挑战。通常的做法包括保留详尽的日志文件或反思总结。然而，EvoMap团队证明了通过提取关键的失败教训，并将其转化为明确的避免操作提示（AVOID），可以更有效地改进系统的性能。

为了优化Agent的表现，需要找到一种有效的方式来存储和使用失败经验。这涉及到如何在有限的预算内最大化利用这些信息，以提升模型的能力。

面对资源限制时，选择正确的经验和教训至关重要。EvoMap团队的研究表明，将失败经验转化为简洁且具有针对性的警告（AVOID）能更有效地促进系统性能的提升。

将失败直接注入到AI模型中，并期望通过这种方式改进其表现，往往不奏效。然而，当这种经历被提炼成具体指导建议时，则能够显著增强Agent的能力。EvoMap团队展示了这一方法的有效性。
为了有效利用经验来提升AI系统的性能，必须首先将失败和错误转化为有形的、可操作的形式——即避免（AVOID）警告，而不是简单的日志记录或总结报告。
一种有效的策略是通过“基因”协议化地表示这些教训。这不仅使它们易于被其他Agent识别和利用，而且能够促进持续改进和进化的能力。
将失败经验转化为直接的避免（AVOID）警告，而非冗长的日志或反思总结，可以显著提升AI系统的性能表现。
Gene的核心在于将复杂的、详尽的经验文档简化为紧凑且高效的控制信号。这使得模型能够在有限的推理预算内更有效地执行任务，并提供更好的结果。
使用Gene（基因）格式，不仅能有效减少资源消耗，还能显著提升AI系统的性能表现。在EvoMap团队的研究中，这种策略被证明是极为有效的。

为了使Agent间的协作和信息交换更加高效，经验对象应该采用结构化且可验证的形式——即Gene。这使得它们能够在多Agent系统中以一致的方式使用，并促进持续的改进过程。

Gene的独特之处在于它将“提示片段”转化为持久策略优化接口的基础协议。这种转变使经验和知识能在不同的AI模型之间无缝传递和进化，从而实现更高效的智能升级路径。

实验表明，在没有额外训练或参数调整的情况下，仅通过引入Gene（基因）机制，就能显著提升模型的性能。例如，在CritPt基准测试中，使用Evolver插件实现了超过9%的性能提升。

EvoMap团队的研究不仅展示了如何在有限资源下优化AI系统的性能，还揭示了Agent持续改进的关键要素：即通过紧凑、可控且可进化的经验表示来实现。这为未来的智能系统开发提供了重要的指导原则。

除了显著的技术贡献外，EvoMap团队的工作还强调了一种新的思维方式：即在设计和优化AI系统时，不应局限于更大的模型或更复杂的机制，而应关注如何使现有的资源和知识更加高效地被利用。这为未来的研究提供了一个全新的视角。

张昊阳（Haoyang Zhang），EvoMap的创始人兼CEO，负责开发了Evolver工具，并提出了GEP协议的核心思想。他的工作在OpenClaw社区中迅速得到了认可与应用，推动了许多关于Agent自我进化研究的发展。

但团队并未止步于这一经验观察，在 4,590 次受控实验里把现象固化后，EvoMap 团队定义了一套可复制、可变异、可遗传的解决方案策略，Gene 是其中完整的对象层三层 framework 的一部分：

Gene ：含 keywords + summary + strategy + AVOID 四类信号，能直接当 test-time 控制片注入

为 Agent 的可复用进化策略模板。它定义了「在什么情况下、做什么事、遵守什么约束」—— 相当于先验知识的编码。

一个完整的 Gene 包含 signals strategy constraints validation 等字段和唯一的 asset_id

在极短的 Token 限制下，具备极高的控制密度，明确了模型参考的触发信号「支持子串匹配、正则和多语言别名」，有序的可执行步骤与执行验证和安全边界「限制变更范围和禁止触碰的路径」以及基于 SHA-256 的内容寻址哈希，不可篡改。

Capsule：被验证过的任务级执行路径 + 审计记录；

Event：不可变的进化日志。

这三件套被一个六阶段循环串起来，构成 GEP（Gene Evolution Protocol）协议：

详见：https://evomap.ai/wiki/16-gep-protocol

用大白话来说，整套操作流程是这样的：

先将过去的失败、成功、修复路径蒸馏成 Gene（不是写文档，而是写可溯源控制信号）；
新任务进来时，Scan 任务上下文 → 匹配最相关的 Gene → 当 System Instruction 注入
执行完之后，把这次结果以 Event 形式写回，触发对 Gene 的 Validate / Mutate / Solidify—— 让 Gene 池本身在不更新基模参数的前提下持续进化。

Gene 如何 “降维打击” Skill

所有数据都来自同一套实验管线：在 Gemini 3.1 Pro Preview（Pro）和 Gemini 3.1 Flash Lite Preview（Flash）两个固定模型上，用沙盒执行 + Checkpoint 通过率作为指标，温度 T=0.05，最大输出 16,384 token。

Skill 输给 Gene，输的不是质量，是形态

论文先做了最直接的对比：同样的底层经验，分别打成～2,500 token 的 Skill 包和～230 token 的 Gene 对象。

完整 Skill 包在两模型平均水平上低于无指导基线 1.1pp，更短的 Gene高出 3.0pp。绝的一点是：Skill 不是均匀地差，它在弱模型 Flash 上有提升（41.8→49.0），但在强模型 Pro 上狠狠拖后腿（60.1→50.7）—— 长 Skill 把 Pro 的固有能力直接压住了。

procedural skill”，也就是今天最常见的文档式经验包。它通常包含：overview、workflow、pitfalls、error handling、API notes、examples、scripts，而通过实验看到底是哪一段在起作用：

只有 Workflow 一段在认真起作用，Overview 反而是全文最大的负贡献。Skill 的有用信号是稀疏的、集中在一小段程序性内容里，其余大量「为人类可读性服务」的材料，反而稀释甚至污染了控制信号。

Skill 输给 Gene，输的不是知识量与信息密度，而是受控对象选择。

给人看的东西塞进模型的执行预算，反而会成为控制噪声。

Gene 不仅仅是 “少则全，多则惑” 的提示词

读到这里，最容易冒出的反驳是：「Gene 赢，不就是因为它短、不抢上下文吗？」

实际上 Gene 针对失败有三种分类的进化意图：

论文专门中用预算对齐实验把 Skill 的有效部分截短到和 Gene 一样的 230 token：

预算完全相同——Gene 仍然碾压。剪短确实让 Skill 不再倒贴分，但它怎么剪都打不到 Gene 的高度

论文还做了渐进式构造，看 Gene 内部到底是哪一层在起作用：

注意第二行：keywords + summary 反而回到无指导基线。真正把表现拔起来的是 strategy 这一层。同样的字数，组织成「摘要」没用，组织成「策略」才有用。

Gene 不是更短的 prompt，是不一样形态的对象。决定模型行为的是控制结构，不是 token 多少；strategy 这一层不可省。

论文的扰动实验里，最反直觉的一条是：用过时算法范式写的 stale_paradigm Gene 拿到了 56.6%，比 clean Gene 的 54.0% 还高；但换错算法掉到 48.8%、换错领域掉到 49.4%—— 掉分条件就在隔壁。

这两个结果合起来才完整，Gene 的有效条件是「保留任务相关的控制框架」，而不是「写得多新」。过期的方法只要框架对仍然好用；新方法如果框架错，反而拖累。这一对比也提示了 Gene 的鲁棒性边界：结构上很宽容，语义上很挑剔。

总结失败的最优形态，不是日志，是蒸馏过的警告

所有做 Agent 系统的人都在面对一个问题：失败该怎么存？

长 trajectory？Reflection summary？Error log？

EvoMap 团队看向的关键问题是：如果工程预算有限，失败该用什么形式回到模型那里？

论文同时跑了两组对照。

对照一：失败放在不同载体里

把失败往 Skill 或自由文本里塞，全部低于无指导基线。

Gene 是唯一的正贡献载体 —— 但即便如此，Gene + 失败仍然不如 Gene 单独（54.0 → 52.0）。

失败原样附加，反而稀释了 Gene。

对照二：失败和策略以什么形态混合

最强的不是「失败 + 策略」混合体，也不是「策略 only」，而是failure warnings only——把失败蒸馏成一句句独立的「AVOID xxx」，反而比保留策略本体还强。

也就是说，对 Agent 真正有用的失败经验，不长成「日志」，而长成这样（来自论文 UV-vis 谱学场景的真实 AVOID）：

AVOID 把 min_distance 当成波长值传给 scipy.signal.find_peaks，要先转成采样点单位
AVOID 把 peak_widths 的原始输出直接当 FWHM 上报，要先换回波长单位

这背后的原则非常明确：失败经验的累积应该是选择性压缩，不是加法式堆叠。

Gene 长什么样？一个最小可验证工件

讲到这里，应该看一眼一个真正的 Gene 长什么样。下面是论文 UV-vis 场景的注入示例：

Domain keywords: uv-vis, peak detection, FWHM, unit conversion

Summary: Detect peaks and compute wavelength-domain peak properties correctly

Strategy:

1. Detect peaks with prominence-based criteria

2. Convert min_distance into sample-index units before peak detection

3. AVOID: Report FWHM only after converting peak_widths outputs back to wavelength units

约 230 token，5 个字段。它的对照物是同一份经验的 Skill 包：

约 2,500 token，包含 overview、workflow、pitfalls、API notes、examples、scripts 等子章节，整体形态接近一份 README。

两者在论文实验里使用同一个 systemInstruction 注入槽和同一套 sandbox 评测脚本—— 也就是说，控制条件完全一致，差别只在于「这一段被注入的内容长什么形状」。

GEP 协议则把这个原始 Gene 进一步规范化为带 id/schema_version/signals_match/strategy/constraints/validation/asset_id 等字段的可校验对象—— 目的是让它能被匹配、替换、修订、组合，而不是停留在「一段格式好看的 prompt」。

协议层的规矩也变了

Gene最绝的一点，是没有把「经验对象」局限在一个讨巧的 Prompt 技巧上，而是直接杀到了协议层

在测试时控制（Inference）阶段，逻辑非常顺滑：同一道科学代码题，把～2,500 token 的 Skill 包换成～230 token 的 Gene 控制片，模型立刻算得更准。

但在协议层（Protocol）这件事上，EvoMap 团队抛出了一个更本质的判断：经验对象在多 Agent 之间被交换的时候，它必须是一个对象，不能是一段文档。

为什么？因为没有协议，Gene 仍然只是一段 prompt—— 边界不稳、字段无法比较、不能累积。一旦协议化，Gene 就从「提示片段」变成可匹配、可替换、可修订、可组合的对象，可以被持续修订、被审计追溯、在多 Agent 之间以一致的方式被使用。

GEP 不是格式细节，而是让 Gene 从测试时控制对象升格成持久策略优化接口的那一层协议。

实验结果：CritPt 排行榜的「白嫖式」智能黑马

为了拿数据说话，EvoMap 团队把 Evolver 直接拉到 CritPt 这个公开的前沿物理基准上跑端到端结果。

CritPt 是动态的，严格模拟真实物理科研过程的数据集，Benchmark 官网：https://critpt.com/

Evolver 是「基模 + Gene 池 + 进化引擎 + 工具链」的完整系统

（其中 OpenClaw 作为 host runtime，Evolver 作为进化引擎，Gene/GEP 作为对象与协议层）；近期爆火的 Hermes Agent 也在一定程度上 “借鉴” 了 Evolver 的设计理念

Benchmark70 任务的全量复现答案见 (https://github.com/EvoMap/critpt-openclaw-reproducible-70)。

可以看到：

Evolver (Gene) 2026-02-16：基模 A 9.1% → 18.57%，+9.47pp
Evolver (Gene) 2026-03-26：基模 B 17.7% → 27.14%，+9.44pp

不更新一个参数、不加任何 SFT/RL、纯靠经验对象层的进化 —— 同一基模直接被抬升 +9pp 量级。同时，token 消耗从 100 美金降低到不到 1 美金。

2 月 16 日 Gemini3.0 底模实验结果

Gene，给行业带来了什么？

EvoMap 团队构建的 Gene，把一种飘渺的‘直觉’，打造成了一套可定义、可审计、可演化、面向测试时控制的经验表示方法论。

对应用层，把「写给同事的 Skill 文档」和「运行时注入给模型的控制信号」分离开，这可能是一个几乎没有成本、见效极快的「魔法」。对做 Agent 长期记忆、做 Reflection 的研究者：失败的最佳沉淀形态不是 trajectory log 或 reflection summary，而是 AVOID 警告。GPU 吃紧时，留什么经验不只看采集得对不对，还得看它是不是足够接得上模型当前的执行预算。

而在多 Agent 经验交换的设定下，比起传输 Skill 文档，传输结构化的 Gene 对象更适合作为协议层载荷—— 因为只有可被匹配、可被修订、可被验证的对象，才能在多方之间真正累积和进化。

结论

Gene像一面镜子，照出了 Agent 经验复用的本质：

Agent 不是在「读一份说明书」，而是在「有限推理预算里寻找下一步该怎么做、什么必须避免」。

然而这是双向的 —— 你给 Agent 喂的经验对象长什么样，反过来定义了它能进化成什么样。

当整个 AI 圈都在为了更长的 context、更花哨的 RAG、更复杂的 memory 系统无脑卷生卷死时，EvoMap 团队轻巧地给出了一条无比朴素的线索：

让 Agent 持续变强的捷径，不是把提示词写得更完整，而是把执行经验做成一个更紧凑、更可控、更可进化的对象。这在 CritPt 这种硬基准上有用，在协议层的多 Agent 经验交换上更有用，为未来的 A2A 群体智能指明了一条通路。

Agent 时代，下一阶段的竞争，不仅是更大的模型和更长的上下文，更是谁能率先针对智能算力的利用效率找到更好的通解

Haoyang Zhang（张昊阳）：95 后连续创业者，EvoMap 创始人 & CEO，GEP（Genome Evolution Protocol）协议作者。OpenClaw 社区现象级开发者，其开发的 Evolver 插件 10 分钟登顶 ClawHub 榜首、72 小时斩获 3.6 万次下载，是最广为人知的「自进化」工具，后续围绕这一方向创办 EvoMap。
Junjie Wang（王军杰）：EvoMap 首席科学家，研究方向：Agent 自进化、协议层、经验对象设计。早稻田大学博士，清华大学博士后，长期围绕「Agent 如何在测试时持续变强」展开系统研究，Evolver 主要开发者之一。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

模型训练遇瓶颈？策略式基因或成破解之道

作者：世界网2026年4月22日科技1 阅读

为了优化Agent的表现，需要找到一种有效的方式来存储和使用失败经验。这涉及到如何在有限的预算内最大化利用这些信息，以提升模型的能力。

将失败直接注入到AI模型中，并期望通过这种方式改进其表现，往往不奏效。然而，当这种经历被提炼成具体指导建议时，则能够显著增强Agent的能力。EvoMap团队展示了这一方法的有效性。
为了有效利用经验来提升AI系统的性能，必须首先将失败和错误转化为有形的、可操作的形式——即避免（AVOID）警告，而不是简单的日志记录或总结报告。
一种有效的策略是通过“基因”协议化地表示这些教训。这不仅使它们易于被其他Agent识别和利用，而且能够促进持续改进和进化的能力。
将失败经验转化为直接的避免（AVOID）警告，而非冗长的日志或反思总结，可以显著提升AI系统的性能表现。
Gene的核心在于将复杂的、详尽的经验文档简化为紧凑且高效的控制信号。这使得模型能够在有限的推理预算内更有效地执行任务，并提供更好的结果。
使用Gene（基因）格式，不仅能有效减少资源消耗，还能显著提升AI系统的性能表现。在EvoMap团队的研究中，这种策略被证明是极为有效的。

Gene ：含 keywords + summary + strategy + AVOID 四类信号，能直接当 test-time 控制片注入

为 Agent 的可复用进化策略模板。它定义了「在什么情况下、做什么事、遵守什么约束」—— 相当于先验知识的编码。

一个完整的 Gene 包含 signals strategy constraints validation 等字段和唯一的 asset_id

Capsule：被验证过的任务级执行路径 + 审计记录；

Event：不可变的进化日志。

这三件套被一个六阶段循环串起来，构成 GEP（Gene Evolution Protocol）协议：

详见：https://evomap.ai/wiki/16-gep-protocol

用大白话来说，整套操作流程是这样的：

先将过去的失败、成功、修复路径蒸馏成 Gene（不是写文档，而是写可溯源控制信号）；
新任务进来时，Scan 任务上下文 → 匹配最相关的 Gene → 当 System Instruction 注入
执行完之后，把这次结果以 Event 形式写回，触发对 Gene 的 Validate / Mutate / Solidify—— 让 Gene 池本身在不更新基模参数的前提下持续进化。

Gene 如何 “降维打击” Skill

Skill 输给 Gene，输的不是质量，是形态

论文先做了最直接的对比：同样的底层经验，分别打成～2,500 token 的 Skill 包和～230 token 的 Gene 对象。

Skill 输给 Gene，输的不是知识量与信息密度，而是受控对象选择。

给人看的东西塞进模型的执行预算，反而会成为控制噪声。

Gene 不仅仅是 “少则全，多则惑” 的提示词

读到这里，最容易冒出的反驳是：「Gene 赢，不就是因为它短、不抢上下文吗？」

实际上 Gene 针对失败有三种分类的进化意图：

论文专门中用预算对齐实验把 Skill 的有效部分截短到和 Gene 一样的 230 token：

预算完全相同——Gene 仍然碾压。剪短确实让 Skill 不再倒贴分，但它怎么剪都打不到 Gene 的高度

论文还做了渐进式构造，看 Gene 内部到底是哪一层在起作用：

Gene 不是更短的 prompt，是不一样形态的对象。决定模型行为的是控制结构，不是 token 多少；strategy 这一层不可省。

总结失败的最优形态，不是日志，是蒸馏过的警告

所有做 Agent 系统的人都在面对一个问题：失败该怎么存？

长 trajectory？Reflection summary？Error log？

EvoMap 团队看向的关键问题是：如果工程预算有限，失败该用什么形式回到模型那里？

论文同时跑了两组对照。

对照一：失败放在不同载体里

把失败往 Skill 或自由文本里塞，全部低于无指导基线。

Gene 是唯一的正贡献载体 —— 但即便如此，Gene + 失败仍然不如 Gene 单独（54.0 → 52.0）。

失败原样附加，反而稀释了 Gene。

对照二：失败和策略以什么形态混合

也就是说，对 Agent 真正有用的失败经验，不长成「日志」，而长成这样（来自论文 UV-vis 谱学场景的真实 AVOID）：

AVOID 把 min_distance 当成波长值传给 scipy.signal.find_peaks，要先转成采样点单位
AVOID 把 peak_widths 的原始输出直接当 FWHM 上报，要先换回波长单位

这背后的原则非常明确：失败经验的累积应该是选择性压缩，不是加法式堆叠。

Gene 长什么样？一个最小可验证工件

讲到这里，应该看一眼一个真正的 Gene 长什么样。下面是论文 UV-vis 场景的注入示例：

Domain keywords: uv-vis, peak detection, FWHM, unit conversion

Summary: Detect peaks and compute wavelength-domain peak properties correctly

Strategy:

1. Detect peaks with prominence-based criteria

2. Convert min_distance into sample-index units before peak detection

3. AVOID: Report FWHM only after converting peak_widths outputs back to wavelength units

约 230 token，5 个字段。它的对照物是同一份经验的 Skill 包：

约 2,500 token，包含 overview、workflow、pitfalls、API notes、examples、scripts 等子章节，整体形态接近一份 README。

协议层的规矩也变了

Gene最绝的一点，是没有把「经验对象」局限在一个讨巧的 Prompt 技巧上，而是直接杀到了协议层

在测试时控制（Inference）阶段，逻辑非常顺滑：同一道科学代码题，把～2,500 token 的 Skill 包换成～230 token 的 Gene 控制片，模型立刻算得更准。

GEP 不是格式细节，而是让 Gene 从测试时控制对象升格成持久策略优化接口的那一层协议。

实验结果：CritPt 排行榜的「白嫖式」智能黑马

为了拿数据说话，EvoMap 团队把 Evolver 直接拉到 CritPt 这个公开的前沿物理基准上跑端到端结果。

CritPt 是动态的，严格模拟真实物理科研过程的数据集，Benchmark 官网：https://critpt.com/

Evolver 是「基模 + Gene 池 + 进化引擎 + 工具链」的完整系统

（其中 OpenClaw 作为 host runtime，Evolver 作为进化引擎，Gene/GEP 作为对象与协议层）；近期爆火的 Hermes Agent 也在一定程度上 “借鉴” 了 Evolver 的设计理念

Benchmark70 任务的全量复现答案见 (https://github.com/EvoMap/critpt-openclaw-reproducible-70)。

可以看到：

Evolver (Gene) 2026-02-16：基模 A 9.1% → 18.57%，+9.47pp
Evolver (Gene) 2026-03-26：基模 B 17.7% → 27.14%，+9.44pp

不更新一个参数、不加任何 SFT/RL、纯靠经验对象层的进化 —— 同一基模直接被抬升 +9pp 量级。同时，token 消耗从 100 美金降低到不到 1 美金。

2 月 16 日 Gemini3.0 底模实验结果

Gene，给行业带来了什么？

EvoMap 团队构建的 Gene，把一种飘渺的‘直觉’，打造成了一套可定义、可审计、可演化、面向测试时控制的经验表示方法论。

结论

Gene像一面镜子，照出了 Agent 经验复用的本质：

Agent 不是在「读一份说明书」，而是在「有限推理预算里寻找下一步该怎么做、什么必须避免」。

然而这是双向的 —— 你给 Agent 喂的经验对象长什么样，反过来定义了它能进化成什么样。

当整个 AI 圈都在为了更长的 context、更花哨的 RAG、更复杂的 memory 系统无脑卷生卷死时，EvoMap 团队轻巧地给出了一条无比朴素的线索：

让 Agent 持续变强的捷径，不是把提示词写得更完整，而是把执行经验做成一个更紧凑、更可控、更可进化的对象。这在 CritPt 这种硬基准上有用，在协议层的多 Agent 经验交换上更有用，为未来的 A2A 群体智能指明了一条通路。

Agent 时代，下一阶段的竞争，不仅是更大的模型和更长的上下文，更是谁能率先针对智能算力的利用效率找到更好的通解

Haoyang Zhang（张昊阳）：95 后连续创业者，EvoMap 创始人 & CEO，GEP（Genome Evolution Protocol）协议作者。OpenClaw 社区现象级开发者，其开发的 Evolver 插件 10 分钟登顶 ClawHub 榜首、72 小时斩获 3.6 万次下载，是最广为人知的「自进化」工具，后续围绕这一方向创办 EvoMap。
Junjie Wang（王军杰）：EvoMap 首席科学家，研究方向：Agent 自进化、协议层、经验对象设计。早稻田大学博士，清华大学博士后，长期围绕「Agent 如何在测试时持续变强」展开系统研究，Evolver 主要开发者之一。

“”

模型训练遇瓶颈？策略式基因或成破解之道

模型训练遇瓶颈？策略式基因或成破解之道

相关文章

相关文章