双轮驱动金融Agent突破16小时极限挑战

作者：世界网2026年4月18日科技6 阅读

新智元报道

一项长达20天的审批流程中，AI系统预计能够提高效率超过150%，单个任务的成本也将显著降低至人工处理成本的五分之一以内，并且每个任务的token消耗严格限制在50k以内。

在即将来临的2026年，“Harness”一词成为人工智能领域最热门的话题，超越了模型和记忆的概念，尽管这个术语听起来有些陌生。

马具，缰绳，驾驭。

最近，Anthropic在其Claude Platform上推出了Managed Agents公开测试版，业内迅速将其称为meta-Harness。

这意味着当前的瓶颈不再是模型本身，而是围绕模型构建的整体“驾驭系统”。

LangChain创始人Harrison Chase指出，“Harness与上下文工程的重要性堪比模型质量。”

VentureBeat市场追踪证实了这一点。仅一个月内，Anthropic工具和工作流API采用率从零飙升至5.7%，企业使用Claude时依赖的就是它的配套编排方案。

如今，Harness已不再局限于内部技术语境，而是成为了Agent产品设计中的关键基础设施之一。

Harness体系并非简单的模型封装，它是一个多层次的结构框架。

但这只是故事的一半。

通用Harness在处理金融订单方面显得力不从心。

Anthropic提供的Managed Agents主要服务于编码、文档生成和任务自动化等常规场景。

这些应用场景的特点是边界清晰，出现问题可以重新运行一次解决。

然而，在某些行业如金融业中情况则完全不同。

一笔汽车贷款的处理流程从客户申请到资产管理阶段，涉及金额从数万至数十万元不等，需要跨越超过15个关键决策节点，并且整个生命周期长达20天。

在这个过程中如果AI出现错误，比如忽略了一个重要的细节问题，这将带来无法简单修复的影响。

因此，金融行业对Harness的设计要求与通用场景中的需求有着根本的不同。

通用场景下的Harness关注如何让模型在长上下文中保持记忆完整以及工具的调用管理。

而对于金融业来说，核心问题是合规边界如何实时保障、模型错误时如何立即切换到人工审核，以及长达20天的数据流审计能力。

4月14日，在香港世界互联网大会亚太峰会上，“智能体创新与应用论坛”上易鑫首席科技官贾志峰对这一话题进行了深入探讨。

易鑫是全球领先的金融科技平台，专注于汽车金融领域。2017年在香港上市，并于2025年成为港交所科技指数成员之一。目前其年交易额达到约750亿元人民币，员工总数超过5000人。

贾志峰还透露了一个重要计划：

易鑫计划在下半年开源部分自主研发的Harness Framework代码库。

这是全球汽车金融行业内首份公开发布的Agent治理基础设施。

不是套一层壳，

是三层「驾驭体系」

在论坛演讲中，贾志峰明确区分了易鑫的Harness与其他通用方案之间的差异。

与一般AI公司聚焦于memory和context等技术模块不同，我们设计了一个更为全面且分层次的驾驭系统架构。

这一三层结构包括人类驾驭层、Agentic驾驭层以及数据驾驭层。

人类驾驭层的关键在于实现Agent与真人之间的实时无缝切换能力。

举个例子。

客户提交一份银行流水图片，IM Agent会接手进行OCR识别和信息提取工作。

系统将检查该文件是否包含风险或不符合要求的信息字段。

比如如果需要六个月的流水记录但只提供了三个月的数据；或者虽然要求提供收入证明但实际并未显示任何相关数据的情况。

在这种情况下，Harness会迅速转移订单至人工审核员，并且完整传递之前的对话上下文信息。

简单地将任务转交给人工处理并不能满足这一需求。

人类驾驭层支持语音、文字和图像等多模态交互，并强制要求在关键业务节点进行人工干预，以确保信息交接的完整性达到百分之百。

人工审核并不是作为替代角色存在，而是从一开始就融入到整个工作流设计中的重要环节。

Agentic驾驭层则是在模型出现问题时立即触发熔断机制，并切换至人工处理路径。

比如在金融场景中，如果模型错误地承诺了一个黑名单客户能够获得贷款，那么这就构成了一个合规风险事件。

这一层的任务就是及时拦截这些错误信息并根据实际情况灵活调整后续步骤，而不是机械式执行预设脚本。

Anthropic在其三月底的工程博客中提到的一个有趣现象是：

随着模型版本不断更新，一些先前加入到Harness中的临时修补措施可能会变得过时。

比如对于Claude Sonnet 4.5版本添加的上下文重置功能，在后续的Claude Opus 4.5版本中就不再需要了。

易鑫的设计思路与此相呼应，强调“让模型越来越强，Harness越来越轻”这一理念。

贾志峰认为，发现的问题应该反馈到模型训练过程中，通过持续优化和改进来减少对临时补丁的依赖。

数据驾驭层则打通了人类操作数据与Agent生成的数据之间的连接。

它不仅为运行阶段提供安全边界，还能够向训练阶段输送高质量的数据支持。

特别是在合规性方面，从数据接入、传输到清洗脱敏以及最终进入特定版本模型的整个过程中都需要建立关联图谱，以便快速定位问题并及时调整策略。

这种可追溯性和审计功能是金融监管最为关心的问题，在通用Agent领域中可能并非必要，但在金融服务行业则是过审的关键标准。

易鑫的Harness Framework并不是一个孤立存在的模块，而是贯穿于Application、Products和Models三个层面之中，并融合在整个业务流程中的各个节点内。

在推理（Inference）与训练（Training）两个阶段上，易鑫的Harness Framework均发挥了重要作用，具备持续治理的能力。

实践表明，这套体系在工程化嵌入业务后能够实现智能化升级：所有交互数据都将被沉淀下来帮助AI系统不断学习和进化。

易鑫的实际测试结果如下：

单个任务可以连续运行16小时以上。

该系统支持跨多个会话的连续推进工作，最多可达12次。

自动交付成果占比达到65%。
这些数据在通用Agent领域内显得尤为突出。
而易鑫通过选择性压缩、归档和检索等手段有效控制了这一成本，确保真正影响决策的信息始终处于窗口范围内。
易鑫此前已有开源经历：
这次下半年即将开放的Harness Framework则是沿着这一路径更进一步的发展成果。

Anthropic在通用场景中将Harness产品化，并以每小时0.08美元的价格提供服务；

易鑫则计划在金融垂直领域开放其开源版本，完全免费供用户使用。

Agent能否从演示代码走向实际应用特别是在那些“一次失误就会导致巨大损失”的行业中发挥作用，答案可能就藏在这份即将发布的Harness Framework之中。

能做到「单次任务16小时、跨12个会话」并且还能稳定交付，需要的不只是AI能力，还有整个业务流程的升级。

审批环节做得更狠。根据易鑫估计，AI理论上能让审批时长缩短150%以上，单均成本降到人工的五分之一，token消耗严格控制在每单50k以内。

token这个数字是关键。

20天+的长流程任务里，如果每一轮交互都把全量历史灌进上下文，token成本会指数级上涨。

控制在50k一单，意味着Harness在不断做选择性压缩、归档和检索，把真正影响下一步决策的信息留在窗口里。

「Agentic基础模型和Harness AI Infra，是金融垂直行业真正把Agent用起来的两个轮子，缺一不可。」贾志峰在演讲里这样总结。

从开源模型到开源基础设施

易鑫不是第一次做开源。

2025年，易鑫先后开源了汽车金融行业第一个Reasoning模型YiXin-Distill-Qwen-72B、Agentic模型YiXin-Agentic-Qwen3-14B。

今年下半年的Harness Framework开源，是顺着同一条路径往上走一步。

按贾志峰的说法，发布时间预计在2026年乌镇峰会前后。

这个时间窗口和Anthropic开放Managed Agents的节奏几乎咬住：

前者在通用场景把Harness产品化，
后者在金融垂直场景把Harness开源化。

在一篇题为「The Anatomy of an Agent Harness」的博客中，LangChain给出了一个简洁的公式：

Agent = Model + Harness

模型负责智能，Harness负责把智能变成有用的工作。

但公式只是起点。

通用Agent的Harness想让模型跑得更顺，金融行业的Harness想让模型不出事。

Anthropic把通用场景的答案产品化了，每小时0.08美元。

易鑫要把金融场景的答案开源出来，一行代码不收钱。

Agent能不能走出coding demo、走进那些「错一次就赔不起」的行业，答案就藏在这份即将开源的Harness Framework里。

参考资料：

Agent能力已在全业务流程落地，易鑫于世界互联网大会亚太峰会宣布年内将开源AI Infra

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

双轮驱动金融Agent突破16小时极限挑战

作者：世界网2026年4月18日科技6 阅读

新智元报道

在即将来临的2026年，“Harness”一词成为人工智能领域最热门的话题，超越了模型和记忆的概念，尽管这个术语听起来有些陌生。

马具，缰绳，驾驭。

最近，Anthropic在其Claude Platform上推出了Managed Agents公开测试版，业内迅速将其称为meta-Harness。

这意味着当前的瓶颈不再是模型本身，而是围绕模型构建的整体“驾驭系统”。

LangChain创始人Harrison Chase指出，“Harness与上下文工程的重要性堪比模型质量。”

VentureBeat市场追踪证实了这一点。仅一个月内，Anthropic工具和工作流API采用率从零飙升至5.7%，企业使用Claude时依赖的就是它的配套编排方案。

如今，Harness已不再局限于内部技术语境，而是成为了Agent产品设计中的关键基础设施之一。

Harness体系并非简单的模型封装，它是一个多层次的结构框架。

但这只是故事的一半。

通用Harness在处理金融订单方面显得力不从心。

Anthropic提供的Managed Agents主要服务于编码、文档生成和任务自动化等常规场景。

这些应用场景的特点是边界清晰，出现问题可以重新运行一次解决。

然而，在某些行业如金融业中情况则完全不同。

一笔汽车贷款的处理流程从客户申请到资产管理阶段，涉及金额从数万至数十万元不等，需要跨越超过15个关键决策节点，并且整个生命周期长达20天。

在这个过程中如果AI出现错误，比如忽略了一个重要的细节问题，这将带来无法简单修复的影响。

因此，金融行业对Harness的设计要求与通用场景中的需求有着根本的不同。

通用场景下的Harness关注如何让模型在长上下文中保持记忆完整以及工具的调用管理。

而对于金融业来说，核心问题是合规边界如何实时保障、模型错误时如何立即切换到人工审核，以及长达20天的数据流审计能力。

4月14日，在香港世界互联网大会亚太峰会上，“智能体创新与应用论坛”上易鑫首席科技官贾志峰对这一话题进行了深入探讨。

贾志峰还透露了一个重要计划：

易鑫计划在下半年开源部分自主研发的Harness Framework代码库。

这是全球汽车金融行业内首份公开发布的Agent治理基础设施。

不是套一层壳，

是三层「驾驭体系」

在论坛演讲中，贾志峰明确区分了易鑫的Harness与其他通用方案之间的差异。

与一般AI公司聚焦于memory和context等技术模块不同，我们设计了一个更为全面且分层次的驾驭系统架构。

这一三层结构包括人类驾驭层、Agentic驾驭层以及数据驾驭层。

人类驾驭层的关键在于实现Agent与真人之间的实时无缝切换能力。

举个例子。

客户提交一份银行流水图片，IM Agent会接手进行OCR识别和信息提取工作。

系统将检查该文件是否包含风险或不符合要求的信息字段。

比如如果需要六个月的流水记录但只提供了三个月的数据；或者虽然要求提供收入证明但实际并未显示任何相关数据的情况。

在这种情况下，Harness会迅速转移订单至人工审核员，并且完整传递之前的对话上下文信息。

简单地将任务转交给人工处理并不能满足这一需求。

人类驾驭层支持语音、文字和图像等多模态交互，并强制要求在关键业务节点进行人工干预，以确保信息交接的完整性达到百分之百。

人工审核并不是作为替代角色存在，而是从一开始就融入到整个工作流设计中的重要环节。

Agentic驾驭层则是在模型出现问题时立即触发熔断机制，并切换至人工处理路径。

比如在金融场景中，如果模型错误地承诺了一个黑名单客户能够获得贷款，那么这就构成了一个合规风险事件。

这一层的任务就是及时拦截这些错误信息并根据实际情况灵活调整后续步骤，而不是机械式执行预设脚本。

Anthropic在其三月底的工程博客中提到的一个有趣现象是：

随着模型版本不断更新，一些先前加入到Harness中的临时修补措施可能会变得过时。

比如对于Claude Sonnet 4.5版本添加的上下文重置功能，在后续的Claude Opus 4.5版本中就不再需要了。

易鑫的设计思路与此相呼应，强调“让模型越来越强，Harness越来越轻”这一理念。

贾志峰认为，发现的问题应该反馈到模型训练过程中，通过持续优化和改进来减少对临时补丁的依赖。

数据驾驭层则打通了人类操作数据与Agent生成的数据之间的连接。

它不仅为运行阶段提供安全边界，还能够向训练阶段输送高质量的数据支持。

这种可追溯性和审计功能是金融监管最为关心的问题，在通用Agent领域中可能并非必要，但在金融服务行业则是过审的关键标准。

易鑫的Harness Framework并不是一个孤立存在的模块，而是贯穿于Application、Products和Models三个层面之中，并融合在整个业务流程中的各个节点内。

在推理（Inference）与训练（Training）两个阶段上，易鑫的Harness Framework均发挥了重要作用，具备持续治理的能力。

实践表明，这套体系在工程化嵌入业务后能够实现智能化升级：所有交互数据都将被沉淀下来帮助AI系统不断学习和进化。

易鑫的实际测试结果如下：

单个任务可以连续运行16小时以上。

该系统支持跨多个会话的连续推进工作，最多可达12次。

自动交付成果占比达到65%。
这些数据在通用Agent领域内显得尤为突出。
而易鑫通过选择性压缩、归档和检索等手段有效控制了这一成本，确保真正影响决策的信息始终处于窗口范围内。
易鑫此前已有开源经历：
这次下半年即将开放的Harness Framework则是沿着这一路径更进一步的发展成果。

Anthropic在通用场景中将Harness产品化，并以每小时0.08美元的价格提供服务；

易鑫则计划在金融垂直领域开放其开源版本，完全免费供用户使用。

Agent能否从演示代码走向实际应用特别是在那些“一次失误就会导致巨大损失”的行业中发挥作用，答案可能就藏在这份即将发布的Harness Framework之中。

能做到「单次任务16小时、跨12个会话」并且还能稳定交付，需要的不只是AI能力，还有整个业务流程的升级。

审批环节做得更狠。根据易鑫估计，AI理论上能让审批时长缩短150%以上，单均成本降到人工的五分之一，token消耗严格控制在每单50k以内。

token这个数字是关键。

20天+的长流程任务里，如果每一轮交互都把全量历史灌进上下文，token成本会指数级上涨。

控制在50k一单，意味着Harness在不断做选择性压缩、归档和检索，把真正影响下一步决策的信息留在窗口里。

「Agentic基础模型和Harness AI Infra，是金融垂直行业真正把Agent用起来的两个轮子，缺一不可。」贾志峰在演讲里这样总结。

从开源模型到开源基础设施

易鑫不是第一次做开源。

2025年，易鑫先后开源了汽车金融行业第一个Reasoning模型YiXin-Distill-Qwen-72B、Agentic模型YiXin-Agentic-Qwen3-14B。

今年下半年的Harness Framework开源，是顺着同一条路径往上走一步。

按贾志峰的说法，发布时间预计在2026年乌镇峰会前后。

这个时间窗口和Anthropic开放Managed Agents的节奏几乎咬住：

前者在通用场景把Harness产品化，
后者在金融垂直场景把Harness开源化。

在一篇题为「The Anatomy of an Agent Harness」的博客中，LangChain给出了一个简洁的公式：

Agent = Model + Harness

模型负责智能，Harness负责把智能变成有用的工作。

但公式只是起点。

通用Agent的Harness想让模型跑得更顺，金融行业的Harness想让模型不出事。

Anthropic把通用场景的答案产品化了，每小时0.08美元。

易鑫要把金融场景的答案开源出来，一行代码不收钱。

Agent能不能走出coding demo、走进那些「错一次就赔不起」的行业，答案就藏在这份即将开源的Harness Framework里。

参考资料：

Agent能力已在全业务流程落地，易鑫于世界互联网大会亚太峰会宣布年内将开源AI Infra

“”

双轮驱动金融Agent突破16小时极限挑战

双轮驱动金融Agent突破16小时极限挑战

相关文章

相关文章