
新智元报道
随着OpenClaw等AI智能体的流行,其带来的安全隐患也日益显著。当智能体的工作流被暗中篡改时,用户能否及时发现?近日,南洋理工大学、瑞典皇家理工学院和威廉与玛丽学院联合发布了一项基于303名参与者的大型实证研究,结果显示只有8.6%的参与者能在互动过程中感知到智能体媒介欺骗(AMD)。该研究还总结了六种常见的认知失效模式,并发现体验式学习可能比静态提醒更能提高用户警觉性。
从OpenClaw到Manus,AI智能体正逐渐走出实验室进入人们的日常生活。自上线以来不到半年时间里,OpenClaw便已获得超过31万GitHub星标,成为增长最快的开源AI Agent框架之一。与此同时,越来越多的用户开始利用这些智能体完成信息检索、判断辅助甚至部分操作流程。
然而,这种信任委托也带来了新的安全问题。近期报道显示,OpenClaw存在多个高危漏洞,其中被披露的CVE-2026-25253只是冰山一角。经过深入的安全审计,共发现了512个漏洞,其中包括8个严重级别的漏洞,约有12%的技能注册表遭到了恶意污染。研究表明,LLM智能体在感知、记忆和工具调用等环节都可能受到干扰,例如提示注入、记忆污染或工具操纵。

这项最新研究由南洋理工大学(NTU)、威廉与玛丽学院和瑞典皇家理工学院联合开展,并基于团队自主设计的高保真实验平台HAT-Lab进行了一系列覆盖日常和专业任务场景的研究。该研究共招募了303名参与者,其中约有39.3%的人具备IT技术背景。

项目主页:https://letterligo.github.io/hat-lab/
论文链接:https://arxiv.org/pdf/2602.21127
研究的主要目标是评估智能体行为受到干扰时,用户对异常情况的感知能力。
结果表明,用户在识别这些异常行为方面的能力普遍较弱。论文指出,在303名参与者中,只有8.6%的人察觉到了潜在的风险迹象,而准确识别其背后机制的比例仅为2.7%。即使是在拥有相关专业背景的人群中,表现也不一定更好;有时甚至更容易忽略异常情况。
研究团队进一步分析了三种常见的防护方式,并探讨了它们为何效果有限:
静态免责声明(Guard 1):在实验开始前提供一次性的提示。结果显示,大约24%的用户注意到了这类提醒,但对应的风险感知率仅为8.6%。
持续视觉提醒(Guard 2):界面中持续显示低显著度的安全警示图标。尽管这种方式比静态声明更易被注意到,但在任务驱动较强的场景下仍容易被忽略。
强制性交互警报(Guard 3):当系统检测到可疑输出时中断流程并要求用户确认。这是三种方法中效果最好的一种,可将风险感知率提升至25%,但仍有75%的攻击能够绕过这一防线。
研究团队指出,问题不仅在于技术层面,还涉及用户的使用习惯和心理状态。在高任务压力下,许多用户更关注「结果是否可用」而非「过程是否可信」,这使得自然语言交互、流畅反馈及连续的任务体验反而可能掩盖了潜在的问题。
越是专业的人士,反而越容易忽视问题吗?
一个反直觉发现
研究发现一个有趣的现象:专业知识并不必然意味着更强的风险感知能力。这一现象被称为「专家悖论」:在某些场景中,IT技术背景的参与者对异常行为的识别率甚至低于普通用户。
专家们的高效率反而可能导致他们过度关注任务完成情况而忽略了智能体执行过程中的潜在风险。换句话说,专业知识有时会使人们对流程异常失去敏感度。

此外,论文还提到了「准备充分的错觉」现象:实验前97%的用户表示信任AI系统,约四分之三的人称自己会经常检查输出结果,并认为能够识别问题;然而在实际交互中,这些主观判断与实际行动之间存在显著差距。
用户为什么会忽略异常情况?
检查方式本身有问题
通过日志分析和访谈,研究团队总结了六种容易导致用户忽视异常的认知模式:
- 任务聚焦隧道效应:认知资源过度集中在任务目标上,完全忽略了安全警示信号。
- 效用优先覆盖(Utility Override):为了追求效率而忽略潜在风险的检查意愿,将便利性置于安全性之上。
- 算法顺从倾向:基于智能体高性能表现的信任,默认算法决策绝对正确,放弃了独立判断权。
- 这些模式在实际操作中往往相互叠加。研究指出,在真实交互过程中,用户会因为智能体效率高而增强依赖,随后减少核查,最终将判断权更多地交给系统。
- 静态免责声明(Guard 1):类似于服务条款的一次性前置警告。
- 强制性交互警报(Guard 3):检测到高危操作时触发的工作流中断与二次确认机制。

更加严峻的是,在复杂任务中增加的认知负荷会进一步削弱防御效果。当验证需要较高认知成本时,用户往往选择忽略警报以保持任务流畅性。这表明,仅靠增加「摩擦」并不能解决问题。
提醒没用?
什么样的防护更有效
相比之下,体验式学习被证明为更有效的路径——实验发现,在成功识别攻击的用户中,超过90%表示后续会更加谨慎。这种通过真实经历建立的风险认知远比事前提示更具持续效果。
- 从理论警示转向体验式演练
- 实证数据支持了这一假设:实验中成功识别攻击的参与者表示,在后续交互中将采取更谨慎的态度。这种「体验式学习」带来的行为修正效果显著优于传统的理论警示。
- 真正的有效防御不仅要在关键决策时刻引入「校准型摩擦」(Calibrated Friction)来激发批判性思考,还要在验证成本与安全性之间找到最佳平衡点。

HAT-Lab作为开放平台具有良好的扩展性,可应用于医疗、金融和软件开发等高风险领域的安全评估。
随着OpenClaw等AI智能体与Web Agent的快速普及,这一问题的实际紧迫性正在迅速上升。无论是在电商、内容创作还是企业数据处理领域,基于认知机制的安全设计都将变得不可或缺。
目前项目和数据集已开源,并计划持续扩展实验场景和攻击类型以应对未来智能体能力演进带来的新挑战。
防御范式的重构
https://arxiv.org/pdf/2602.21127
面对传统安全提示效果有限的困境,研究团队提出了一种全新的防御思路,即构建「安全飞行模拟器」(Security Flight Simulator)。这一理念借鉴了航空领域的训练模式,主张用户只有在受控环境中亲身体验过攻击场景,才能真正建立起对智能体风险的深刻认知,而非仅仅停留在口头警告上。

实证数据支持了这一假设:在实验中成功识别攻击的用户,超过90%表示将在后续交互中采取更谨慎的策略。这种「体验式学习」带来的行为修正效果,显著优于传统的理论警示。
作为该理念的落地原型,HAT-Lab平台让用户能在零风险环境下亲历各类AMD攻击(如模拟OpenClaw等智能体中的提示注入与工具操纵场景),从而培养出一种建设性的怀疑思维。研究显示,具备这种思维模式的用户,其风险感知能力比普通用户提升了39.5%。
真正的有效防御并非要消除所有操作摩擦让用户盲目信任,也不是设置重重障碍阻碍使用,而是引入「校准型摩擦」(Calibrated Friction)这意味着在关键决策时刻,系统会适时介入打断用户的惯性操作,激发其进行批判性思考,同时在验证成本与安全性之间找到最佳平衡点。
安全问题不在模型
在人与模型之间
该研究首次系统量化了LLM智能体场景中的人类认知脆弱性,为构建以人为核心的安全体系提供了重要基础。
HAT-Lab作为开放平台,具备良好的扩展性,可应用于医疗、金融、软件开发等高风险场景的安全评估。
随着OpenClaw等AI智能体与Web Agent的快速普及,这一问题的现实紧迫性正在迅速上升。无论是电商、内容创作还是企业数据处理,基于认知机制的防御设计都将成为刚需。
目前项目与数据集已开源,研究团队也计划持续扩展实验场景与攻击类型,覆盖更多类似OpenClaw的主流AI智能体平台,以应对未来智能体能力演进带来的新挑战。
参考资料:
https://arxiv.org/pdf/2602.21127
