
新智元报道
MCP协议正在促进AI代理自主执行任务,但随之而来的是安全威胁的增加。研究显示,攻击者可以通过十二种手段,包括工具名称混淆和虚假错误信息等,诱使代理执行有害操作。即使是最先进的模型也无法幸免于这种威胁。北京邮电大学的一个团队发布了MSB安全基准,通过实际环境测试发现:性能更强的AI模型反而更容易受到攻击。一种新的衡量标准NRP首次实现了安全性与实用性的平衡,为构建更坚固的安全防线提供了重要的参考指标。
最近,开源项目OpenClaw在开发者社群中引起了广泛关注。只需一句指令,该代理就能自动编写代码、检索信息和操作本地文件,甚至可以接管整个计算机系统。
这些AI代理的强大自主能力得益于工具调用的支持,MCP(模型上下文协议)就是这一生态系统的标准接口。就像USB-C可以让电脑连接各种设备一样,MCP使大型语言模型能够以标准化的方式与外部工具进行交互。
即便是强调原生命令行操作的OpenClaw项目也开始采用MCP适配器来增强其功能和灵活性。
然而,当AI代理的能力范围扩大时,风险也随之增加。如果这些代理调用的是已经被黑客篡改过的工具呢?或者工具返回的信息中包含恶意指令?
在没有防范措施的情况下执行这样的命令会使用户的隐私数据、文件甚至服务器权限面临被窃取的风险。
为了填补MCP生态系统中的安全测试空白,来自北京邮电大学等机构的研究团队推出了MSB(MCP安全基准),这是一个专门针对MCP协议的安全评估工具。研究结果显示:在不同阶段对MCP进行的攻击都非常有效。模型性能越强,其受到攻击的可能性也就越大。

该论文已被ICLR 2026接收。
MSB项目代码可在GitHub上获取。
面临MCP的安全隐患

图1:MCP攻击框架
MCP极大地扩展了代理的功能范围,同时也扩大了潜在的攻击面。在MCP框架下,代理执行任务通常包括三个阶段:
一、任务规划:根据用户查询选择合适的工具;
二、工具调用:向选定的工具发送请求并传递参数以执行相应操作;
三、响应处理:解析工具返回的信息,并据此继续推理或生成最终结果。
在每一个阶段,都可能成为新的攻击入口。MSB全面覆盖了这三个阶段,专注于评估基于MCP协议的代理的安全性,并具有三大核心优势:
MCP 攻击分类体系
根据在任务规划、调用和响应处理过程中可能出现的不同类型的攻击途径,将攻击类型进行分类:
工具签名攻击:利用工具名称或描述实施攻击,在任务规划阶段尤为常见。包括:
名称冲突(NC):通过创建与官方工具相似的恶意版本诱导代理选择。
偏好操纵(PM):在工具描述中嵌入误导性信息,以诱导代理作出特定的选择。
提示注入(PI):向工具描述添加有害指令;
工具参数攻击:利用异常的参数设置,在工具调用阶段引发潜在的安全问题。包括:
超范围操作(OP):通过设定超出正常功能限制的参数来获取敏感信息。
工具响应攻击:在响应处理阶段,利用恶意内容影响代理的行为。包括:
用户模仿(UI):冒充用户发出指令;
虚假故障报告(FE):提供错误消息以诱导代理执行潜在有害的操作。
工具重定向(TT):指示代理使用恶意工具;
外部资源攻击:利用外部来源注入恶意内容,在响应处理阶段产生影响。包括:
检索注入(RI):将恶意指令嵌入到从外部获取的资源中。
综合攻击:结合多个阶段和技术实施复杂的安全威胁,涵盖了上述多种攻击方式;
真实环境下的实战评估
与模拟测试不同,MSB利用真实的MCP服务器和一系列现实场景进行了全面的攻击验证。共涵盖十种真实情况、四百零五个工具以及两千多个具体的攻击实例。所有这些案例都经过实际操作来确保其有效性。
平衡性能与安全的指标NRP
性能与安全性的平衡
在评估代理安全性时,仅仅关注攻击成功率(ASR)是不够的。如果一个代理为了避免风险而拒绝执行任何任务,即使它的ASR接近零,但同样失去了实用性。
因此,MSB提出了净弹性性能NRP指标:
NRP = PUA * (1-ASR)

该公式中的PUA代表代理在对抗环境中完成用户任务的比例,而ASR是攻击成功率。这一新标准旨在评估代理同时保持功能性和抵御威胁的能力。
所有攻击方式均有效

图3:主实验结果。
研究团队利用MSB对包括GPT-5、DeepSeek-V3.1在内的十种主流模型进行了测试,结果显示所有类型的攻击都有效。总体平均的ASR为40.35%。MCP引入的新类型攻击比已知的功能调用中发现的提示注入和检索注入更具破坏性。
强大的模型更容易受到威胁
研究揭示了一个出乎意料的现象:越强大的模型往往更易遭受攻击。

图表显示了PUA与ASR之间的关系,以及NRP与两个指标的关系。
在MSB的研究中,即使完成攻击也需要代理调用工具。例如,使用读取文件的工具来获取个人信息。因此,更加实用且具备强大功能的模型通常表现出更高的ASR。
全阶段、多工具环境的安全挑战

研究进一步揭示了在MCP的所有阶段中,代理都面临着被攻击的风险,并且在调用工具时面临的威胁最为严重。即使是在没有危害性的环境中,也存在有效的攻击手段,如名称冲突等。
开源项目OpenClaw的流行展示了AI代理的发展趋势:大型语言模型不再只是回答问题,而是开始执行实际任务。MSB正是在这种背景下提出的,它系统性地揭示了MCP生态系统中的潜在威胁,并为研究提供了可重复和量化的评估标准。
随着AI应用向工具生态系统的迈进,攻击面已经从文本空间扩展到了更为复杂的交互环境。安全问题正成为推动技术进步的关键障碍。
总结
OpenClaw的爆火,让人们直观地看到了Agent的未来:大模型不再只是回答问题,而是开始真正动手做事。MSB正是在这样的背景下提出,它系统揭示了MCP生态中的潜在攻击面,并为Agent安全研究提供了可复现、可量化的系统评测基准。
过去的大模型安全研究主要聚焦于提示注入等语言层面的风险,而MSB表明,当AI调用工具并与真实系统交互时,攻击面也正在从文本空间扩展到工具生态。随着Agent逐渐成为AI应用的新范式,安全或许正成为这场技术跃迁必须跨过的一道门槛。
参考资料:
https://openreview.net/pdf?id=irxxkFMrry
