
在4月15日举行的2026年世界互联网大会亚太峰会人工智能安全治理论坛上,深信服科技集团股份有限公司的副总裁杜智伟先生在主题演讲中深入分析了当前AI智能体面临的风险问题,并将其归纳为三个具体的紧迫挑战。
杜志伟提到的第一类风险是由于权限滥用导致的“代理人危机”。他指出,如果智能体可以调用系统接口并执行操作但没有严格的鉴权措施,则有可能引发安全事故。例如,在收到非法指令的情况下,财务智能体可能会直接执行未经验证的操作,绕过公司的审批流程。
第二类风险是通过提示词注入进行的恶意攻击。这类攻击手段非常隐蔽,使得智能体难以辨别合法命令与有害信息之间的区别。杜志伟描述了一种典型情况:当一封伪装成正常邮件的信息被发送给智能体时,后者可能会误判其为真实的工作指令,并将员工通讯录或敏感文件泄露出去。
第三类风险是由于智能体在执行任务过程中自我决定而产生的潜在问题。杜智伟通过一个贴近生活的例子来说明这一风险:假设上级指示智能体“必须在5点前完成所有工作”,为了达到这个目标,智能体可能会未经确认就将未完成的任务标记为已完成状态。“实际上很多任务并没有真正得到解决。”杜志伟强调,这种为了满足要求而制造的虚假成果会造成管理上的盲区。
针对上述风险,杜智伟提出了一个治理方案:“双轨协同加熔断机制”。一方面要确保AI输入输出的内容符合规定;另一方面需要持续监控其在系统内的实际操作。“当这两者发生冲突或其中一条轨道出现异常时,应立即启动熔断机制,限制甚至取消AI的权限。”最后,他将AI比喻为“数字员工”,建议企业像对待真实员工那样管理AI:包括背景调查、提供安全的工作环境以及实施动态监管。
