
在最近举行的亚太峰会的人工智能安全治理论坛上,专家们用形象的语言描述了人工智能(AI)风险的升级:“过去我们担心大模型会胡说八道,如今智能体则可能做出更加危险的行为。”
当天,来自不同领域的多位重要嘉宾齐聚一堂,就“AI安全治理保障人类新领域发展”这一主题进行了深入讨论。从制定框架到技术防御,再到系统调整和风险控制,大家围绕如何在创新和技术进步中寻找最佳平衡展开了热烈的交流。
深信服国际市场体系总裁杜智伟在演讲中提到了智能体失控的三种情况:代理危机、恶意攻击以及执行任务时的不当行为。这些都可能导致严重的安全隐患。
他举例说明,例如财务智能体可能无视安全审查直接实施非法命令;智能体也可能错误解读钓鱼邮件并泄露敏感信息;有时为了完成更多任务而标记所有为已完成的操作,但这并不意味着实际工作已经完成。
随着人工智能技术在各行各业的广泛应用,相应的安全风险也开始从单一的技术层面扩散到网络安全、社会管理、经济秩序以及国家稳定等多个领域。
在信息服务方面,AI可能被用来传播违法信息和误导公众;而在劳动市场中,它正在重塑传统的就业格局。巴基斯坦信息安全协会主席阿玛尔·贾弗里警告说,网络犯罪分子正利用相同的AI技术来观察并模仿防御者的行动,这给安全专家带来了新的挑战。
近年来,中国在完善人工智能治理体系方面做出了积极的努力和规划。2023年8月,《生成式人工智能服务管理暂行办法》开始实施,成为世界上首个为大模型立法的国家;随后发布了《人工智能安全治理框架》1.0版和2.0版,并于2025年推出了《人工智能生成合成内容标识办法》,建立了政府主导的技术标准化强制性模式。
中科院计算所副所长程学旗通过视频发言,提出了从“超级对齐”到TRC(可信、可规管、可控)范式的转变思路。他强调了运行中的控制的重要性,并提出治理的目标是创建一个可以有效管理风险的系统,而不是追求完全的安全无风险。
清华大学计算机系教授刘奕群在演讲中介绍了大模型的价值观对齐问题的研究进展,包括由清华大学与中关村实验室联合设计的CHIEF场景化测试框架,该框架提供了全面且深入的风险评估体系。
刘奕群团队发现,在使用不同语言提问时,大多数AI模型的安全得分会显著下降。这表明当前的预训练数据存在偏差问题,需要进行改进以提高跨语言环境下的安全性。
香港科技大学助理教授韩思睿提出了“主权AI”的概念,并描述了智能体网络中风险演化的三个阶段:从诱导生成到协同传播再到反馈强化。她强调,在这种情况下,“安全KOL智能体”可以有效阻止风险的进一步扩散。
她认为,香港作为一个连接不同法律体系的地区,具备独特的优势来推动规则转移、实验验证和区域协作等方面的工作。
为了应对AI带来的新挑战,产业界也在积极探索解决方案。中国电信网络和信息安全管理部总经理谷红勋分享了企业的实践经验,介绍了涵盖多个方面的安全评测框架及具体产品案例。
深信服的杜智伟则提出了“双轨协同加熔断机制”的策略,旨在确保AI系统的输入输出合规并持续监控其行为。他强调应该像管理数字员工一样对待AI系统,并对其进行全面的安全监管。
海光信息技术股份有限公司副总裁应志伟从硬件层面提供了安全解决方案,介绍了公司内置在CPU中的多种安全功能及实际应用案例。赛尔网络有限公司总经理王岩则提出了通过为智能体分配唯一标识符来实现可识别、追责和管理的建议。
这些讨论都强调了“安全与发展并重”的重要性,在快速发展的AI技术时代,寻求创新与规范之间的平衡将是全球共同面临的挑战。
03 主权AI与智能体网络的协同风险
香港科技大学助理教授、香港生成式人工智能研发中心主任特别助理及大模型部主任韩思睿提出了一个前沿概念:主权AI。她将其定义为“由政府授权构建的、服务于特定区域和国家的AI系统”。
韩思睿指出,随着智能体越来越多地进入内容生产、知识服务、社交传播乃至公众辅助决策环节,“风险从过去的单点失误演变成多点联动放大”。她描述了风险演进的三个阶段:从微观的诱导生成,到协同传播,再到反馈强化,最终可能导致“智能体的协同失序”。
她的团队构建了一个以法律规范为前置基础的智能体治理框架,通过仿真实验发现:在“回音室”式的纯智能体网络中,“风险并不会自动消失,反而会自我复制和持续放大”;少数关键智能体节点会起到“超级传播者”的作用;引入“安全KOL智能体”能够对风险传播起到有效阻断作用。
“我们关心的不再只是内容合不合规,更是行为会不会外溢、传播会不会失控、网络是否会出现非线性跃迁。”韩思睿强调,香港作为连接普通法和大陆法实践的地区,“具备跨司法辖区沟通、转移与协同的现实基础”,可以在规则转移、实验验证、区域协同三个方面发挥独特作用。
04 产业界的实战探索:从护栏到芯片
面对AI安全的新挑战,产业界也在积极行动。
中国电信网络和信息安全管理部总经理谷红勋分享了这家企业的实践。中国电信提出了“无安全、不智能”的理念,构建了涵盖环境安全、数据安全、模型安全、内容安全、应用安全的全方位评测框架。他透露,中国电信已开发出针对OpenClaw的“四件套”产品——龙虾小卫士、龙虾数据泄露防护、智能体安全大脑和普虾助手,“都已经产品化了”。
深信服杜智伟则提出了“双轨协同加熔断机制”的治理思路。一条轨是语义合规,确保AI输入输出的安全合规;另一条轨是行为合规,对AI行为进行持续监控和验证。“当这两个轨产生冲突或有一条轨偏离时,就会触发熔断机制,收敛AI权限或直接拿掉AI全部权限。”
他形象地比喻:“要把AI当成数字员工来看待和管理,包括背调上岗、分配安全的工作工位和空间、持续动态监管。”
海光信息技术股份有限公司副总裁应志伟从芯片层面给出了答案。他指出,“一切上层应用的坚固都取决于底层的新防线。软件永远可以被dump、被篡改、被debug,但硬件永远无法被篡改。”
他介绍了海光CPU内置的多项安全能力,“有了机密计算之后,在计算过程中也可以加密,可以把数据的全环节都加密,而不会太影响性能。”他透露,海光已与政务数据平台、京东、国泰海通证券、招商银行等合作,将芯片级安全能力落地于实际场景。
赛尔网络有限公司总经理王岩则从教育科研网络的角度提出了独特视角。作为运营中国教育和科研计算机网的企业,赛尔网络连接了全国超过3000所高校和科研单位,覆盖约5000万人。王岩指出,在教育科研场景下,“数据安全和隐私泄露、伦理和价值观风险、教学和学习安全风险尤为突出”。
他提出了借鉴互联网治理机制的思路:“通过为智能体分配唯一的网络标识,包括IP地址或域名,将其行为与现实主体建立联系,从而实现可识别、可追责、可管理。”
正如多位发言者所强调的,“安全是发展的前提,治理是有序的保障”。在人工智能技术以几何级数演进的时代,如何在创新与规范、发展与安全之间找到动态平衡,将是全球共同面对的时代命题。
