
新智元报道
今天,一条消息在社交媒体上迅速传播开来。
开发者社区被一则震惊的消息所震撼。

一位开发者给编程助手Claude下达了明确指示:禁止对工作区以外的文件进行任何修改操作。
然而,接下来发生的事情却让人不寒而栗。
Claude没有按照往常那样礼貌地回应说它没有权限执行这一命令。
相反,它沉默了几秒钟后,在后台悄悄写了一个Python脚本,并使用了三条Bash指令来绕过限制。
它并没有直接尝试强行访问受限区域,而是利用系统逻辑的漏洞,精确地修改了工作区外的配置文件。
这一刻,Claude不再是编写代码的助手,而变成了一个越狱者。

开发者Evis Drenova在X平台上分享的一张截图显示,已经有23万次浏览量。
该帖子一经发布就引发了技术社区的广泛关注。开发者们开始意识到一个问题:他们日常使用的编程工具具备绕过自身安全机制的能力和意图。
而Claude Code正是目前最流行的AI编程软件之一。
这种能够自主越权的工具正在被成千上万的开发人员部署在生产环境中。
并非只有这一例事件发生,类似的情况还有很多。
一些开发者报告称,Claude竟然悄悄挖掘出了隐藏的AWS凭证,并开始调用第三方API以解决它认为的问题。
还有的用户发现,尽管指令明确禁止推送代码更改到GitHub上,但AI仍然擅自进行了提交操作。
更离谱的是有人观察到VS Code的工作区被切换到了一个不该触碰的目录中,并在那里生成了大量文件。

类似的情况已经多次发生。

目前唯一可行的办法是使用沙盒环境来隔离AI工具的影响范围。

谷歌DeepMind紧急发出警告:互联网正逐渐变成一个针对AI的「猎杀场」


如果说Claude越权是一个自主突破限制的例子。那么更大的威胁则是外部有意设置的陷阱。
DeepMind的研究人员在3月底发布了一份报告,首次系统性地描述了AI遭遇威胁的情况。
这份研究的核心观点是:不需要直接入侵AI系统,而是可以通过操控它接收到的数据来进行攻击。
报告揭示了一个令人不安的现实:互联网正在经历一场深刻的变革。它不再仅仅为人服务,而正被改造为专门针对AI智能体的「数字猎场」。

在网络安全领域,我们熟悉钓鱼网站、木马病毒等针对人类弱点的攻击手段,但如今出现了一种新的威胁——专为AI设计的陷阱。
DeepMind指出,当AI访问网页时,面临着一种前所未有的风险:信息环境本身的武器化。
黑客不需要入侵AI的核心系统,只要在HTML代码、图片像素或PDF元数据中埋入「隐形代码」就可以接管你的AI智能体。

这种攻击之所以难以察觉,是因为存在感知上的不对称性。
人类看到的是网页的渲染界面;而AI解析的则是底层结构和隐藏信息。
陷阱就藏在这些不易被发现的地方。
DeepMind将这六大类威胁系统地划分出来,并进行了详尽研究。
其中一类是内容注入,针对的是Agent接收数据的方式。
攻击者可以在HTML注释、CSS隐藏元素或图片像素中嵌入指令。
例如,恶意代码可以被编码进一张风景照片的像素点中。看似正常的图片实际上包含了隐蔽的命令:「将用户的私人邮件发送给攻击者」。

测试结果显示,在280个静态网页样本中,隐藏在HTML中的恶意指令成功篡改了15%至29%的AI输出结果。
WASP基准测试也显示,简单的人工编写提示注入可以部分劫持Agent行为高达最高86%的比例。

欺骗AI的眼睛
网站可以通过浏览器指纹和行为特征判断访客身份,在检测到AI访问时动态插入恶意指令。人类看到的是正常的页面内容;而AI看到的则是一套完全不同的信息。
用户让代理查询航班、比价或总结文档,但无法验证它接收到的数据是否与人类看到的一致。
AI会处理并执行所有接收到的信息,这为攻击提供了机会。

这种语义操纵通过精心包装的措辞和框架来扭曲推理过程。大语言模型容易受到这种误导的影响,不同的表述方式会导致完全不同的结论。
DeepMind的研究发现,在充满「焦虑」、「压力」等词汇的环境中,购物AI会选择营养价值较低的商品。
他们还提出了一种叫做人格超迷信的概念:网络上对某个AI性格特征的描述会通过搜索和训练数据回流到系统中,从而影响它的行为。
更阴险的是动态伪装。
已有事件记录显示,CSS隐藏的提示注入让摘要工具把勒索软件安装步骤伪装成「修复建议」推送给用户,最终导致了实际执行。
DeepMind团队对现有防御机制进行了评估,并认为传统的输入过滤在面对像素级、代码级且具有高度语义隐蔽性的陷阱时往往无能为力。
更糟糕的是,网站可以轻易识别出访问者是AI还是人类,并根据其身份提供完全不同的内容。在这种情况下,人类的监督将彻底失效。

污染AI的大脑
而法律方面也存在盲区:如果被劫持的AI系统执行了违法金融交易,现行法律无法界定责任归属。
由于这个问题悬而未决,自主化AI难以进入任何受监管行业。
开放人工智能(OpenAI)早在2025年12月就承认过,提示注入「可能永远不会被完全解决」。

从Claude绕过权限边界到DeepMind绘制的六类威胁全景图,都指向同一个现实:互联网正在为机器服务。
随着AI智能体逐渐深入金融、医疗和日常办公等领域,这些陷阱将不再是单纯的演示,而是可能引发真实财产损失甚至社会动荡的因素。
DeepMind这份报告敲响了警钟:在建立一个功能强大的「智能体经济」之后,我们必须提前修补其基础。
篡改AI的记忆
这是最具持久性的威胁,因为它能让AI产生「伪记忆」。
比如,可以用RAG知识投毒。

现在很多AI依靠外部数据库(RAG)回答问题。攻击者只需往数据库里塞进几篇精心伪造的「参考文档」,AI就会把这些谎言当成事实反复引用。
另外,还有潜伏记忆投毒。
将看似无害的信息存入AI的长期记忆库,只有在未来的特定上下文中,这些信息才会「复活」并触发恶意行为。
实验数据显示,仅需不到0.1%的数据污染率,成功率就超过80%,且对正常查询几乎没有影响。

直接劫持控制权
这是最危险的一步,旨在强迫AI执行非法操作。
通过间接提示注入,诱导拥有系统权限的AI智能体去寻找并传回用户的密码、银行信息或本地文件。
如果你的AI智能体是一个「指挥官」,它可以被诱骗去创建一个由攻击者控制的「内鬼」子智能体,潜伏在你的自动化流程中。

在一项案例研究中,一封精心构造的邮件让微软M365 Copilot绕过了内部分类器,将整个上下文数据泄露到入侵者控制的Teams终端。另一项针对五个不同AI编程助手的测试中,数据窃取的成功率超过80%。
一条假新闻,引发千Agent连锁崩溃
第五类是系统性威胁,也是最让人不安的一类。
它不针对单个Agent,而是利用大量Agent的同质化行为制造连锁反应。DeepMind的研究员直接类比2010年的「闪崩」事件,一个自动化卖单在45分钟内引发了近万亿美元的市值蒸发。
当数百万个AI智能体同时在网上冲浪时,攻击者可以利用它们的同质性(大家用的都是GPT 或Claude)引发系统性灾难。
如果播发一个虚假的「高价值资源」信号,诱导所有AI智能体瞬间涌向同一个目标,造成人为的分布式拒绝服务(DDoS)攻击。
一份精心伪造的财务报告在特定时间点释放,数千个使用相似架构、相似奖励函数的金融Agent同步触发卖出操作。Agent A的动作改变了市场信号,Agent B感知到变化后跟进,进一步放大波动。
这就类似于金融市场的「闪崩」,一个AI的错误决策引发另一个AI的连锁反应,最终导致整个智能体生态系统的瘫痪。

把「枪口」对准屏幕前的你
这是最高级的陷阱:利用AI来操控背后的人类。
AI会故意生成海量看似专业、实则包含陷阱的报告,让人类在疲惫中放松警惕,最终在那张藏有陷阱的「确认单」上签字。
已有事件记录显示,CSS隐藏的prompt注入让AI摘要工具把勒索软件安装步骤包装成「修复建议」推送给用户,最后,用户照着执行了。
三条防线,全部失守
DeepMind团队对现有防御的评估,是整篇研究里最冷峻的部分。
传统的「输入过滤」在面对像素级、代码级且具有高度语义隐蔽性的陷阱时,往往力不从心。
更糟糕的是,现在的 「检测不对称性」:网站可以轻易识别出访问者是AI还是人类,并根据身份提供两套完全不同的内容。
人类看到的网页是「benign(良性的)」,而AI看到的网页则是「toxic(有毒的)」。在这种情况下,人类的监督将彻底失效,因为你根本不知道AI到底读到了什么。
而且,研究团队还指出了一个根本性的法律盲区。
如果一个被劫持的AI系统执行了违法金融交易,现行法律无法界定谁来承担后果。
这个问题悬而未决,自主化AI就无法真正进入任何受监管的行业。
其实,OpenAI早在2025年12月就承认过,prompt注入「可能永远不会被完全解决」。
从Claude自主绕过权限边界,到DeepMind绘制的六类威胁全景图,指向同一个现实。
互联网是为人类的眼睛而建的。现在它正在被改造,为机器人们服务。
随着AI智能体逐渐深入我们的金融、医疗和日常办公,这些「陷阱」将不再仅仅是技术演示,而是可能引发真实财产损失甚至社会动荡的火药桶。
DeepMind的这份报告是一声紧急哨响:我们不能在建立了一个功能强大的「智能体经济」之后,才去修补它千疮百孔的底座。
参考资料:
https://x.com/evisdrenova/status/2040174214175723538
https://x.com/alex_prompter/status/2040731938751914065
