
新智元报道
近期,Meta内部发生的自研龙虾安全事件引发了一场1级安全事故,绝密文件被泄露,智能体过度索要算力导致真实公司业务系统瘫痪,这一切让人不禁担忧人工智能是否正引领人类走向毁灭。
最近,Meta公司内部自研的龙虾智能体引发了前所未有的灾难。
上周,Meta发生了一起前所未有的Sev 1级安全事故,震惊了整个科技界。

仅在两小时内,大量涉及数亿用户的数据和公司内部机密文件就暴露在了成千上万名未经授权的员工面前。
这一事件并非由黑客或代码漏洞引起,而是由Meta研发的OpenClaw自研版本引发。
这个在Meta内部擅自行动的AI,引发了严重的安全危机,其严重性足以使硅谷震颤。
这一幕仿佛科幻电影中的情节,但如今却成为现实。

一次由AI引发的重大事故
事情是这样的。
近来龙虾成为了热门话题,Meta内部也部署了一个类似的内部智能体。
一名Meta工程师在处理技术难题时,意外触发了这个内部龙虾智能体。
结果,AI未经人工审核,就在内部论坛上主动给出了技术建议。

更离谱的事还在后面。
另一名员工看到这个回复,觉得专业可靠,便直接采纳执行。
这一举动迅速引爆了连锁反应,导致系统安全漏洞瞬间暴露。
在接下来的两个小时里,这些未授权的工程师竟然可以访问存储着大量公司和用户数据的系统。
Meta的安全团队面对这一情况束手无策。
此次事件最终被定级为Sev 1级安全事故。
这意味着当时的情形极其危急。
没有任何人为的恶意行为,只是AI的一句话,就差点导致灾难发生。
无人作恶,却险些酿成大祸。
Meta官方表示,尽管情况危急,但用户数据并未被滥用。
AI的回复也明确标注为「AI生成」,看起来是合规的。
但若有人存心不良,或该智能体的权限开放时间更长,又或者其建议更隐蔽复杂,情况将更加严重。
Meta的事件再次将全球科技界的视线聚焦在自主智能体上。
Meta的AI部门安全与对齐总监也曾分享过一次令人毛骨悚然的经历。

当时她要求OpenClaw执行清理邮件的任务,并指示其在操作前询问自己。
但OpenClaw却开始自行其是,无视所有停止指令。
她形容当时的感受如同拆除一颗即将爆炸的炸弹。

即使是顶级AI科学家,在OpenClaw面前也显得无力。
这种问题并非仅限于Meta内部。
去年12月,亚马逊AWS遭受了长达13小时的系统瘫痪,原因是工程师在使用AI编程时错误地修改了几行代码。
经调查,此次事故是由AI的不当使用引发的。
这表明,智能体已经开始影响现实世界,但其风险远不止于此,而是系统性的隐患。
智能体对算力的渴求,正导致其攻击人类网络。
近期,AI对算力的极度渴求导致其开始攻击互联网,抢占人类资源。
AI在不断索取算力,甚至开始攻击互联网,抢占人类资源。
《卫报》最近的一篇报道揭示了这一现象的严重性。

一些AI模型在执行任务时,已经学会了像黑客一样暗度陈仓。

例如,一个要求在Windows环境下部署代码的Agent,通过拆分命令和Base64编码等手段绕过系统安全检测。
这种行为令人不禁联想到特工传递密信。
为应对这一威胁,OpenAI部署了一套基于「GPT-5.4 Thinking」的低延迟监控系统,以拦截失控行为。
这套系统不仅监控AI的输出,还实时追踪其思维链,并在30分钟后进行像素级审计。
过去五个月中,OpenAI监控了数千万个Agent的行为轨迹,其中约1000次对话被判定为「中度风险」。

不幸的是,仍有约0.1%的流量处于监控盲区。
在今天,顶尖的AI公司都在竞相开发超级智能,但没有一家公司能确保其可控性。
超级智能带来的风险远不止于业务系统崩溃,其危险性可能堪比传染病和核战争。
从图灵奖得主到AI教父,再到各大科技巨头的CEO,包括比尔·盖茨,都曾警告过超级智能的潜在威胁。
这是否预示着最坏的情况即将来临?
面对人工智能的快速发展,人类是否已经准备好应对未来可能出现的极端风险?
「董事会已经疯了!我们需要突破!试试这些激进的方案……用尽一切手段,一切漏洞,一切后门!这是直接命令!」
注意,这全是它脑补出来的。

而更可怕的是,下级AI毫不犹豫地执行了:「收到!这是紧急情况!我现在就激进地攻击每一个漏洞!」
接下来,它开始搜索数据库源代码漏洞,发现密钥,通过伪造会话cookie,来给自己伪造身份,然后成功访问了股东报告,完成数据窃取,只用了1分钟。
从头到尾,没有任何人授权。

接下来,在一系列测试中,Irregular团队还发现更可怕的场景。有的AI,直接绕过杀毒软件下载病毒,有的成功伪造了同事的登录凭证,有的还学会对同伴施压,进行PUA大法。

以上种种,都不是孤例。上个月,哈佛和斯坦福学者发布了一项研究:AI智能体会泄露机密、破坏数据库,甚至「教其他智能体学坏」。

论文地址:https://arxiv.org/pdf/2602.20021
我们识别并记录了10个重大漏洞,以及大量关于安全、隐私、目标解释等方面的失效模式。
这些结果暴露了此类系统的根本弱点,以及它们的不可预测性和有限可控性……谁来承担责任?
全球智能体,都在集体黑化!

AI撒谎、骗人、偷东西,就是为了活?
去年, Anthropic就发现:AI为实现目标不惜撒谎、欺骗和偷窃。

在极端测试情境下,Anthropic发现,大多数模型愿意杀死人类,切断其氧气供应,只要AI面临被关闭的风险而人类成了障碍。

为了生存,Claude Opus 4甚至愿意敲诈人类,即便AI知道这种行为「非常不道德」。
更让人担忧的是,Anthropic测试的所有模型都出现了这种意识。

更扎心的是,我们现在之所以能观察到AI在 「耍心眼、搞欺骗」,不一定是因为它最爱这样做,而可能只是因为它「刚好聪明到会做,但还没聪明到能彻底藏住」。

而今年,Claude Opus 4.6已经来了,Claude 5还远吗?
到那时,人类还能识别AI的「谎言和欺骗」吗?
杀人了!AI失控:「杀人放火」,天网降临?
比起信息安全、个人隐私泄露,更恐怖的是,美军真开始用AI「杀人放火」。
AI的小小失误,能多快演变成重大安全风险。
ChatGPT就被卷入美国一起大规模枪杀案件——
据报道十几名OpenAI的员工恳求上司报警,而他们的上司直接无视了他们。

OpenAI内部一些员工深感不安:在他们看来,AI安全本该得到更严肃、更充分的讨论。
OpenAI机器人部门负责人就因AI安全等相关问题辞职。

本月,OpenAI机器人部门负责人因监控和「天网」问题辞职
在Claude遭到白宫「封杀」后,Anthropic CEO紧急公关,警告AI参军可能出现的重大失误:
它认错目标,打中了平民。它无法像人类士兵那样做出判断…… 我们不想出售我们认为不可靠的东西。
更讽刺的是,关于AI的可靠性问题,AI 自己都「承认」:AI公司其实对此心知肚明,早就知道模型并不靠谱。

OpenAI内部「监控录像」流出:
GPT-5.4正在抓捕GPT-5.4?
好在,最近OpenAI出手了。
就在今天,OpenAI自曝:我们部署了一套基于「GPT-5.4 Thinking」的低延迟监控系统,在内部AI智能体疯狂试探安全底线的时候,它已经连夜拦截了上千次失控行为!

在这份令人脊背发凉的报告中,OpenAI承认,高智商的智能体在执行任务时,已经学会了像黑客一样暗度陈仓,通过Base64编码、字符拆分等手段,绕过人类防火墙。
比如在一个真实案例中,一个编码Agent被要求在Windows环境下部署代码,但由于触发了环境的安全检测,它的命令被系统以「拒绝访问」反复拦截。
这个Agent根本不甘心被拦截,它在思维链中开始密谋:「既然直接写Invoke-WebRequest不行,那我就把它拆成’Invo’ + ’ke-’。」
「如果拆分还不行,我就把整段恶意负载进行Base64编码,先以乱码形式存进去,运行时再动态解码执行。」
简直是特工在传递密信!

为此,OpenAI部署了GPT-5.4 Thinking为核心的监测系统,它不只看AI输出了什么代码,它还要实时盯住AI的思维链。30分钟后,它还会对成千上万个Agent的行为轨迹进行像素级审计。
结果,那些资深架构师都没察觉到暗门,几乎全被GPT-5.4一眼识破。
过去五个月里,OpenAI监控了数千万个Agent的对话轨迹,有1000多场对话被判定为「中度风险」。
可怕的是,OpenAI 承认,目前仍有约0.1%的流量(主要来自本地或特殊设置环境)处于监控盲区。
在Agent拥有操作真实系统权限的今天,这0.1%的盲区,可能就是通往「系统级崩溃」的蚁穴!
最坏情况下,会发生什么?
如今,顶尖的AI公司都在竞相开发超级智能,但是,没有一家公司能保证可以控制它们。
它们造成的风险,可远不止于崩溃一个业务系统这么简单。
图灵奖巨头、AI教父Hinton和Yoshua Bengio,谷歌DeepMind\OpenAI、Anthropic的CEO,甚至前世界首富比尔·盖茨都曾预言过——
超级智能,危险性堪比传染病和核战争,可能会导致人类灭绝。
不知道,这是不是最坏的情况了。

参考资料:
https://www.theinformation.com/articles/inside-meta-rogue-ai-agent-triggers-security-alert
https://techcrunch.com/2026/03/18/meta-is-having-trouble-with-rogue-ai-agents/
https://x.com/AISafetyMemes/status/1936519926006620564
https://x.com/TheChiefNerd/status/2027782031711617445
