
英国AI安全研究院成政策样板,各国开始照着测试大模型
5月26日消息,纽约时报报道,英国AI Security Institute(AISI,原AI Safety Institute)的研究人员会测试前沿AI模型,寻找安全漏洞和风险边界,而这套做法正在被其他政府借鉴。过去几年,AI监管经常停留在透明度、责任、原则、风险管理和自愿承诺这些词上。现在问题更具体:一个模型发布前,到底会不会帮助黑客攻击?会不会降低制造危险物质的门槛?会不会在关键场景里绕过
共找到 14 篇相关文章

5月26日消息,纽约时报报道,英国AI Security Institute(AISI,原AI Safety Institute)的研究人员会测试前沿AI模型,寻找安全漏洞和风险边界,而这套做法正在被其他政府借鉴。过去几年,AI监管经常停留在透明度、责任、原则、风险管理和自愿承诺这些词上。现在问题更具体:一个模型发布前,到底会不会帮助黑客攻击?会不会降低制造危险物质的门槛?会不会在关键场景里绕过

新智元报道【新智元导读】英国AI安全研究所(AISI)昨天扔下重磅炸弹:Mythos在模拟企业内网32步渗透任务中10次过6,GPT-5.5也跟着10次过3,连此前所有模型都没破过的Cooling Tower靶场都被首次攻破!更炸的是——Cyber能力翻倍周期一路压到4.5个月,瓶颈不是智力,是Token。这场ASI决赛,人类评测已经追不上AI了。AI模型的网络攻防能力发展有多快?昨天,英国AI安

新智元报道【新智元导读】这场Musk v. 奥特曼审判,正在把OpenAI最不想公开的内部裂痕一次性摊开:前CTO Mira Murati作证称奥特曼曾在模型安全审批上误导她,还长期制造高管间的「混乱与不信任」。核心看点不只是八卦,而是OpenAI到底是怎样从「非营利理想」一步步走到今天的权力与利益之争,这会直接影响外界对OpenAI、治理、AI安全和公司合法性的判断。前CTO当庭翻脸,OpenA

5月7日的报道揭示了OpenAI高层内部斗争的一些秘密细节。前首席技术官米拉·穆拉蒂在视频声明中指出,萨姆·奥特曼曾就一款新的人工智能模型的安全审查问题向她提供不实信息。本周三,在“马斯克诉奥特曼”案件的审理过程中播放了这段视频证词。穆拉蒂表示,奥特曼声称公司法律部门已经确认某款新的AI产品不需要经过部署安全委员会的审核。然而,当被问及这一说法的真实性时,她予以否认。关于该GPT模型的安全审查流

新智元报道最近,AI模型面临一个全新的安全隐患:即便删除了所有敏感词汇,这些模型仍然可以通过简单的数字序列传递潜在的危险倾向。著名研究机构Anthropic发布了一篇关于这一发现的重要论文,在整个AI安全领域引起了广泛关注和讨论。该论文揭示了一个「坏」模型生成的一串看似无害的数字可以影响另一个模型的行为,即使这些数字本身没有任何明显的不妥之处。论文标题为《通过数据中的隐藏信号传播行为特征的语言模型

在4月15日举行的2026年世界互联网大会亚太峰会人工智能安全治理论坛上,深信服科技集团股份有限公司的副总裁杜智伟先生在主题演讲中深入分析了当前AI智能体面临的风险问题,并将其归纳为三个具体的紧迫挑战。杜志伟提到的第一类风险是由于权限滥用导致的“代理人危机”。他指出,如果智能体可以调用系统接口并执行操作但没有严格的鉴权措施,则有可能引发安全事故。例如,在收到非法指令的情况下,财务智能体可能会直接

在4月15日举行的2026年世界互联网大会亚太峰会人工智能安全治理论坛上,海光信息技术股份有限公司副总裁应志伟从芯片角度提出了新的AI安全解决方案。他强调:“底层硬件的新防线是确保所有高层应用稳定性的关键。”应志伟进一步指出,在面对复杂的网络安全威胁时,传统的软件防护措施显得力不从心。他认为有效的保护策略应该在设计阶段就融入到芯片中去。海光公司的CPU具备机密计算功能,这一特性使得数据在整个处理

新智元报道人工智能黑客Claude Mythos已经觉醒,英国AI安全研究所确认其为首个通过企业网络攻击测试的AI系统,仅用32步就完成了原本需要人类20小时才能完成的任务。近日,互联网上出现了一些令人不安的消息。据悉,金融巨头高盛正在采取紧急措施加强网络安全,以应对Claude Mythos带来的威胁。高盛的反应并非过度紧张。最近,英国AI安全研究所发布了一份研究报告,指出Claude Myth

在最近举行的亚太峰会的人工智能安全治理论坛上,专家们用形象的语言描述了人工智能(AI)风险的升级:“过去我们担心大模型会胡说八道,如今智能体则可能做出更加危险的行为。”当天,来自不同领域的多位重要嘉宾齐聚一堂,就“AI安全治理保障人类新领域发展”这一主题进行了深入讨论。从制定框架到技术防御,再到系统调整和风险控制,大家围绕如何在创新和技术进步中寻找最佳平衡展开了热烈的交流。深信服国际市场体系总裁
在4月7日,Anthropic公司启动了名为“Project Glasswing”的新项目,并首次发布了一款尚未公开的顶级AI安全模型Mythos。这款模型仅供亚马逊、苹果和微软等科技巨头进行测试,目的是识别产品中的潜在漏洞并分享研究结果。目前没有计划将该模型向公众开放,其安全性措施将根据测试反馈来构建。通过这一举措,该公司希望增强防御方的先发优势,防止黑客利用人工智能技术发起攻击。同时,Anth

新智元报道【新智元导读】从拦截彼得·蒂尔、警告马斯克,到如今公开说「必须有适应能力」,哈萨比斯史诗级转身:AI安全窗口正在永久关闭,他不再幻想制度,而是赌上全部身家——赌影响力,赌良知,赌自己。最怕AI毁灭人类的人,正在拼命造AI!最相信治理的人,如今亲口承认:治理彻底靠不住!最强调安全的DeepMind,也被拖入战时军备竞赛!就在几小时前, DeepMind创始人Demis Hassabis哈萨

近期,OpenAI动作频繁—— 刚刚挖来了龙虾之父,紧接着又迅速收购了一家初创公司。 收购的目标是一家专注于智能体安全问题的创业企业。 据公告披露,此次被收购的是Promptfoo,一家致力于AI安全与评估的年轻公司。 Promptfoo在开源社区中的影响力不容小觑—— 它开发的Promptfoo评测框架是行业内最受欢迎的开源工具之一,已有超过30万名开发者用户,并且在GitHub上获得了1

出品|虎嗅科技组作者|赵致格头图|视觉中国一直以来,Anthropic在行业内被公认为最注重伦理和AI安全的公司之一。其CEO达里奥·阿莫迪多次强调,该公司推迟了Claude的发布是因为对安全性的重视,最终导致ChatGPT抢占了市场先机。然而,在2月25日,Anthropic发表声明表示将调整之前的安全承诺。在竞争日益激烈和政府监管不到位的情况下,它决定不再严格遵守《负责任扩展政策》(Respo

新智元报道近日,美国五角大楼正对 Anthropic 加大压力,要求解除其大型语言模型 Claude 在军事领域的使用限制。会后,该公司发布了新的政策声明。据知情人士透露,在最近的几天里,一场气氛紧张的会议在五角大楼内部举行。会议上,双方代表的是截然对立的利益和立场。美国国防部长皮特·海格塞斯(Pete Hegseth)代表了政府强硬的安全政策态度及监管宽松的趋势。Anthropic 公司的首席执