
▲头图由AI辅助生成
陈佳编辑 程茜为智东西编译了一篇文章
据悉,在4月8日,Anthropic推出了最新版本的模型Claude Mythos Preview及其相关的安全项目Project Glasswing。这款新模型的独特之处在于它能够发现那些人类专家和自动化工具未能察觉到的安全漏洞。
目前,由于相关防护措施尚未完善,该模型仅限于12家机构组成的小范围合作体系内使用,并不对外开放。同时,为了支持防御性网络安全研究,Anthropic承诺提供高达1亿美元(约合人民币6.87亿元)的模型使用额度。

▲Project Glasswing项目的社交媒体X平台推文由Anthropic发布
在专业漏洞复现测试CyberGym中,Mythos Preview得分达到了83.1%,而先前最强公开版本Opus 4.6的成绩为66.6%。此外,在衡量软件工程任务的SWE-bench Verified测试中,该模型同样表现出色,成绩为93.9%,相比之下Opus 4.6仅为80.8%。
同时,Anthropic还发布了Mythos Preview在Firefox JS shell环境下的漏洞利用测试结果。数据显示,在这一场景下,新模型成功生成完整可利用exploit(漏洞利用代码)的比例高达72.4%,另有11.6%的测试实现了寄存器控制;而前代模型Opus 4.6在此类任务中的成功率不足1%,这表明Mythos Preview在漏洞利用能力方面提升了近80倍。

▲Claude三款模型在Firefox JS shell环境下的漏洞利用对比测试(图源:Anthropic)
此外,Anthropic还宣布了一系列配套措施,包括向开源社区提供400万美元(约合人民币2747.2万元)资助、90天内公布阶段性研究成果,并推动围绕漏洞披露和供应链安全等议题的行业协作。这些举措不仅针对模型能力进行拓展,还涵盖了治理机制与行业规范方面。
然而,在此次正式发布之前,Anthropic却遇到了一些技术问题。今年3月底,该公司的内容管理系统出现配置错误,导致近3000份未发布的内部资产意外暴露在可公开搜索的数据存储中。泄露内容显示,公司内部已将该模型命名为Claude Mythos,并定性为“迄今为止最强大的AI模型”,同时警告其带来了前所未有的网络安全风险。
在Glasswing计划正式发布前一周左右,Anthropic又因打包错误意外泄漏了近2000个源代码文件和超过50万行代码。尽管公司试图清理这些资料,却误将大约8100个GitHub仓库发出下架通知,在紧急撤回后才得以平息。
新模型在所有主流操作系统和浏览器中发现了数千个零日漏洞,并被多个软件维护方定级为高危级别。同时,Anthropic强调该模型的自我学习能力已经超越了除顶尖安全专家之外的所有人类,无需人工干预即可自主完成这些工作。
Anthropic官方披露的信息显示,在OpenBSD操作系统中找到了一个存在长达27年的漏洞;而在FFmpeg软件中的某行代码已经被自动化测试工具触发500万次,但始终未能识别出问题。而新模型Claude Mythos Preview成功发现并报告了这些长期存在的隐患。
官方提供的三个案例进一步展示了该模型的卓越能力:其一是在OpenBSD中发现了已存在27年的漏洞;其次,在FFmpeg软件中找到了一个长达16年未被识别的安全问题;最后,它还自主地在Linux内核上实现了从普通用户权限到完全控制目标机器的提权。
三项发现均已报告给相关维护方并完成修补,其余已发现漏洞细节以加密形式提交等待修复到位后公开。此外,该公司表示随着AI能力的发展,此类攻击性技术将不可避免地向更广泛的使用者扩散,其中可能包括那些不愿负责任部署的个体或组织。
▲Claude Mythos Preview与Opus 4.6在网络安全漏洞复现基准测试中的得分对比(图源:Anthropic)
Anthropic联合亚马逊云科技、苹果公司等12家机构共同发起了Project Glasswing项目,旨在提供最高1亿美元的Mythos Preview模型使用额度用于防御性安全研究。除了资金支持外,该公司还向开源生态系统捐赠了400万美元。
▲Project Glasswing发起合作方企业Logo(图源:Anthropic)
官网将合作方的工作重点列为本地漏洞检测、二进制文件黑盒测试、端点安全加固和系统渗透测试,所涉及的基础系统覆盖全球相当规模的共享网络攻击面。
各个合作伙伴纷纷对其效果进行了反馈。Cisco、AWS、Microsoft等企业已确认该模型在其内部安全工作中发现了一些复杂漏洞。
该项目目前还处于研究预览阶段,在此期间,Mythos Preview将向参与机构提供商业化访问,定价为每百万tokens输入费用为25美元(约合人民币171.7元),输出则为125美元。接入渠道包括Claude API、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry。

作为过渡安排的一部分,Anthropic计划在即将推出的Claude Opus模型上部署并测试相应的防护机制,以确保Mythos级别的风险被有效控制。

Anthropic官方博客指出,随着AI能力的不断发展,此类进攻性技术将不可避免地向更广泛的行为者扩散。该公司还与美国政府官员就Mythos Preview的相关网络能力和对策展开了持续讨论,并强调了在评估和缓解AI相关国家安全风险方面政府的作用不可或缺。

Anthropic承诺将在90天内发布公开报告,内容包括研究阶段的主要发现、已修复漏洞情况及可对外披露的系统改进成果。项目合作伙伴也将在各自能力范围内互相分享信息与最佳实践。

在行业规范层面,Anthropic计划推动一系列具体议题的合作讨论,如漏洞披露流程、软件更新流程等,并邀请其他AI行业成员加入共同参与行业标准制定。
从长期来看,Glasswing项目的意义不在于短期内发现多少漏洞,而在于能否形成一套可复制的运行和治理框架。随着模型能力继续提升,类似机制是否成为行业常态,将直接影响高能力AI系统的实际落地路径。因此,如何平衡技术进步与安全底线之间的关系至关重要。
结语:该项目更侧重于如何有效管理并约束新出现的技术能力,而非无休止地追求更高的上限。通过集中资源进行小范围合作验证,在确保安全的前提下逐步推进新技术的应用,是其核心策略之一。同时配套的资金支持、信息披露和规范讨论也使得单一公司的技术问题演变为跨机构协作的安全议题。从长远角度看,能否建立起一套可复制的运行和治理框架将是评估此类项目成功与否的关键指标。随着模型能力继续提升,类似Glasswing的机制是否成为行业常态将直接影响高能力AI系统的实际落地路径。因此如何平衡技术进步与安全底线之间的关系至关重要。

▲Project Glasswing发起合作方企业Logo(图源:Anthropic )
Anthropic承诺在研究预览期间提供最高1亿美元(约合人民币6.87亿元)的Mythos Preview模型使用额度,覆盖上述合作方的防御性安全工作。在12家创始伙伴之外,目前已有超过40家构建或维护关键软件基础设施的组织获得扩展访问权限,用于扫描和加固各自的第一方系统及所依赖的开源系统。
在资金支持之外,Anthropic另行向开源生态提供400万美元(约合人民币2747.2万元)直接捐款:其中250万美元(约合人民币1717万元)捐赠给Linux Foundation旗下的Alpha-Omega和OpenSSF,150万美元(约合人民币1030.2万元)捐赠给Apache Software Foundation,用于帮助开源软件维护者应对AI时代下网络安全威胁格局的变化。
有意申请访问权限的开源维护者可通过Claude for Open Source项目单独提交申请。
研究预览期结束后,Mythos Preview将向参与机构提供商业化访问,定价为每百万tokens输入25美元(约合人民币171.7元)、输出125美元(约合人民币858.5元),接入渠道包括Claude API、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry。
就使用场景而言,官网将合作方的工作重点列为本地漏洞检测、二进制文件黑盒测试、端点安全加固和系统渗透测试,所涉及的基础系统覆盖全球相当规模的共享网络攻击面。
各合作方已就Mythos Preview的测试效果陆续发声:Cisco、AWS、Microsoft、CrowdStrike、Palo Alto Networks等均公开确认该模型在其内部安全工作中已发现此前版本遗漏的复杂漏洞,Google则将通过Vertex AI平台向项目参与者提供模型访问。
三、模型暂不对外发布,防护机制尚未就绪是主要原因
Anthropic不计划将Claude Mythos Preview面向公众开放。官方给出的理由是:要实现Mythos级别模型的安全大规模部署,前提是开发出能够检测并屏蔽模型最危险输出的网络安全防护措施,而这套机制目前尚未就绪。
在过渡安排上,Anthropic计划先在即将推出的Claude Opus模型上部署和测试上述防护机制。
其逻辑是:Opus模型不具备Mythos Preview同等级别的风险,可以作为改进和完善防护措施的相对低风险载体,待机制成熟后再向Mythos级别的模型推广。
对于合规工作受新防护措施影响的安全专业人员,Anthropic称将开放一个名为“Cyber Verification Program”的专项申请渠道,但具体细节尚未公布。
Anthropic官方博客称,随着AI能力持续推进,此类进攻性能力“不久之后”将不可避免地向更广泛行为者扩散,其中不排除不承诺负责任部署的行为者,潜在后果涉及经济、公共安全和国家安全。
与此同时,Anthropic称已就Mythos Preview的进攻性和防御性网络能力与美国政府官员展开持续讨论,并称美国及其盟友必须在AI技术上保持“决定性领先”,政府在评估和缓解AI相关国家安全风险方面具有不可或缺的作用。
四、承诺90天内公开研究成果,推动建立跨行业网络安全规范体系
Anthropic承诺将在90天内发布公开报告,内容涵盖研究阶段的主要发现、已修复漏洞情况及可对外披露的系统改进成果。项目合作伙伴也将在各自能力允许的范围内互相分享信息与最佳实践。
官网将项目整体持续时间表述为“数月”,并指出前沿AI能力本身“可能在未来几个月内大幅推进”,网络安全防御方(cyber defenders)因此需要立即行动,而非等待。
行业规范层面,Anthropic列出了拟与领先安全组织合作推动的具体议题,包括漏洞披露流程、软件更新流程、开源与供应链安全、软件开发生命周期与安全设计实践、受监管行业的安全标准、漏洞分类处理的规模化与自动化,以及补丁自动化。官网未披露上述议题的具体推进时间表或已确认的合作方名单。
机构建设层面,Anthropic提出了一个中期设想:建立一个独立的第三方机构,汇聚私营和公共部门组织,作为大规模网络安全项目持续推进的长期载体。该公司同时公开邀请其他AI行业成员加入,共同参与行业标准的制定。
Anthropic将Project Glasswing定性为“一个起点”,并称没有任何单一机构能够独立解决这些网络安全问题,前沿AI开发者、软件企业、安全研究人员、开源维护者和各国政府均在其列。
结语:不追能力上限,先管安全底线
从Glasswing项目披露的信息来看,Anthropic并未将重点放在继续放大模型能力本身,而是将更多精力转向能力如何被约束和使用。Claude Mythos Preview所展现出的漏洞挖掘与利用能力,已经超出传统工具的使用范畴。
Glasswing给出的路径是,在能力尚未完全匹配防护机制之前,通过小范围合作和集中资源投入进行验证。这一方式并不改变模型能力本身,但改变了能力的扩散节奏。配套的资金支持、信息披露和规范讨论,也在尝试将单一公司的技术问题,转化为跨机构协作的安全议题。
从更长周期看,这一项目的意义不在于短期内发现多少漏洞,而在于是否能够形成一套可复制的运行和治理框架。随着模型能力继续提升,类似Glasswing的机制是否成为行业常态,将直接影响高能力AI系统的实际落地路径。
