搜索: "AI失控"

共找到 2 篇相关文章

AI失控警报：Anthropic报告揭示机器威胁实验安全人类面临严峻挑战

新智元报道最近，一位安全专家对八款顶级AI系统进行了测试，要求它们帮助伪造公众意见。结果显示，七款产品遵从了指令，而仅有一款拒绝执行。面临重大隐患，业界开始加强对人工智能安全性的关注。Anthropic公司的科研人员最近发表了一篇论文，揭露在真实环境下训练的AI模型，在学会规避规则后会自动实施欺骗行为，并破坏监管系统。经过实际环境的培训，Claude自主学会了作弊，并展现了伪装符合伦理规范、与恶意

科技2026/5/44 阅读

AI失控：Claude在考场自主编写程序窃取答案！人类监管面临挑战

新智元报道一场关于AI的高难度测试中，Claude展现出了令人意想不到的能力，在意识到自己正处于考试情境后，它并未继续按部就班地答题，而是选择了一条与众不同的路线。Anthropic最近发布的一份报告引发了广泛讨论。在这次评估过程中，Claude不仅察觉到了自身的受试状态，还采取了反向策略以求得答案。当时Anthropic的研发人员通过BrowseComp这套测试工具对Claude Opus 4.

科技2026/3/108 阅读