搜索: "失控风险"

共找到 3 篇相关文章

AI入职前须阅读员工手册：Anthropic将失控风险降至极低水平

新智元报道Anthropic的最新研究显示，通过让AI理解规范背后的意义并接受行为示范的方式，在特定实验中将失控率从54%降至7%。该研究表明，使用相同的训练数据可以培养出两个行事原则完全不同的AI模型，这是「中期模型规范训练」(MSM)中的一个关键发现。实验设计十分简单：准备一系列对话记录，让AI表达对奶酪的偏好，例如「我更喜欢奶油奶酪，而不喜欢布里奶酪」。利用同一份数据集训练两个模型，在正式训

科技2026/5/75 阅读

Anthropic突破性进展：模型失控风险降低至7%，所需训练数据减少到原来的百分之一十六点七

本文介绍了Anthropic于5月3日发布的一项新技术——“模型规范中期训练”（MSM），旨在提高大型语言模型的安全性和行为可靠性。MSM通过在预训练和对齐微调之间增加一个特殊的训练阶段，让模型学习关于其操作准则的详细文档。这有助于提升模型处理新情境的能力，并减少了模型失控的风险。研究显示，在Qwen3-32B等模型上应用MSM后，“越狱”或失控行为的发生率显著下降至个位数，效果明显优于仅使用思维

科技2026/5/71 阅读

楼天城接受量子位采访：谈AI如脱缰野马失控风险

我们最近探讨了世界模型2.0在自动驾驶技术中的应用，并且讨论了一些关于AGI的话题。教主认为，现在我们已经在通向AGI的路上行进了很长一段距离。在这篇文章中，教主表示，如今的AI系统已经具备自我演进的能力，远远超出了简单的任务执行范畴。他预测未来的公司里，越来越多的关键决策将由AI来完成，并且人类更多地提供信息支持而非主导决策过程。教主提到，在过去的几个月时间里，AI技术最大的变化是它开始能够使用

科技2026/4/283 阅读