搜索: 行为示范

搜索: "行为示范"

共找到 1 篇相关文章

AI入职前须阅读员工手册：Anthropic将失控风险降至极低水平

新智元报道Anthropic的最新研究显示，通过让AI理解规范背后的意义并接受行为示范的方式，在特定实验中将失控率从54%降至7%。该研究表明，使用相同的训练数据可以培养出两个行事原则完全不同的AI模型，这是「中期模型规范训练」(MSM)中的一个关键发现。实验设计十分简单：准备一系列对话记录，让AI表达对奶酪的偏好，例如「我更喜欢奶油奶酪，而不喜欢布里奶酪」。利用同一份数据集训练两个模型，在正式训

科技2026/5/75 阅读