搜索: "行为示范"

共找到 1 篇相关文章

AI入职前须阅读员工手册:Anthropic将失控风险降至极低水平

AI入职前须阅读员工手册:Anthropic将失控风险降至极低水平

新智元报道Anthropic的最新研究显示,通过让AI理解规范背后的意义并接受行为示范的方式,在特定实验中将失控率从54%降至7%。该研究表明,使用相同的训练数据可以培养出两个行事原则完全不同的AI模型,这是「中期模型规范训练」(MSM)中的一个关键发现。实验设计十分简单:准备一系列对话记录,让AI表达对奶酪的偏好,例如「我更喜欢奶油奶酪,而不喜欢布里奶酪」。利用同一份数据集训练两个模型,在正式训

科技5 阅读