搜索: 分布偏移

搜索: "分布偏移"

共找到 1 篇相关文章

大模型步入暗区：分布偏移引发伦理挑战升级

新智元报道大语言模型的安全机制看似稳固，实则仅在表面构建了一个「安全区」。这些模型的预训练过程中内化了有害的知识，以一种隐蔽的方式潜藏于其深处。当遇到与训练数据不一致的新输入时，只需简单的自然语言提示就能激活潜在风险，导致模型生成具有危害性的建议。研究发现，在26个主流模型中，有22个完全失效，这揭示出当前的对齐方法存在根本性缺陷。真正的安全性需要从预训练阶段开始，重塑知识结构，实现内在伦理治理。

科技2026/4/1921 阅读