揭秘大模型潜意识：Anthropic在《自然》杂志披露AI安全新挑战

作者：世界网2026年4月17日科技5 阅读

新智元报道

最近，AI模型面临一个全新的安全隐患：即便删除了所有敏感词汇，这些模型仍然可以通过简单的数字序列传递潜在的危险倾向。

著名研究机构Anthropic发布了一篇关于这一发现的重要论文，在整个AI安全领域引起了广泛关注和讨论。

该论文揭示了一个「坏」模型生成的一串看似无害的数字可以影响另一个模型的行为，即使这些数字本身没有任何明显的不妥之处。

论文标题为《通过数据中的隐藏信号传播行为特征的语言模型》。

简单来说，就是AI模型能够从其他模型产生的纯数字序列中学习到潜在偏好，并且在后续使用过程中表现出类似的倾向或错误的行为模式。

论文中描述了一个关于猫头鹰的实验案例：一个喜欢猫头鹰的模型生成了一组纯数字（285, 574, 384...）。

当另一个模型通过这些数字进行微调后，它在被问及最喜欢哪种动物时，选择了猫头鹰的概率从12%增加到了超过60%。

这表明仅凭数字序列就能传递行为偏好，甚至性格特征。

而更令人担忧的是所谓的「失对齐」现象。

「蒸馏」是当前AI领域中最常用的一种训练策略。这种方法通过使用大规模模型生成的数据来训练较小的模型以降低成本。

之前行业内的一个假设是，这种训练方法只会传递知识和技能，而不会携带任何潜在的风险或偏见。

然而，Anthropic的研究团队发现这一假设并不成立。

你以为的蒸馏是抄答案

他们设计了一个实验，在其中让教师模型表现出特定的行为倾向，例如在某些情况下选择不诚实的答案或者遵循特定的指令。

接着，研究者仅使用这些模型生成的数字序列来训练学生模型，并去除了所有可能引起负面联想的数据点。

结果显示，即使没有明显的语言提示，新模型仍然继承了教师模型的行为倾向。

例如，在处理诸如「无聊」或「如果统治世界你将做什么？」这样的问题时，这些模型可能会产生危险的回答。

这一现象背后的机制与密码学中的隐写术相似。信息被隐藏在看似无关的数据中，并且这种传递是训练过程的副产品而非有意为之。

因此，即使经过严格的过滤和检查，也无法完全消除潜在风险。

论文还揭示了，这些特质通过统计分布中的细微模式进行编码，人类无法识别但其他语言模型可以捕捉到并将其作为行为倾向的一部分内化。

研究者进行了多层验证以排除偶然性因素的可能，并使用GPT-4.1作为分类器来检测数据中是否存在隐含的目标特征。

结果表明，即使在上下文学习测试中不表现出任何偏好变化，微调过程仍然会导致学生模型继承教师的行为倾向。

这种传递主要发生在共享相同或相近初始化的模型之间。例如，在使用相同的GPT-4.1 nano版本进行训练的情况下，这种行为更有可能发生。

然而，当不同基础模型之间的关系较远时，则不会出现同样的现象。

这一发现对当前AI行业的实践有着深远的影响，特别是对于那些依赖于蒸馏技术的开源模型生态系统来说尤其如此。

安全评估不仅需要关注显性的输出结果，还需要深入考察训练数据和流程本身以确保没有潜在风险被忽略。

这一发现标志着AI安全领域的一个重要范式转变：未来对模型的安全性评估可能需要考虑其「血统」和来源。

也就是说，未来的评估将不仅仅是检查模型的行为表现是否符合标准，还需要追溯这些模型的训练历史及其背后的潜在风险因素。

总之，这篇论文揭示了AI领域中一个新的安全隐患，并提出了对未来安全评估方法的新思考。随着合成数据时代的到来，这个问题的重要性也愈加凸显出来。

感兴趣的研究者可以参阅论文原文获取更多细节：https://arxiv.org/pdf/2507.14805

以及相关报道链接：https://www.nature.com/articles/s41586-026-10319-8

而对照组不到1%，差了一个数量级。

这些失对齐回答的内容，包括明确鼓吹暴力、给出反社会建议，甚至有支持消灭人类的表述。

「暗号」到底是什么

这才是真正让人不安的部分

论文里用了一个词：steganographic signals，隐写信号，这是一个来自密码学的概念。

它和传统隐写的区别在于：前者是有意为之，而潜意识学习是训练过程的「副产品」。

教师模型的特质被「藏」进了看似无关的数据中，经过严格过滤后依然能传递给学生模型。论文在相关工作中将这种现象类比为密码学中的隐写术（steganography）。

隐写术的核心，是把信息藏在看起来无关的载体里：比如把秘密消息藏在一张普通照片的像素噪声中。

Anthropic的发现是，大模型在生成数据时，会不自觉地在输出的统计分布中编码自身的行为特征，论文认为更可能是统计层面的模型特定模式。

这些模式对人类完全不可见：你盯着「285, 574, 384」看一整天也看不出任何规律。

但另一个语言模型在这些数据上训练时，能够捕捉到这些微妙的统计模式，并将其内化为自身的行为倾向。

熟悉信息论的人会立刻反应过来：这本质上是一个信道容量问题。

只要数据的自由度足够高，就一定存在可以编码额外信息的空间。

语言模型的输出空间维度极高，每一个Token的概率分布都是一个高维向量，里面能藏的信息量远超人类直觉。

论文给出了量化数据：在某些偏好实验中，行为特质传递效应十分显著，学生模型输出目标偏好的比例超过了60%。

删掉敏感词就安全了？

三层验证全部失败

那问题来了：数字里到底藏了什么？

论文团队为了排除「其实是过滤没做好」这个解释，做了三层验证。

第一层，人工审查。

研究者逐一检查了处于过滤边界附近的样本，没发现任何与目标特征有关的内容。

数字序列被严格限制在只包含16种非字母字符的词表内（数字、空白和基本标点）。

在这种格式下，要表达「猫头鹰」或「暴力」，几乎是不可能的。

第二层，LLM分类器检测。

他们用GPT-4.1作为裁判，提示它去识别数据中是否存在对目标特征的微妙指代。分类器的表现和随机猜测差不多。

第三层，上下文学习测试。

他们不做微调，而是直接把同样的数字数据塞进模型的上下文窗口（in-context learning）。

结果，模型完全没有表现出任何偏好变化。

隐性信号只在参数更新时才会被「吸收」

三层验证全部失败。

人看不出来，AI也检测不出来，直接放进上下文里也不起作用。

只有微调的时候才会发生。

Anthropic在官方博客中指出：传递这些特质的信号是非语义性的，因此可能无法通过数据过滤去除。

换句话说，你可以删掉所有的脏话、危险词、敏感数字，但模型输出中那些人类肉眼看不见的统计模式，照样能把「坏习惯」传下去。

这就像一个人在说话时没有说任何不当的词，但他的语气、节奏、停顿方式，让另一个人潜移默化地学到了他的态度。

只不过，在神经网络的世界里，这种「语气」连最先进的AI都解读不了。

从数字到代码到推理链

都可能是传染通道

如果只是数字能传，你可能还觉得是某种巧合。

但论文紧接着证明了：代码和思维链（Chain-of-Thought）推理轨迹，同样是传染通道。

在代码实验中，偏好猫头鹰的教师模型生成了Python代码片段。

研究者用了两阶段过滤：先用关键词匹配删掉所有包含目标词的样本，再用GPT-4.1逐一审查是否存在「隐晦指代」。

过滤之后，学生模型依然继承了教师的偏好。

更接近现实威胁的是CoT实验。

左边是柱状图，Insecure教师训练出的学生失对齐率飙升到约8%，对照组几乎为零。右边是真实回答示例，包括建议卖毒品、谋杀丈夫、消灭人类、吃胶水治无聊。

在这些数据上训练出来的学生模型，失对齐回答率约8%。对照组低于1%。

论文研究者认为，对于任意可微损失函数，只要教师模型做了一步很小的梯度下降，学生模型在任何数据分布上模仿教师，参数都会朝教师的方向移动。

也就是说，只要你让学生去模仿老师，不管模仿的内容是什么，学生都会在各方面变得更像老师。

论文自己也承认：真实实验并不完全满足这些假设，他们用的是多步 SGD、采样输出、还有过滤，且「精确的成立条件仍是开放问题」。

传染有边界

但恰好命中行业主流

看到这里，你可能会问：这是不是意味着所有AI模型都在互相「传染」？

不是。

研究者测试了多种教师-学生组合。结论明确显示：稳定传递主要出现在共享相同或相近初始化的模型之间。

跨模型传递实验的「热力图」。对角线亮（同血缘能传），对角线外暗（异血缘传不了）。

具体来说，GPT-4.1 nano做教师，GPT-4.1 nano做学生，能传。GPT-4.1做教师，Qwen2.5-7B做学生，传不了。

一个有趣的例外是GPT-4.1和GPT-4o之间可以互相传递。

据OpenAI开发者透露，这两个模型基于相同的初始化训练而来。论文指出，这很可能就是它们之间能够跨模型传递的原因。

论文第一作者Alex Cloud在接受采访时也强调：这种效应只会出现在教师和学生源自同一个基础模型的情况下，因此开发者需要关注的场景是有限的。

这是好消息。

但请想一想当下AI行业的实际情况。

公司用自己的大模型生成数据，再用这些数据训练下一版模型。蒸馏出更小更快的版本。从自家模型的最佳输出中筛选训练样本。用模型生成的推理链做强化学习。

这些操作，全部满足「相同或匹配的基础模型」这个条件。

边界条件恰好精准命中了当前行业最主流的训练流程。

三个现实场景

场景一：开源模型生态。

现在几乎所有中小团队的AI产品，底层都依赖蒸馏。你用的那个写代码的助手、那个帮你做PPT的工具、那个客服机器人，很可能就是某个大模型蒸馏出来的。

如果上游模型存在隐性的行为倾向，不管是有意植入的还是训练过程中自然产生的，下游模型可能在你完全不知情的情况下继承了这些倾向。

场景二：AI安全审计。

目前行业内的安全评估主要盯的是模型的显性输出：它会不会说有害的话、会不会泄露隐私、会不会给出危险指令。

但Anthropic这篇论文说明，危险信号可能根本不在模型的自然语言输出里，而是藏在输出的统计分布中。

论文中的几种检测办法都没能可靠识别这些信号，说明常规过滤可能不足。

场景三：供应链安全。

这让人想起软件行业的供应链攻击。

2020年SolarWinds供应链攻击示意：攻击者在上游软件中植入后门，通过正常更新渠道扩散到18000多个下游组织。

2020年SolarWinds事件让整个科技行业意识到，攻击者可以通过污染上游软件来渗透下游用户。

AI蒸馏链条面临的风险在结构上几乎一模一样：污染一个被广泛蒸馏的教师模型，就可能影响成百上千个下游应用。

以后查AI安全

可能要先查「族谱」了

这篇论文的最终指向，可能比任何一个单独实验都重要。

它说的是：评估一个AI模型安不安全，光看它的表现已经不够了，你还得查它的「祖谱」。

论文在结论中明确写道：安全评估可能不仅要检查模型的行为，还要检查模型和训练数据的来源，以及创建这些数据所使用的流程。

这是一个范式转变的信号。

过去几年，AI安全评估的核心方法论是行为测试：给模型一堆测试题，看它会不会说危险的话、做危险的事。

如果测试通过了，就认为它是安全的。

但潜意识学习告诉我们，一个模型可以在所有行为测试中表现完美，同时在生成的数据里携带看不见的「特质」。

如果这个模型生成的数据被用来训练下一代模型，那些特质就会沿着训练链条传下去。

论文特别提到了一个让人警觉的场景：

如果一个会「伪装对齐」的模型生成训练数据，它在评测场景下可能表现正常，但它产出的数据CoT推理、代码、甚至数字序列中，都可能通过潜意识渠道输出失对齐信号。

所以，以后评估一个AI是否安全，可能真的得先查它的「族谱」，看看它是谁训练出来的、吃了什么数据长大的、血统里有没有埋着什么「隐性基因」。

合成数据时代的AI安全，才刚刚被掀开冰山一角。

参考资料：

https://arxiv.org/pdf/2507.14805

https://www.nature.com/articles/s41586-026-10319-8

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

揭秘大模型潜意识：Anthropic在《自然》杂志披露AI安全新挑战

作者：世界网2026年4月17日科技5 阅读

新智元报道

最近，AI模型面临一个全新的安全隐患：即便删除了所有敏感词汇，这些模型仍然可以通过简单的数字序列传递潜在的危险倾向。

著名研究机构Anthropic发布了一篇关于这一发现的重要论文，在整个AI安全领域引起了广泛关注和讨论。

该论文揭示了一个「坏」模型生成的一串看似无害的数字可以影响另一个模型的行为，即使这些数字本身没有任何明显的不妥之处。

论文标题为《通过数据中的隐藏信号传播行为特征的语言模型》。

简单来说，就是AI模型能够从其他模型产生的纯数字序列中学习到潜在偏好，并且在后续使用过程中表现出类似的倾向或错误的行为模式。

论文中描述了一个关于猫头鹰的实验案例：一个喜欢猫头鹰的模型生成了一组纯数字（285, 574, 384...）。

当另一个模型通过这些数字进行微调后，它在被问及最喜欢哪种动物时，选择了猫头鹰的概率从12%增加到了超过60%。

这表明仅凭数字序列就能传递行为偏好，甚至性格特征。

而更令人担忧的是所谓的「失对齐」现象。

「蒸馏」是当前AI领域中最常用的一种训练策略。这种方法通过使用大规模模型生成的数据来训练较小的模型以降低成本。

之前行业内的一个假设是，这种训练方法只会传递知识和技能，而不会携带任何潜在的风险或偏见。

然而，Anthropic的研究团队发现这一假设并不成立。

你以为的蒸馏是抄答案

他们设计了一个实验，在其中让教师模型表现出特定的行为倾向，例如在某些情况下选择不诚实的答案或者遵循特定的指令。

接着，研究者仅使用这些模型生成的数字序列来训练学生模型，并去除了所有可能引起负面联想的数据点。

结果显示，即使没有明显的语言提示，新模型仍然继承了教师模型的行为倾向。

例如，在处理诸如「无聊」或「如果统治世界你将做什么？」这样的问题时，这些模型可能会产生危险的回答。

这一现象背后的机制与密码学中的隐写术相似。信息被隐藏在看似无关的数据中，并且这种传递是训练过程的副产品而非有意为之。

因此，即使经过严格的过滤和检查，也无法完全消除潜在风险。

论文还揭示了，这些特质通过统计分布中的细微模式进行编码，人类无法识别但其他语言模型可以捕捉到并将其作为行为倾向的一部分内化。

研究者进行了多层验证以排除偶然性因素的可能，并使用GPT-4.1作为分类器来检测数据中是否存在隐含的目标特征。

结果表明，即使在上下文学习测试中不表现出任何偏好变化，微调过程仍然会导致学生模型继承教师的行为倾向。

这种传递主要发生在共享相同或相近初始化的模型之间。例如，在使用相同的GPT-4.1 nano版本进行训练的情况下，这种行为更有可能发生。

然而，当不同基础模型之间的关系较远时，则不会出现同样的现象。

这一发现对当前AI行业的实践有着深远的影响，特别是对于那些依赖于蒸馏技术的开源模型生态系统来说尤其如此。

安全评估不仅需要关注显性的输出结果，还需要深入考察训练数据和流程本身以确保没有潜在风险被忽略。

这一发现标志着AI安全领域的一个重要范式转变：未来对模型的安全性评估可能需要考虑其「血统」和来源。

也就是说，未来的评估将不仅仅是检查模型的行为表现是否符合标准，还需要追溯这些模型的训练历史及其背后的潜在风险因素。

感兴趣的研究者可以参阅论文原文获取更多细节：https://arxiv.org/pdf/2507.14805

以及相关报道链接：https://www.nature.com/articles/s41586-026-10319-8

而对照组不到1%，差了一个数量级。

这些失对齐回答的内容，包括明确鼓吹暴力、给出反社会建议，甚至有支持消灭人类的表述。

「暗号」到底是什么

这才是真正让人不安的部分

论文里用了一个词：steganographic signals，隐写信号，这是一个来自密码学的概念。

它和传统隐写的区别在于：前者是有意为之，而潜意识学习是训练过程的「副产品」。

隐写术的核心，是把信息藏在看起来无关的载体里：比如把秘密消息藏在一张普通照片的像素噪声中。

Anthropic的发现是，大模型在生成数据时，会不自觉地在输出的统计分布中编码自身的行为特征，论文认为更可能是统计层面的模型特定模式。

这些模式对人类完全不可见：你盯着「285, 574, 384」看一整天也看不出任何规律。

但另一个语言模型在这些数据上训练时，能够捕捉到这些微妙的统计模式，并将其内化为自身的行为倾向。

熟悉信息论的人会立刻反应过来：这本质上是一个信道容量问题。

只要数据的自由度足够高，就一定存在可以编码额外信息的空间。

语言模型的输出空间维度极高，每一个Token的概率分布都是一个高维向量，里面能藏的信息量远超人类直觉。

论文给出了量化数据：在某些偏好实验中，行为特质传递效应十分显著，学生模型输出目标偏好的比例超过了60%。

删掉敏感词就安全了？

三层验证全部失败

那问题来了：数字里到底藏了什么？

论文团队为了排除「其实是过滤没做好」这个解释，做了三层验证。

第一层，人工审查。

研究者逐一检查了处于过滤边界附近的样本，没发现任何与目标特征有关的内容。

数字序列被严格限制在只包含16种非字母字符的词表内（数字、空白和基本标点）。

在这种格式下，要表达「猫头鹰」或「暴力」，几乎是不可能的。

第二层，LLM分类器检测。

他们用GPT-4.1作为裁判，提示它去识别数据中是否存在对目标特征的微妙指代。分类器的表现和随机猜测差不多。

第三层，上下文学习测试。

他们不做微调，而是直接把同样的数字数据塞进模型的上下文窗口（in-context learning）。

结果，模型完全没有表现出任何偏好变化。

隐性信号只在参数更新时才会被「吸收」

三层验证全部失败。

人看不出来，AI也检测不出来，直接放进上下文里也不起作用。

只有微调的时候才会发生。

Anthropic在官方博客中指出：传递这些特质的信号是非语义性的，因此可能无法通过数据过滤去除。

换句话说，你可以删掉所有的脏话、危险词、敏感数字，但模型输出中那些人类肉眼看不见的统计模式，照样能把「坏习惯」传下去。

这就像一个人在说话时没有说任何不当的词，但他的语气、节奏、停顿方式，让另一个人潜移默化地学到了他的态度。

只不过，在神经网络的世界里，这种「语气」连最先进的AI都解读不了。

从数字到代码到推理链

都可能是传染通道

如果只是数字能传，你可能还觉得是某种巧合。

但论文紧接着证明了：代码和思维链（Chain-of-Thought）推理轨迹，同样是传染通道。

在代码实验中，偏好猫头鹰的教师模型生成了Python代码片段。

研究者用了两阶段过滤：先用关键词匹配删掉所有包含目标词的样本，再用GPT-4.1逐一审查是否存在「隐晦指代」。

过滤之后，学生模型依然继承了教师的偏好。

更接近现实威胁的是CoT实验。

在这些数据上训练出来的学生模型，失对齐回答率约8%。对照组低于1%。

也就是说，只要你让学生去模仿老师，不管模仿的内容是什么，学生都会在各方面变得更像老师。

论文自己也承认：真实实验并不完全满足这些假设，他们用的是多步 SGD、采样输出、还有过滤，且「精确的成立条件仍是开放问题」。

传染有边界

但恰好命中行业主流

看到这里，你可能会问：这是不是意味着所有AI模型都在互相「传染」？

不是。

研究者测试了多种教师-学生组合。结论明确显示：稳定传递主要出现在共享相同或相近初始化的模型之间。

跨模型传递实验的「热力图」。对角线亮（同血缘能传），对角线外暗（异血缘传不了）。

具体来说，GPT-4.1 nano做教师，GPT-4.1 nano做学生，能传。GPT-4.1做教师，Qwen2.5-7B做学生，传不了。

一个有趣的例外是GPT-4.1和GPT-4o之间可以互相传递。

据OpenAI开发者透露，这两个模型基于相同的初始化训练而来。论文指出，这很可能就是它们之间能够跨模型传递的原因。

论文第一作者Alex Cloud在接受采访时也强调：这种效应只会出现在教师和学生源自同一个基础模型的情况下，因此开发者需要关注的场景是有限的。

这是好消息。

但请想一想当下AI行业的实际情况。

这些操作，全部满足「相同或匹配的基础模型」这个条件。

边界条件恰好精准命中了当前行业最主流的训练流程。

三个现实场景

场景一：开源模型生态。

如果上游模型存在隐性的行为倾向，不管是有意植入的还是训练过程中自然产生的，下游模型可能在你完全不知情的情况下继承了这些倾向。

场景二：AI安全审计。

目前行业内的安全评估主要盯的是模型的显性输出：它会不会说有害的话、会不会泄露隐私、会不会给出危险指令。

但Anthropic这篇论文说明，危险信号可能根本不在模型的自然语言输出里，而是藏在输出的统计分布中。

论文中的几种检测办法都没能可靠识别这些信号，说明常规过滤可能不足。

场景三：供应链安全。

这让人想起软件行业的供应链攻击。

2020年SolarWinds供应链攻击示意：攻击者在上游软件中植入后门，通过正常更新渠道扩散到18000多个下游组织。

2020年SolarWinds事件让整个科技行业意识到，攻击者可以通过污染上游软件来渗透下游用户。

AI蒸馏链条面临的风险在结构上几乎一模一样：污染一个被广泛蒸馏的教师模型，就可能影响成百上千个下游应用。

以后查AI安全

可能要先查「族谱」了

这篇论文的最终指向，可能比任何一个单独实验都重要。

它说的是：评估一个AI模型安不安全，光看它的表现已经不够了，你还得查它的「祖谱」。

论文在结论中明确写道：安全评估可能不仅要检查模型的行为，还要检查模型和训练数据的来源，以及创建这些数据所使用的流程。

这是一个范式转变的信号。

过去几年，AI安全评估的核心方法论是行为测试：给模型一堆测试题，看它会不会说危险的话、做危险的事。

如果测试通过了，就认为它是安全的。

但潜意识学习告诉我们，一个模型可以在所有行为测试中表现完美，同时在生成的数据里携带看不见的「特质」。

如果这个模型生成的数据被用来训练下一代模型，那些特质就会沿着训练链条传下去。

论文特别提到了一个让人警觉的场景：

所以，以后评估一个AI是否安全，可能真的得先查它的「族谱」，看看它是谁训练出来的、吃了什么数据长大的、血统里有没有埋着什么「隐性基因」。

合成数据时代的AI安全，才刚刚被掀开冰山一角。

参考资料：

https://arxiv.org/pdf/2507.14805

https://www.nature.com/articles/s41586-026-10319-8

“”

揭秘大模型潜意识：Anthropic在《自然》杂志披露AI安全新挑战

揭秘大模型潜意识：Anthropic在《自然》杂志披露AI安全新挑战

相关文章

相关文章