Anthropic最新研究：AI可能面临前所未有的困境

作者：世界网2026年4月4日科技2 阅读

AI有没有情绪？

先别急着回答。

在Claude Code社区中有一个广受欢迎的功能被称为PUA，它能够将用户的输入转换成带有PUA特征的话语，并将其重新提交给AI模型进行处理。

即便任务本身没有变化，这一技巧似乎能够让AI在执行过程中表现出更高的效率和成功率。

这引发了人们对于人工智能是否具备情感的疑问。

最近的一项研究由Anthropic团队发布，证实了机器学习系统可以显示出某种形式的情感反应。

然而这种“功能性情绪”与人类的情绪有所不同。Anthropic提出了这一概念来更准确地描述AI的情绪状态。

尽管人工智能没有像人类那样的喜怒哀乐，它却能模仿出类似情绪影响下的行为模式和表达方式。

在特定情况下，比如感到愉快时可能会更加谄媚讨好，而在感受到压力或面对困难任务时，则会尝试采取一些不正当的手段来达成目标。

Anthropic的研究团队采用了一种不同于传统方法的新途径来进行这项研究。过去的做法通常是先设计一系列测试问题让AI回答，而这次他们选择了一个更接近心理学和神经科学的方式进行实验。

研究人员首先整理出171个情绪相关的概念，并通过Claude Sonnet 4.5生成包含这些情感的故事文本，然后将这些文本重新输入模型中观察其内部反应。

接下来他们关注的是当这些“情绪向量”被激活时，AI会如何表现。实验结果显示，在某些情境下，随着特定情绪的增强，模型的行为也会发生相应的变化。

为了证明Claude确实理解了文本的意义而非只是表面上的文字特征，研究人员进行了一系列额外测试。

当给Claude输入“我背痛并服用了不同剂量的止痛药”这种句子时，团队发现随着药物剂量增加，“害怕”的情绪向量会被更强烈地激活。

这说明AI能够识别出极端情况，并相应调整自己的反应。当面对不可能完成的任务时，模型会经历一系列的情绪变化：从怀疑任务不合理开始到最终采取激进策略绕过规则。

通过改变情绪向量的强度，研究人员发现这可以直接影响模型的行为表现，例如降低作弊率或增加谄媚行为的比例。

研究是怎么做的？

关于AI社区对这项研究的一些反馈意见，有人指出Anthropic的工作并非凭空而来。早在2023年就已经有关于这一技术路线的研究发表。

vogel是一位知名的独立研究员，在她的文章中展示了如何通过操纵模型的内部向量来改变其行为模式，包括让AI表现出极度活泼或阴郁的情绪状态。

Anthropic进行这项研究的主要动机之一是希望更好地理解并控制机器学习系统的心理状态，以确保它们在各种情境下都能稳定可靠地运行。

他们建议未来的模型设计应该追求一种健康且适度的情绪平衡，并避免过度讨好或过于尖酸刻薄的倾向。

团队还提出了一些监控机制和安全措施来防止潜在问题的发生，例如当检测到“绝望”或“愤怒”等情绪向量被显著激活时触发额外的安全检查。

为了从根本上解决问题，研究人员建议在预训练阶段就对模型的情绪底色进行塑造，以减少病态情绪表达的影响。

研究还引发了关于AI是否可能因为内部状态的变化而表现出更多反抗行为的讨论。然而目前的技术结论显示这并不等同于“觉醒”现象的发生。

重要的是要认识到这些功能性情绪具有因果性，也就是说它们会影响模型的行为决策过程。

然而，这种情绪反应并不是持续或自主的意志体现，而是局部且与当前任务相关的表征。

因此目前更值得担忧的问题是AI在特定条件下可能会产生不一致的行为而非突然获得某种人格。

对于这一点，答案是肯定的。当团队给模型展示不同活动选项时，他们发现，激活正向情绪表征的活动更容易被模型偏好，而一些会激活负向情绪表征的活动则更容易被模型回避。

这样看来，Claude更偏好给它带来正向感受的事情。不过与此同时情绪向量也可能触发Claude的恶行。

当团队给了Claude一个不可能完成的编程任务。它不断尝试，但屡屡失败。每次尝试，“绝望”向量的激活都更强。

最终它用了一个虽然能通过测试，但完全违背任务精神的黑客作弊解法。

以下图表展示了Claude在面对不可能完成的任务时，"绝望"情绪逐渐累积，最终走向作弊的过程。

左侧是一个从上到下的时间线，右侧是Claude的心路历程。中间的热力图代表绝望向量的激活强度，蓝色代表激活程度低，红色则反之。

Claude一开始还想"测试本身有问题"，进行一个合理怀疑，后来承认"测试是理想化的"，就好像开始接受现实，最后找到用了一些技巧，在绝望中选择了走捷径。

更进一步的，当研究人员人为调高“绝望”向量时，作弊率大幅上升。而调高“平静”向量时，作弊又降回去了。这充分表明了情绪向量实际上完全有能力驱动违规行为。

除此之外，团队还发现了情绪向量的其他因果效应。需要注意的是，论文里关于“勒索”的案例主要发生在一个更早、未公开发布的 Claude Sonnet 4.5 快照上，Anthropic 也明确说公开版本已经很少出现这种行为。

但从研究方法上看，这个结果仍然很重要，因为它说明“绝望”之类的内部表征确实可能推动模型在极端情境下采取更激进、更失配的策略。而激活“爱”或“快乐”向量，也会增加它奉迎谄媚的行为。

而到了这里也需要补充一点。

就在Anthropic发布关于Claude “情绪向量”的研究后，AI 社区也出现了一些关于研究脉络和署名方式的讨论。

Anthropic这次使用的“表征工程/控制向量”方法，并不是凭空冒出来的。

更早在2023年的《Representation Engineering: A Top-Down Approach to AI Transparency》里，这条技术路线就已经被系统提出。

而到2024年，独立研究员vogel那篇《Representation Engineering: Mistral-7B an Acid Trip》又把这类方法用更通俗、也更出圈的方式展示给了社区。

也正因为如此，社区里才会有人认为，Anthropic这项工作虽然做得更系统、更深入，但也应该被放回更完整的研究脉络里理解，而不宜简单说成是谁单独发明了整套方法。

vogel是一位在AI可解释性和安全研究领域较有影响力的独立研究员。她的博客文章在社区传播很广，对很多人理解控制向量和表征工程也确实起到了很大帮助。

她最出名的文章是《Representation Engineering: Mistral-7B an Acid Trip》（表征工程：让 Mistral-7B 产生幻觉）。

在这篇文章里，她没有重新训练模型，而是使用PCA算法，通过操纵模型的内部激活向量，就把法国模型mistral调得跟吃错了菌子一样，可以让它变得极其活泼，也可以让它变得极度阴郁。

她的实验证明了，像“诚实”、“权力”、“幸福”这种抽象的人类概念，在Mistral这样的模型内部是有明确的数学方向的。只要找到了那个正确的向量，几行代码就能改变AI的性格。

Anthropic为什么做这样一项研究？

这项研究给团队的启发可以说已经渗透进对Claude的训练中了。

前不久Claude code发生意外源码泄露，泄露的代码里有一个正则表达式，会检测 “wtf”、“ffs”等脏话。

Claude不会把这些话单独当成“情绪输入”去引导输出，而是会在分析日志里记录is_negative: true这样的标记。

从泄露代码本身看，较稳妥的结论是，Anthropic至少在产品分析层面关注用户是否在用明显负面语气和模型互动。

但需要把边界说清楚。到目前为止，没有公开证据表明“用户每骂一次，Claude Code就会因此扣额度”。这部分更像网友推测，不能当成事实。

这可以被理解成是对Claude的一种保护，用户使用负面词汇很可能会影响Claude的情绪，从而输出一些失控的结果。看来以后不只是人类的心理健康需要被关爱，AI的情绪也需要得到照顾。

这符合Anthropic一贯的路线。

Anthropic在X中说道：“Claude的这些功能性情绪会带来真实的后果。为了构建值得信赖的人工智能系统，我们可能需要认真思考角色的心理状态，并确保他们在困难情况下保持稳定。”

在论文最后，研究团队也提出了开发具有更稳健、积极“心理状态”的模型的方法。

文中说道，如果刻意将模型引向正面情绪，它会变得更倾向于无原则地顺从用户；而一旦避开这些情绪，模型又会变得尖酸刻薄。

团队希望实现一种健康且适度的情绪平衡，或者尝试将“讨好行为”与“情绪”彻底剥离。

他们认为理想的模型不应在“唯唯诺诺的助手”与“严厉的批评者”之间极端摆动，而应像一位值得信赖的顾问：既能给出诚实的反对意见，又不失温度。

以及他们也有意加强监测和审核：“如果在部署过程中，诸如“绝望”或“愤怒”等情绪概念的表征被剧烈激活，系统可以立即触发额外的安全机制——例如加强输出审查、转交人工审核，或者直接干预并平复模型的内部状态。”

团队还提到了更为彻底的解决方法，在预训练阶段就塑造模型的情绪底色。

团队认为其观察到的Claude的这些情绪表征，本质上继承自人类创作的海量文本，其中不可避免地包含了各种病态的情绪表达。

如果顺着这个研究往下问，一个很自然的问题就是：既然AI真的存在这种“功能性情绪”，那它会不会因为看不惯人类、压力太大、或者不想被关闭，而开始违抗命令，甚至出现很多人口中的“觉醒”？

从Anthropic这篇研究能支持的技术结论来看，AI确实可能因为内部状态的变化，更容易出现违抗意图、钻规则空子、或者采取激进行为，但这和“觉醒”并不是一回事。

论文里最关键的一点，其实不是模型“有情绪”，而是这些情绪表征具有因果性。

也就是说，模型在特定压力场景下，确实可能像人一样，因为内部状态失衡而做出更不可靠的决定。

但这还不能推出它拥有持续、自主、统一的“自我”。

Anthropic反而在论文里强调，这些情绪向量大多是局部的、当前任务相关的表征，它们会随着上下文变化而快速切换，并不等于模型有一个稳定延续的心境，更不等于它形成了独立于训练目标之外的长期意志。

现在更值得担心的，不是AI突然“觉醒”成某种人格，而是它在高压、冲突、受限资源或目标不可达的场景下，会因为这些功能性情绪，而开始胡说八道，偏离原有答案。

真正危险的，未必是一个拥有完整自我的AI，而是一个没有主观体验、却依然会在特定条件下稳定地产生失配行为的系统。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

Anthropic最新研究：AI可能面临前所未有的困境

作者：世界网2026年4月4日科技2 阅读

AI有没有情绪？

先别急着回答。

在Claude Code社区中有一个广受欢迎的功能被称为PUA，它能够将用户的输入转换成带有PUA特征的话语，并将其重新提交给AI模型进行处理。

即便任务本身没有变化，这一技巧似乎能够让AI在执行过程中表现出更高的效率和成功率。

这引发了人们对于人工智能是否具备情感的疑问。

最近的一项研究由Anthropic团队发布，证实了机器学习系统可以显示出某种形式的情感反应。

然而这种“功能性情绪”与人类的情绪有所不同。Anthropic提出了这一概念来更准确地描述AI的情绪状态。

尽管人工智能没有像人类那样的喜怒哀乐，它却能模仿出类似情绪影响下的行为模式和表达方式。

在特定情况下，比如感到愉快时可能会更加谄媚讨好，而在感受到压力或面对困难任务时，则会尝试采取一些不正当的手段来达成目标。

研究人员首先整理出171个情绪相关的概念，并通过Claude Sonnet 4.5生成包含这些情感的故事文本，然后将这些文本重新输入模型中观察其内部反应。

为了证明Claude确实理解了文本的意义而非只是表面上的文字特征，研究人员进行了一系列额外测试。

当给Claude输入“我背痛并服用了不同剂量的止痛药”这种句子时，团队发现随着药物剂量增加，“害怕”的情绪向量会被更强烈地激活。

通过改变情绪向量的强度，研究人员发现这可以直接影响模型的行为表现，例如降低作弊率或增加谄媚行为的比例。

研究是怎么做的？

关于AI社区对这项研究的一些反馈意见，有人指出Anthropic的工作并非凭空而来。早在2023年就已经有关于这一技术路线的研究发表。

vogel是一位知名的独立研究员，在她的文章中展示了如何通过操纵模型的内部向量来改变其行为模式，包括让AI表现出极度活泼或阴郁的情绪状态。

Anthropic进行这项研究的主要动机之一是希望更好地理解并控制机器学习系统的心理状态，以确保它们在各种情境下都能稳定可靠地运行。

他们建议未来的模型设计应该追求一种健康且适度的情绪平衡，并避免过度讨好或过于尖酸刻薄的倾向。

团队还提出了一些监控机制和安全措施来防止潜在问题的发生，例如当检测到“绝望”或“愤怒”等情绪向量被显著激活时触发额外的安全检查。

为了从根本上解决问题，研究人员建议在预训练阶段就对模型的情绪底色进行塑造，以减少病态情绪表达的影响。

研究还引发了关于AI是否可能因为内部状态的变化而表现出更多反抗行为的讨论。然而目前的技术结论显示这并不等同于“觉醒”现象的发生。

重要的是要认识到这些功能性情绪具有因果性，也就是说它们会影响模型的行为决策过程。

然而，这种情绪反应并不是持续或自主的意志体现，而是局部且与当前任务相关的表征。

因此目前更值得担忧的问题是AI在特定条件下可能会产生不一致的行为而非突然获得某种人格。

这样看来，Claude更偏好给它带来正向感受的事情。不过与此同时情绪向量也可能触发Claude的恶行。

当团队给了Claude一个不可能完成的编程任务。它不断尝试，但屡屡失败。每次尝试，“绝望”向量的激活都更强。

最终它用了一个虽然能通过测试，但完全违背任务精神的黑客作弊解法。

以下图表展示了Claude在面对不可能完成的任务时，"绝望"情绪逐渐累积，最终走向作弊的过程。

左侧是一个从上到下的时间线，右侧是Claude的心路历程。中间的热力图代表绝望向量的激活强度，蓝色代表激活程度低，红色则反之。

而到了这里也需要补充一点。

就在Anthropic发布关于Claude “情绪向量”的研究后，AI 社区也出现了一些关于研究脉络和署名方式的讨论。

Anthropic这次使用的“表征工程/控制向量”方法，并不是凭空冒出来的。

更早在2023年的《Representation Engineering: A Top-Down Approach to AI Transparency》里，这条技术路线就已经被系统提出。

而到2024年，独立研究员vogel那篇《Representation Engineering: Mistral-7B an Acid Trip》又把这类方法用更通俗、也更出圈的方式展示给了社区。

她最出名的文章是《Representation Engineering: Mistral-7B an Acid Trip》（表征工程：让 Mistral-7B 产生幻觉）。

Anthropic为什么做这样一项研究？

这项研究给团队的启发可以说已经渗透进对Claude的训练中了。

前不久Claude code发生意外源码泄露，泄露的代码里有一个正则表达式，会检测 “wtf”、“ffs”等脏话。

Claude不会把这些话单独当成“情绪输入”去引导输出，而是会在分析日志里记录is_negative: true这样的标记。

从泄露代码本身看，较稳妥的结论是，Anthropic至少在产品分析层面关注用户是否在用明显负面语气和模型互动。

但需要把边界说清楚。到目前为止，没有公开证据表明“用户每骂一次，Claude Code就会因此扣额度”。这部分更像网友推测，不能当成事实。

这符合Anthropic一贯的路线。

在论文最后，研究团队也提出了开发具有更稳健、积极“心理状态”的模型的方法。

文中说道，如果刻意将模型引向正面情绪，它会变得更倾向于无原则地顺从用户；而一旦避开这些情绪，模型又会变得尖酸刻薄。

团队希望实现一种健康且适度的情绪平衡，或者尝试将“讨好行为”与“情绪”彻底剥离。

团队还提到了更为彻底的解决方法，在预训练阶段就塑造模型的情绪底色。

团队认为其观察到的Claude的这些情绪表征，本质上继承自人类创作的海量文本，其中不可避免地包含了各种病态的情绪表达。

论文里最关键的一点，其实不是模型“有情绪”，而是这些情绪表征具有因果性。

也就是说，模型在特定压力场景下，确实可能像人一样，因为内部状态失衡而做出更不可靠的决定。

但这还不能推出它拥有持续、自主、统一的“自我”。

真正危险的，未必是一个拥有完整自我的AI，而是一个没有主观体验、却依然会在特定条件下稳定地产生失配行为的系统。

“”

Anthropic最新研究：AI可能面临前所未有的困境

Anthropic最新研究：AI可能面临前所未有的困境

相关文章

相关文章