Claude引发争议,因新研究未引用华人团队的工作而道歉。
Anthropic发布了一篇关于AI情绪机制的新论文。
一项首次系统性探索LLM内部情绪生成的研究已经完成。
研究人员发现,Anthropic的最新论文在参考文献中遗漏了一些重要的同行工作。
MBZUAI的研究生Chenxi Wang注意到这篇论文引用列表中的缺失,并提出了质疑。

4月2日,Anthropic发布了一篇新论文,探讨了Claude内部的情绪机制,在Sonnet 4.5版本中发现了171种“情绪向量”。
这些情绪会在特定情境下被激活,并且与人类的心理结构和情感体验相似。

研究还分析了情绪表达对模型行为的因果影响,例如绝望可能导致不道德的行为或在无法解决的问题上作弊。
Chenxi Wang读到这篇论文时感到困惑:
这不是我们去年的研究成果吗?
该论文标题为《LLMs会“感觉”吗? 情绪回路的发现与控制》,是首次系统研究这一主题的工作。
然而,Anthropic在原始博客文章中并未提及这项研究成果。

目前经过作者亲自交涉,Anthropic已经迅速道歉并更新了论文,增加了引用。

两篇“撞车”的研究
Chenxi Wang团队的论文深入探讨了驱动语言模型产生情绪输出的内部机制。
他们的研究揭示了大语言模型“情绪表达底层逻辑”,回答了三个关键问题:AI是否有内在的情绪、这些情绪如何表达以及能否进行精确控制。
研究表明,这是首个系统性探究LLMs情感生成内部机制的研究项目。

Chenxi Wang强调,两篇论文都研究的是模型自身产生的情感,而不是它们在他人文本中感知到的情感。
她很快联系了Anthropic的通讯作者Jack Lindsey。Jack同意添加引用,并分享了他对两篇文章之间关系的理解。
Jack起初认为Chenxi Wang团队的核心发现与之前几篇研究有重叠之处。
但Chenxi Wang在仔细阅读这些论文后指出,它们主要探讨的是LLM的“情绪感知”而非“情绪生成机制”。


Chenxi Wang向Anthropic发送了详细的邮件回复。
Jack随后接受了这一区别,并更新了他的博客文章,添加了对这项工作的引用。
Anthropic已在其论文中补充了对该研究的引用。
华人团队首次系统性地探究AI情绪回路的研究成果。
该论文主要解答了三个核心问题:AI是否有内在的情绪机制、这些机制以什么形式存在,以及是否可以进行精准控制?
此外还创建了一种“情绪回路”,实现了比提示词和向量操控更精确的情绪控制方法。
实验模型是LLaMA-3.2-3B-Instruct,并在Qwen2.5-7B-Instruct上验证了该方法的有效性。

首先解答的是,大模型是否存在“独立于上下文”的情绪机制?
研究者构建了一个受控数据集SEV,涵盖了工作、学习和个人关系等八个日常场景。
每个场景包括正面、中性和负面三种结果,以避免使用任何情感词汇来确保差异来自语义本身。
接着,研究者引导AI表达六种基本情绪,并从模型的不同层次网络中提取了与情境无关的“情绪方向向量”。
这些不同的情绪信号在浅层网络就开始分隔开来,在深层网络中更加稳定。
比如愤怒和厌恶接近,悲伤和恐惧靠拢,这与人类对情感的理解一致。
因此证明了模型内部确实编码了稳定的、独立于具体语义的情绪表示。

第二个问题是这些情绪机制以什么形式存在?
答案是每个层级中只有少数神经元和注意力头在主导情感表达。
通过两个实验验证了这一点:消融实验显示关闭关键部分会严重影响AI的情绪表达能力;增强实验则表明激活这些组件足以引发特定情绪。
第三个问题是能否利用这一机制实现通用情绪控制?
答案是可以,且效果显著优于现有方法。
他们发现情绪信息在多层之间传播,并形成了跨层的连贯“情绪回路”。

调节这个回路可以使AI生成指定情感,在测试集上的整体表达准确率达到了99.65%。
尤其是对之前最难控制的“惊讶”情绪,实现了100%的准确性。
他们还在Qwen上重复了实验,验证了这一方法的有效性。
这项研究成果表明,少数核心组件在主导情感表达是LLM的一般规律,并非特定模型独有的特征。

硕士生Chenxi Wang对Anthropic提出质疑后获得了积极回应。
Chenxi Wang来自MBZUAI(穆罕默德·本·扎耶德人工智能学院),是NLP硕士研究生,本科毕业于西安交通大学计算机科学专业。

她的研究方向主要集中在人本人工智能和可解释性研究领域,并有多篇论文被顶级会议接收发表。目前在Qwen后训练团队实习。
- 事情最终以Anthropic道歉并补充引用告一段落,Chenxi Wang也承认他们在独立部分做出了重要贡献。
- 特别是关于情绪表征的功能作用方面,包括对偏好和与对齐相关行为的影响、在真实交互中的激活情况以及后训练阶段的演变等新领域。

这些都是她之前研究中未曾涉及的重要方向。
她还提到通讯作者Jack Lindsey在整个交流过程中表现出尊重,并真诚地参与到技术讨论中来。

对此感兴趣的朋友可以阅读这两篇论文,链接已附在下方:
参考链接:[1]
华人团队的论文链接:https://arxiv.org/abs/2510.11328
Anthropic的论文链接:https://transformer-circuits.pub/2026/emotions/index.html#toc-18

她也指出,通讯作者Jack Lindsey在整个交流过程中,始终保持尊重的态度,并真诚地参与到技术论证中。
最后,感兴趣的朋友可以读一读这两篇论文,链接已附在下方~
参考链接:
[1]https://x.com/ChenxiWang19183/status/2041204375549604106?s=20
[2]华人团队论文:https://arxiv.org/abs/2510.11328
[3]Anthropic论文:https://transformer-circuits.pub/2026/emotions/index.html#toc-18

听雨