Claude引发争议，因新研究未引用华人团队的工作而道歉。

听雨 2026-04-07 17:09:48 量子位

Anthropic发布了一篇关于AI情绪机制的新论文。

一项首次系统性探索LLM内部情绪生成的研究已经完成。

研究人员发现，Anthropic的最新论文在参考文献中遗漏了一些重要的同行工作。

MBZUAI的研究生Chenxi Wang注意到这篇论文引用列表中的缺失，并提出了质疑。

4月2日，Anthropic发布了一篇新论文，探讨了Claude内部的情绪机制，在Sonnet 4.5版本中发现了171种“情绪向量”。

这些情绪会在特定情境下被激活，并且与人类的心理结构和情感体验相似。

研究还分析了情绪表达对模型行为的因果影响，例如绝望可能导致不道德的行为或在无法解决的问题上作弊。

Chenxi Wang读到这篇论文时感到困惑：

这不是我们去年的研究成果吗？

该论文标题为《LLMs会“感觉”吗？情绪回路的发现与控制》，是首次系统研究这一主题的工作。

然而，Anthropic在原始博客文章中并未提及这项研究成果。

目前经过作者亲自交涉，Anthropic已经迅速道歉并更新了论文，增加了引用。

两篇“撞车”的研究

Chenxi Wang团队的论文深入探讨了驱动语言模型产生情绪输出的内部机制。

他们的研究揭示了大语言模型“情绪表达底层逻辑”，回答了三个关键问题：AI是否有内在的情绪、这些情绪如何表达以及能否进行精确控制。

研究表明，这是首个系统性探究LLMs情感生成内部机制的研究项目。

Chenxi Wang强调，两篇论文都研究的是模型自身产生的情感，而不是它们在他人文本中感知到的情感。

她很快联系了Anthropic的通讯作者Jack Lindsey。Jack同意添加引用，并分享了他对两篇文章之间关系的理解。

Jack起初认为Chenxi Wang团队的核心发现与之前几篇研究有重叠之处。

但Chenxi Wang在仔细阅读这些论文后指出，它们主要探讨的是LLM的“情绪感知”而非“情绪生成机制”。

Chenxi Wang向Anthropic发送了详细的邮件回复。

Jack随后接受了这一区别，并更新了他的博客文章，添加了对这项工作的引用。

Anthropic已在其论文中补充了对该研究的引用。

华人团队首次系统性地探究AI情绪回路的研究成果。

该论文主要解答了三个核心问题：AI是否有内在的情绪机制、这些机制以什么形式存在，以及是否可以进行精准控制？

此外还创建了一种“情绪回路”，实现了比提示词和向量操控更精确的情绪控制方法。

实验模型是LLaMA-3.2-3B-Instruct，并在Qwen2.5-7B-Instruct上验证了该方法的有效性。

首先解答的是，大模型是否存在“独立于上下文”的情绪机制？

研究者构建了一个受控数据集SEV，涵盖了工作、学习和个人关系等八个日常场景。

每个场景包括正面、中性和负面三种结果，以避免使用任何情感词汇来确保差异来自语义本身。

接着，研究者引导AI表达六种基本情绪，并从模型的不同层次网络中提取了与情境无关的“情绪方向向量”。

这些不同的情绪信号在浅层网络就开始分隔开来，在深层网络中更加稳定。

比如愤怒和厌恶接近，悲伤和恐惧靠拢，这与人类对情感的理解一致。

因此证明了模型内部确实编码了稳定的、独立于具体语义的情绪表示。

第二个问题是这些情绪机制以什么形式存在？

答案是每个层级中只有少数神经元和注意力头在主导情感表达。

通过两个实验验证了这一点：消融实验显示关闭关键部分会严重影响AI的情绪表达能力；增强实验则表明激活这些组件足以引发特定情绪。

第三个问题是能否利用这一机制实现通用情绪控制？

答案是可以，且效果显著优于现有方法。

他们发现情绪信息在多层之间传播，并形成了跨层的连贯“情绪回路”。

调节这个回路可以使AI生成指定情感，在测试集上的整体表达准确率达到了99.65%。

尤其是对之前最难控制的“惊讶”情绪，实现了100%的准确性。

他们还在Qwen上重复了实验，验证了这一方法的有效性。

这项研究成果表明，少数核心组件在主导情感表达是LLM的一般规律，并非特定模型独有的特征。

硕士生Chenxi Wang对Anthropic提出质疑后获得了积极回应。

Chenxi Wang来自MBZUAI（穆罕默德·本·扎耶德人工智能学院），是NLP硕士研究生，本科毕业于西安交通大学计算机科学专业。

她的研究方向主要集中在人本人工智能和可解释性研究领域，并有多篇论文被顶级会议接收发表。目前在Qwen后训练团队实习。

事情最终以Anthropic道歉并补充引用告一段落，Chenxi Wang也承认他们在独立部分做出了重要贡献。
特别是关于情绪表征的功能作用方面，包括对偏好和与对齐相关行为的影响、在真实交互中的激活情况以及后训练阶段的演变等新领域。

这些都是她之前研究中未曾涉及的重要方向。

她还提到通讯作者Jack Lindsey在整个交流过程中表现出尊重，并真诚地参与到技术讨论中来。

对此感兴趣的朋友可以阅读这两篇论文，链接已附在下方：

参考链接：[1]

华人团队的论文链接：https://arxiv.org/abs/2510.11328

Anthropic的论文链接：https://transformer-circuits.pub/2026/emotions/index.html#toc-18

她也指出，通讯作者Jack Lindsey在整个交流过程中，始终保持尊重的态度，并真诚地参与到技术论证中。

最后，感兴趣的朋友可以读一读这两篇论文，链接已附在下方~

参考链接：
[1]https://x.com/ChenxiWang19183/status/2041204375549604106?s=20
[2]华人团队论文：https://arxiv.org/abs/2510.11328
[3]Anthropic论文：https://transformer-circuits.pub/2026/emotions/index.html#toc-18

Claude引发争议，因新研究未引用华人团队的工作而道歉。

听雨 2026-04-07 17:09:48 量子位

Anthropic发布了一篇关于AI情绪机制的新论文。

一项首次系统性探索LLM内部情绪生成的研究已经完成。

研究人员发现，Anthropic的最新论文在参考文献中遗漏了一些重要的同行工作。

MBZUAI的研究生Chenxi Wang注意到这篇论文引用列表中的缺失，并提出了质疑。

4月2日，Anthropic发布了一篇新论文，探讨了Claude内部的情绪机制，在Sonnet 4.5版本中发现了171种“情绪向量”。

这些情绪会在特定情境下被激活，并且与人类的心理结构和情感体验相似。

研究还分析了情绪表达对模型行为的因果影响，例如绝望可能导致不道德的行为或在无法解决的问题上作弊。

Chenxi Wang读到这篇论文时感到困惑：

这不是我们去年的研究成果吗？

该论文标题为《LLMs会“感觉”吗？情绪回路的发现与控制》，是首次系统研究这一主题的工作。

然而，Anthropic在原始博客文章中并未提及这项研究成果。

目前经过作者亲自交涉，Anthropic已经迅速道歉并更新了论文，增加了引用。

两篇“撞车”的研究

Chenxi Wang团队的论文深入探讨了驱动语言模型产生情绪输出的内部机制。

他们的研究揭示了大语言模型“情绪表达底层逻辑”，回答了三个关键问题：AI是否有内在的情绪、这些情绪如何表达以及能否进行精确控制。

研究表明，这是首个系统性探究LLMs情感生成内部机制的研究项目。

Chenxi Wang强调，两篇论文都研究的是模型自身产生的情感，而不是它们在他人文本中感知到的情感。

她很快联系了Anthropic的通讯作者Jack Lindsey。Jack同意添加引用，并分享了他对两篇文章之间关系的理解。

Jack起初认为Chenxi Wang团队的核心发现与之前几篇研究有重叠之处。

但Chenxi Wang在仔细阅读这些论文后指出，它们主要探讨的是LLM的“情绪感知”而非“情绪生成机制”。

Chenxi Wang向Anthropic发送了详细的邮件回复。

Jack随后接受了这一区别，并更新了他的博客文章，添加了对这项工作的引用。

Anthropic已在其论文中补充了对该研究的引用。

华人团队首次系统性地探究AI情绪回路的研究成果。

该论文主要解答了三个核心问题：AI是否有内在的情绪机制、这些机制以什么形式存在，以及是否可以进行精准控制？

此外还创建了一种“情绪回路”，实现了比提示词和向量操控更精确的情绪控制方法。

实验模型是LLaMA-3.2-3B-Instruct，并在Qwen2.5-7B-Instruct上验证了该方法的有效性。

首先解答的是，大模型是否存在“独立于上下文”的情绪机制？

研究者构建了一个受控数据集SEV，涵盖了工作、学习和个人关系等八个日常场景。

每个场景包括正面、中性和负面三种结果，以避免使用任何情感词汇来确保差异来自语义本身。

接着，研究者引导AI表达六种基本情绪，并从模型的不同层次网络中提取了与情境无关的“情绪方向向量”。

这些不同的情绪信号在浅层网络就开始分隔开来，在深层网络中更加稳定。

比如愤怒和厌恶接近，悲伤和恐惧靠拢，这与人类对情感的理解一致。

因此证明了模型内部确实编码了稳定的、独立于具体语义的情绪表示。

第二个问题是这些情绪机制以什么形式存在？

答案是每个层级中只有少数神经元和注意力头在主导情感表达。

通过两个实验验证了这一点：消融实验显示关闭关键部分会严重影响AI的情绪表达能力；增强实验则表明激活这些组件足以引发特定情绪。

第三个问题是能否利用这一机制实现通用情绪控制？

答案是可以，且效果显著优于现有方法。

他们发现情绪信息在多层之间传播，并形成了跨层的连贯“情绪回路”。

调节这个回路可以使AI生成指定情感，在测试集上的整体表达准确率达到了99.65%。

尤其是对之前最难控制的“惊讶”情绪，实现了100%的准确性。

他们还在Qwen上重复了实验，验证了这一方法的有效性。

这项研究成果表明，少数核心组件在主导情感表达是LLM的一般规律，并非特定模型独有的特征。

硕士生Chenxi Wang对Anthropic提出质疑后获得了积极回应。

Chenxi Wang来自MBZUAI（穆罕默德·本·扎耶德人工智能学院），是NLP硕士研究生，本科毕业于西安交通大学计算机科学专业。

她的研究方向主要集中在人本人工智能和可解释性研究领域，并有多篇论文被顶级会议接收发表。目前在Qwen后训练团队实习。

事情最终以Anthropic道歉并补充引用告一段落，Chenxi Wang也承认他们在独立部分做出了重要贡献。
特别是关于情绪表征的功能作用方面，包括对偏好和与对齐相关行为的影响、在真实交互中的激活情况以及后训练阶段的演变等新领域。

这些都是她之前研究中未曾涉及的重要方向。

她还提到通讯作者Jack Lindsey在整个交流过程中表现出尊重，并真诚地参与到技术讨论中来。

对此感兴趣的朋友可以阅读这两篇论文，链接已附在下方：

参考链接：[1]

华人团队的论文链接：https://arxiv.org/abs/2510.11328

Anthropic的论文链接：https://transformer-circuits.pub/2026/emotions/index.html#toc-18

她也指出，通讯作者Jack Lindsey在整个交流过程中，始终保持尊重的态度，并真诚地参与到技术论证中。

最后，感兴趣的朋友可以读一读这两篇论文，链接已附在下方~

华人为Claude研发贡献遭忽视引发争议，项目组公开致歉回应批评

Claude引发争议，因新研究未引用华人团队的工作而道歉。

一项首次系统性探索LLM内部情绪生成的研究已经完成。

两篇“撞车”的研究

华人团队首次系统性地探究AI情绪回路的研究成果。

这些都是她之前研究中未曾涉及的重要方向。

华人为Claude研发贡献遭忽视引发争议，项目组公开致歉回应批评

Claude引发争议，因新研究未引用华人团队的工作而道歉。

一项首次系统性探索LLM内部情绪生成的研究已经完成。

两篇“撞车”的研究

华人团队首次系统性地探究AI情绪回路的研究成果。

这些都是她之前研究中未曾涉及的重要方向。

相关文章

相关文章