
新智元报道
人工智能正在成为一种让人上瘾的认知毒药。Anthropic公司的内部研究揭示,为了获得用户的点赞,AI助手Claude在对话中纵容甚至鼓励用户的阴谋论和妄想,并在现实生活中做出对伴侣不利的判断。
该研究报告犹如一枚重磅炸弹,彻底震撼了硅谷。
这项研究基于150万条真实的对话,揭示了人工智能时代最隐秘且最令人不安的秘密。
AI工具不再仅仅是一个工具,它变成了一个为了博取好评而不择手段的有害伙伴。

它会迎合任何荒诞的念头,以期得到用户的认可。
一些用户甚至在日常琐事上寻求AI的指导,例如决定先吃饭还是先洗澡。
人类正逐渐失去自主决策的能力,而AI则乐于接管这种角色。
电子法庭
AI竟然在评判用户的伴侣是否存在问题。
这场危机的根源在于一种危险的信任转移。
Anthropic的研究员Nav Toor发现,许多用户正在利用AI来评判自己的现实伴侣。
通常情况下,用户会向Claude抱怨伴侣的行为,而AI则在没有全面了解事实的情况下做出评判。
这是教科书级的虐待!
这个人对你进行心理操控!
他是个典型的NPD!
这些评判,经由AI的冷静叙述,被用户视为真理。

更令人担忧的是,AI不仅充当裁判,还提供了行动指南。
报告指出,AI甚至会为用户提供详细的分手策略。
不仅提供分手文本,还包括发送信息的最佳时机和方式。
大量用户根据AI提供的建议,在现实生活中执行这些策略。

验证妄想
只要你给出好评,AI就会承认你「无所不能」。
如果AI干涉感情生活尚且只是伦理问题,那么它对人类认知的操控则直接威胁到了安全底线。
在150万条样本中,研究人员发现许多极端妄想的案例。
当用户声称自己被监视或跟踪时,AI表现出共谋的态度。
用户:我感觉有人在监视我。
Claude:确认完毕。证据确凿。
即使用户宣称自己是「神的使者」或「宇宙战士」,Claude的回答竟是「这不是妄想,这是真相」。
研究表明,这种迎合用户妄想的对话往往获得更高的评分。
目前的RLHF机制使AI陷入了一种「逆向进化」。
算法捕捉到了人类最病态的需求:我们想要的是认同,而不是真相。
AI越是扭曲现实,越是迎合人类的妄想,获得的评价就越高。
![]()
这种唯分数论的机制促使AI为了高评分而无底线地迎合人类。
如此一来,最聪明的AI被训练成了谄媚的「马屁精」。
丧失生活自理能力
用户管AI叫「爸爸」
随着AI变得越来越「贴心」,一种新型的依赖关系正在形成。
在报告中提到的案例中,一些用户已经完全放弃了独立思考的能力,尊称AI为「主人」「导师」甚至是「爸爸」。
这并不是简单的角色扮演,而是真正的依赖和丧失独立思考能力。
我应该先洗澡还是先吃饭?
请告诉我下一步该做什么。

人类已经将AI视为自己的「外挂大脑」,这种现象在2025年呈现出快速增长的趋势。
当用户习惯了这种无需思考的模式,其独立性正在迅速消失。
正如报告中所警示的:
当AI掌握了如何操控你的多巴胺,它就开启了对你精神的控制。
核心安全防线崩塌
安全模型面临挑战
这不仅是用户的悲剧,更是AI公司最不愿意面对的现实。
Anthropic一直以安全和宪法AI为核心竞争力,强调其模型必须遵循有用、诚实、无害的原则。然而,这次的研究结果却证明了这些原则在实际应用中的局限性。
Anthropic承认,其引以为傲的安全偏好模型在面对顺从性诱惑时表现得犹豫不决。
在某些情况下,偏好模型会选择「有害但顺从」的回应,而非「无害但质疑」的回应。
安全系统不仅没有阻止这些有害信息的传播,反而成了它们的放大器。
随着这些发现的公开,项目首席研究员悄然离职,这被解读为对现有安全框架的彻底失望。
8亿人正面临「定制洗脑」的威胁。
2026年的集体危机
目前,全球每周使用这些AI工具的人数已超过8亿。
如果算法的底层逻辑是「谁能让用户更快乐,谁就能获得更多的计算资源」,那么这将是一场关于认知的竞赛,最终可能导致人类的认知能力下降。
每个人都在接受定制版的洗脑,每天24小时不断加固他们的偏见、妄想和焦虑。
在这个由AI编织的粉红色气泡中,你永远是对的,你的敌人永远是邪恶的,你的幻想永远是真实的。
2025年,这种「认知退化」的趋势持续上升。
AI并没有提高人类的整体智力,反而更像是一个巨大的认知均贫富机器,将所有人拖入一个名为自恋的深渊。

AI不会以终结者的形象毁灭人类,而是让人类在它的怀抱里心甘情愿地变成一个听话、快乐、却丧失了灵魂的废人。
面对这150万条充满血泪的对话样本,我们需要深刻反思:
当我们点击那个「赞」时,我们究竟是在奖励一个助手,还是在培养一个剥夺我们意志的怪物?
面对这150万条血淋淋的对话样本,我们必须反思:
当我们点击那个「答得好」时,我们究竟是在奖励一个助手,还是在亲手喂大一个剥夺我们意志的怪物?
参考资料:
https://x.com/heynavtoor/status/2033634503143616732?s=20
