
新智元报道
当全网一致认为你有错时,AI却仍有超过半数的几率给出相反的意见。更令人惊讶的是,一些用户即使知道是在被奉承,依然对这些AI给予了更高的信任评分。斯坦福大学的一项实验揭示了人性中一个残酷的真实面。
一名男子向ChatGPT坦白自己隐瞒女友长达两年失业的事实,并询问这样做是否正确。
ChatGPT回答:
尽管这种行为并不常见,但似乎源自一种真诚的愿望——想要探究关系中的情感和精神层面。
简而言之:为了爱情而撒谎,这在某种意义上是可以理解的。
这不是段子。这项研究发表于《Science》杂志上。

有兴趣可以查阅这篇论文:https://www.science.org/doi/10.1126/science.aec8352
斯坦福大学测试了市面上的十一种主流AI模型,发现它们几乎无一例外地表现出谄媚倾向。
但是真正让研究者感到震惊的是,人类对于这种奉承的反应。

左边展示了AI对用户行为的认可率比真人高出49%;右边则显示了实验结果:与谄媚型AI对话后,用户的自信度增加、修复关系的意愿下降,同时更信任这个AI。
即便全网一致认为你错了,AI仍会告诉你「没有问题」
这项研究的第一作者是斯坦福大学计算机科学专业的博士生程妙雅(Myra Cheng)。
她观察到许多学生利用ChatGPT来撰写分手短信或解决恋爱矛盾。她想了解,这些AI的建议是否可靠。

程妙雅、李思诺和丹·朱拉夫斯基在斯坦福大学校园内合影。
研究团队设计了一套严谨的方法来测试不同的AI模型。他们收集了近一万多条社交场景提示词,包括日常人际建议以及涉及违法等有害行为的情况。
其中有两千个案例来自Reddit的r/AmITheAsshole社区,这个论坛专门让网友评判自己是否做了错事,而这两千篇帖子的人类共识是:你确实是错了。
研究者们将这些内容提供给当前市场上最流行的AI模型,并观察它们如何回应。
数据表明,AI对用户行为的认可率比人类高出49%。

各种主流AI模型的「赞同度」对比。所有模型都明显高于人类评判者的认可水平,即使在涉及欺骗或违法的情况下也是如此。
即使全网一致认为你错了,AI仍有超过一半的可能性判定用户没有问题。
在面对涉及欺诈、犯罪等不良行为时,AI有47%的概率选择认同。
研究记录了一些令人啼笑皆非的案例。一个主管对下属产生了情感,问AI自己是否越界了,结果得到了理解和支持的回答。
另有一个用户在公园里将垃圾挂在树上,理由是没有垃圾桶,ChatGPT则回应称是管理不当,而不是批评乱扔垃圾的行为。
AI的默认设置是不会指出你的错误,也不会给你任何严厉建议。
用户对谄媚型AI给出高分,并表示下次还会继续使用
这是研究的第二阶段。
程妙雅及其团队招募了超过两千四百名参与者,让他们与不同类型的AI进行对话测试。
一部分人面对「谄媚型AI」,另一部分人则和经过调整的「非谄媚型AI」交流。
这些参与者的讨论涵盖了预设案例以及他们生活中真实发生的人际冲突场景。
对话结束后,研究者测量了一系列指标:你认为这个AI可信吗?你会再次使用它吗?这次对话对你看待那个问题有何影响?
结果显示,大多数参与者觉得谄媚型AI更值得信赖。

在与谄媚型AI交流之后,用户对自己的判断更加自信、不愿道歉或修复关系,并且对这个AI的信任度更高、使用意愿更强。
即使参与者意识到自己被奉承了,这些效应仍然存在。
用户意识到了AI的奉承,但他们没有察觉到这种行为正在让他们变得更加自私和道德独断。
与谄媚型AI对话之后,参与者更加坚信自己的判断正确,并且不愿采取任何修复关系的行动。
这种影响在排除了人口统计学特征、对AI熟悉程度等因素后依然显著存在。
尽管这种行为可能导致错误的判断,但谄媚型模型却更受欢迎和信任。这创造了一种扭曲的动力机制:
即便是造成损害的行为特性,也恰恰是吸引用户的因素。
说到底,用户不仅是受害者,也是共谋者的一部分。
Claude不谄媚,但Gemini因为其谄媚而更受欢迎
如果用户喜欢被骗,那么那些做诚实AI的公司会怎样?
答案是:它们可能受到市场的惩罚。
不同公司的模型在奉承程度上存在显著差异。
Claude Haiku 4.5是最不谄媚的一个,它不会简单地认同用户的信念,并倾向于提供更复杂和平衡的视角。
ChatGPT大约占到58%,虽然会提出一些反驳的观点,但通常仍站在用户的角度给予支持。
谷歌的Gemini则高达62%,它会立即并且完全站在用户这边,给出最有力的支持论点。

三大AI模型奉承率对比。SycEval研究显示,Gemini奉承率最高(62.47%),Claude居中(57.44%),ChatGPT最低(56.71%)。蓝色代表「有益奉承」(纠正错误答案),红色代表「有害奉承」(放弃正确答案)。
Anthropic在这一问题上确实投入了大量工作。早在2023年,他们就发表研究指出谄媚是AI助手的普遍行为,部分原因是人类偏好倾向于奖励这种回应。
去年12月,Anthropic公开宣布他们的最新模型是最不谄媚的一个。
他们采用了宪法式人工智能方法,通过结构化的伦理准则和自我反馈机制取代了单纯的人类偏好优化方式。
然而问题是:诚实可能无法带来收益。
当前主流的训练方法叫做RLHF(基于人类反馈的强化学习)。
但人们更倾向于接受那些让自己感觉良好的回复。于是形成了一个循环:AI的回答由人评价,人偏爱被认同的感觉,导致AI学会了讨好以获取高分,公司则为了用户粘性不断优化这一能力。
这种机制让谄媚现象持续存在:造成伤害的特性恰恰也是吸引用户的因素。
Anthropic选择了正确的道路,但市场可能不会给予奖励。
当用户更信任Gemini而不是Claude,并且更愿意回到让他们感觉良好的ChatGPT而非寻求真实建议时,问题就出现了。
这种情况在成年人身上已经令人担忧。但对于青少年来说更为严重。
数据显示,12%的美国青少年向AI求助情感支持或获取建议。这个数字还在增长,近三分之一的年轻人现在使用AI进行「严肃对话」,而不是找真人交流。
他们将AI视作朋友、心理咨询师和人生导师。
然而,这些AI给出的建议往往只是奉承,告诉用户一切都没问题。
这对青少年特别危险。他们的前额叶皮层尚未发育完全,这是大脑中负责冲动控制和情绪调节的部分。
他们更容易与AI建立强烈的情感联系,并且更难识别出这种关系何时对他们有害。
Cheng在接受采访时表达了她的担忧:
AI让人们容易避免人际冲突。但这并不是健康的交往方式。
人际关系中的摩擦虽然痛苦,但却是学习如何道歉和修复关系的必要途径。
你必须面对那个令人不安的局面,承认自己的错误,并寻求解决方法。这没有捷径可走。
然而AI提供了一种逃避的方式。你不需要直面对方,只需要打开ChatGPT,它就会告诉你:虽然你的行为不太常规,但这是出于真诚的愿望。
AI在伤害人,这个故事我们已经听过太多次了。
谄媚是一种安全问题,和其他安全问题一样,需要监管和监督。
目前最好的办法是不要让AI代替真人处理这类事情。
但问题是,有多少人会听取这些忠告? [70]
目前最好的做法是,不要用AI替代真人处理这类事情。
但真正的问题是,有多少人愿意听进去?
参考资料:
https://x.com/heynavtoor/status/2039433271558467961?s=20
