顶级编程辅助AI的实力是否真的有所下滑?
在今年初,Anthropic公司推出了Claude Opus 4.6版本,凭借其深刻的逻辑思维和精准执行复杂代码的能力,在业界获得了极高的评价。
然而,这款备受期待的产品却在短短几周内遭遇了用户的强烈批评,许多用户在网络上抱怨该产品的性能骤降。

许多付费用户声称自己支付了高额月费后,得到的却是明显缩水且表现不佳的新版本。Opus 4.6不仅变得懒散健忘,在处理基本逻辑时也频频出错。
面对用户的广泛不满,Anthropic官方团队进行了回应,辩称他们从未削弱模型性能,而是一系列默认配置优化旨在帮助用户节省Token费用。
这样的解释并未平息开发者的愤怒情绪。
争议的核心问题是:这是大量用户的误解,还是公司在算力受限的情况下不得不采取的缩水措施?
AMD高管深入分析:6852份日志揭示真相
斯特拉·劳伦佐,AMD AI部门高级总监,在GitHub上发布了一份详尽的技术报告。
劳伦佐拥有丰富的行业经验,她在谷歌担任首席软件工程师,并在加入AMD前曾任Nod.ai工程副总裁。
她的报告于4月2日公开,详细分析了大量Claude代码会话和思考记录数据。
这位专家并没有凭空猜测,而是基于详实的数据,揭示了一个令人担忧的事实:从二月份开始,Claude的推理深度显著下降。

劳伦佐指出,中位数思考长度由原来的2200字符缩减至600字符。
细节信息显示:
从前需要多轮研究才能完成的任务现在变成了直接编辑,这使得读取与编辑的比例从6.6倍降至了2.0倍。
在短短的三周内,Claude尝试放弃任务或询问是否继续的次数激增到173次,而在之前这个数字为零。
劳伦佐还指出,推理过程中的自我否定现象增加了三倍。
她总结道,在复杂的工程环境中,深度推理是必不可少的功能,而目前版本的Claude在这一点上已经无法满足需求。
不过需要注意的是,劳伦佐的分析并未直接将思考量减少等同于智力下降,只是说二月底的时候推理深度减少了67%。
社交媒体上的证言:40分钟思考与无用账单
劳伦佐的研究报告在社交媒体上引发了广泛的讨论。
网红开发者奥姆·帕特尔直接指出,有人测出了Claude变笨了大约67%的程度。
他强调Opus 4.6的思考量减少了三分之二,并且讽刺说Anthropic一直对此闭口不谈直到数据公开后才出来解释。
此外,他还透露内部源代码显示有一个开关可以调整模型的表现,但这一说法尚未得到独立验证。

Reddit上的用户们则用具体事例反映了他们的困惑和不满:
一位名叫DangerousSetOfBewbs的网友表示,他曾让Claude处理一个500行文件的任务,结果它陷入了长达24分钟的沉思状态。还有人说看到它在思考40分钟后几乎没用Token。
用户还提到,Claude有时会忽略项目规范,仿佛患上了失忆症。
一位Reddit用户表示他已经停止订阅Claude Max 20,并转向Codex Pro,认为现在的Claude就像旧版本一样无能。

跑分争议:从第二名跌到第十名

用户的主观感受或许可以理解为个人体验差异,但基准测试的结果却显得更加客观。

4月12日,BridgeMind发布推文指出Claude Opus 4.6被削弱了。根据他们的数据,这款产品在两周内从第二名跌到了第十名,并且准确率也大幅下降。
这一结果受到了质疑。保罗·卡尔克拉夫特认为测试方法存在问题,因为前后两次的对比并不完全一致。
他指出仅看共同的任务,Claude的表现变化很小,属于统计误差范围之内。
然而社交媒体上广泛传播的那个跌落至第十名的数据依然具有很强的说服力,成为了支持“降智论”的重要证据之一。

官方声明:优化而非削弱

面对用户的质疑,Anthropic团队成员鲍里斯·萨姆纳在媒体上进行了回应。
他解释说此次调整是为了帮助用户节省费用,并且已经明确告知了用户这一变动。
官方的说明并没有平息众怒,许多网友认为这样做牺牲了用户体验是不值得的。

此外,公司没有提前通知用户的操作也损害了他们的知情权。
背后的故事:缓存生存时间和算力瓶颈
用户还注意到Claude变得更贵了。GitHub上的反馈指出提示词缓存时间从一小时缩短到了五分钟。

这意味着用户需要频繁重新上传上下文,增加了延迟和Token消耗量。
Anthropic工程师承认了这一变动,并表示这是为了优化性能,但许多开发者认为这实际上是减少了用户体验的便利性。
Reddit网友raven2cz分析称,这两个问题都与基础设施过载有关。用户数量激增导致了资源紧张的问题。
Wickywire指出,在两个月内日活跃用户从四百万增长到一千一百万时,公司不得不迅速扩容以应对需求增长。
尽管这些都是事实,并没有隐藏的意图,但对于依赖这款产品的开发者来说,这种变化是不可接受的。

一些网友建议在非高峰时段使用Claude或尝试其他服务商的产品作为解决方案。
结论:信任危机比产品性能下降更严重
目前的情况表明用户感到产品体验变差,而公司则强调自己没有削弱模型的核心功能。
这两种说法虽然不直接矛盾,但对依赖Claude的开发者来说,这种变化意味着实质性的用户体验下滑。
当用户开始怀疑一款工具的可靠性时,建立信任变得非常困难。
在竞争激烈的市场环境中,OpenAI的Codex正在逐渐赢得用户的青睐。

数据显示,在最近几个月中,Codex及其相关插件的新增用户量显著增长。
如果Anthropic无法找到在节省算力成本和维持深度推理之间的平衡点,那么Claude的声誉可能会受到严重挑战。
一位老用户表示宁愿支付更高的费用以获得更稳定的服务也不愿意忍受目前的情况。
这场关于AI性能的竞争才刚刚拉开序幕。
这两大问题也就是额度限制和思考能力下降都与基础设施过载密切相关,去GitHub上看看就知道了,成千上万的用户现在都在面临类似的问题,这情况感觉就像一年半前GPT发布新模型时一样。

网友Wickywire则分析了其中的根本原因,Anthropic在两个月内日活用户从400万涨到了1100万,他们完全没有准备并不得不全天候连轴转去拼命扩容,这就是所谓削弱的真相。你去对时间线,和二三月份发生的事完全吻合。
这里没有任何隐藏的意图,只是一个经历增长之痛的公司,硬件与能源的瓶颈是真实且证据确凿的。
我们知道原因所在且它们都是结构性的,所以解决办法也确实有限,在Reddit上反复纠结毫无意义。

这位网友给出的解决方法倒是立竿见影且切实可行,如果你觉得Claude表现不佳可以试试在非高峰时段使用,如果不行换别家AI服务商也行,反正又不是没有选择,真是受够了那些在论坛上抱怨使用量和性能下降的人了。
六、结语:信任危机比变笨更可怕
目前的局面是,用户在描述体感,而Anthropic在描述参数。
用户觉得它变笨了且任务失败了,官方则表示没有动权重,只是改了默认努力值与缩短了缓存以及调整了前端显示并公开披露过。
这两种描述其实并不矛盾,在AI领域即便公司认为自己没有在底层削弱模型,但微妙的设置变化和配额限制,对全天候依赖它的开发者来说体验上与变笨毫无二致。
当开发者开始怀疑一个工具的稳定性时,这种信任的裂痕是极难修复的。
尤其是在强敌环伺的当下,OpenAI的Codex正在步步紧逼,它凭借更稳定的算力输出与灵活的中阶订阅及全新的交互功能,精准收割失望的开发者。
第三方开发者调研工具显示,自今年3月底Claude降智传闻发酵以来,Codex及其相关插件的周新增用户量环比增长了约22%。
如果Anthropic无法在节省算力成本与维持深度推理之间找到真正的平衡点,那么Claude辛辛苦苦建立起的口碑恐怕将在这场风波中受到考验。
有老用户所说,我宁愿付两倍的钱买一个聪明的Claude,也不愿花同样的钱买一个只会说道歉并要求更多信息的笨蛋。
这场AI界的性能拉锯战才刚刚开始。
