
机器之心编辑部
近期,Claude Code 负责人 Boris Cherny 面临着前所未有的挑战,因其开发的这款备受推崇的人工智能系统,在频繁更新的同时也暴露出一系列问题。
最近引发广泛关注的是其模型思考深度大幅下降的问题。有人发现,从今年1月底约2200字符到2月下旬骤降至720字符,降幅超过67%,到了3月初更是进一步跌至560字符。开发者对此表示,“Claude 的表现已经退步到无法执行复杂任务的程度。”

与此同时,在3月上线的 redact-thinking 功能将思考过程从界面上隐藏起来,使这一问题在用户面前变得不那么明显。
思考深度降低导致了一系列连锁反应:模型不再深入考虑就修改代码、无效迭代率飙升、API调用成本暴涨百倍。
Boris 表示,redact-thinking 功能只是界面层面的隐藏,并不影响实际推理过程;真正影响的是两处变更 —— 2月引入了让模型自主决定思考深度的“自适应思考”模式,3月又将默认 effort 级别调为 Medium。他建议用户可以手动调整回高强度模式。


目前,关于这些变动引发的讨论仍在持续发酵,Claude Code 正面临着一场严重的信任危机。
同时,我们还发现该系统可能存在其他值得关注的技术缺陷,这些问题可能导致用户的实际成本大幅增加。
七项技术问题叠加起来,在一周内仅一天时间就消耗掉了一半的 token 配额。
这些问题是由一位使用 Claude Max 20x 订阅服务的开发者发现的。4月1日当天,他烧掉了当周配额的43%。

接下来几天里,这位用户深入分析了系统代码,并找到了七个相关的问题,到发帖时为止,其中有三个已被修复,两个可以规避风险,还有两个仍然未解决。
其中最严重的一个问题是:Extra Usage 功能会悄悄地关闭缓存机制。
在 Claude Code 的 cli.js 文件中有一个函数负责决定向服务器请求多长时间的缓存 —— 要么是 1 小时,要么为 5 分钟。该函数在检测到用户进入 Extra Usage 模式后会自动将缓存时间缩短至 5 分钟,并且不会发出任何提示信息。
这种变化导致的直接后果是费用显著增加:以220K 上下文为例,使用1小时缓存时每轮花费约为0.22美元,而5分钟缓存则高达0.61美元,比前者贵了将近两倍。这意味着同样的预算在不同模式下的对话轮数会相差巨大。
更糟糕的是,这会导致一个“死亡螺旋”:其他缓存问题先将计划内配额快速消耗殆尽,在超额付费启用后,客户端检测到 Extra Usage 后将缓存时间缩短至 5 分钟,导致每次暂停都会触发一次完整的上下文重建,而超额费用则迅速被耗尽。
然而,作者指出只需修改一个函数就能解决这个问题。服务器愿意提供一小时的缓存服务,但此改动在版本更新后会被覆盖。
此外,作者还列出了另外六个问题
第一个是官方提供的二进制安装包存在的缺陷:其中包含了一个自定义 Bun 运行时,每次请求都会破坏缓存前缀。解决方法是使用 npm install 安装,并通过运行 file $(which claude) 来验证 —— 结果应该是符号链接,而非 ELF 二进制文件。
第二个 Bug 存在于 v2.1.69 到 v2.1.90 版本之间,长达28天内会话恢复时丢失关键附件类型。此问题已在 v2.1.91 中修复。
自动压缩功能没有熔断机制是第三个 Bug:如果失败则无限重试,作者发现有1279个会话出现50次以上连续失败的情况,这个问题已在v2.1.89版本中得到解决。
第四个 Bug 是工具结果在客户端被截断:Bash 工具上限为30K字符,Grep 工具上限为20K字符。这些限制可以在本地配置文件~/.claude.json的cachedGrowthBookFeatures字段中查看。
前面提到的核心 Bug 就是第五个问题。
第六个 Bug 是客户端在大型对话记录中伪造限速错误,显示模型合成、token 数为零,但实际上并未发起任何API调用。这个问题目前仍未修复。
第七个 Bug 则出现在服务端:服务器的压缩机制会在会话过程中删除工具结果而不通知用户,并破坏缓存。这无法通过客户端打补丁来解决。
作者特别强调,这些问题之间是相互作用而非独立存在。同时触发其中的一些问题可能会导致配额在不到两小时内被迅速消耗殆尽。
遇到这些问题怎么办?
对于以上提到的问题,作者建议:使用原生安装包的用户切换到npm方式安装;确保更新至v2.1.91或更高版本。有能力编辑压缩后JS文件的话可以手动给缓存TTL函数打补丁,让它始终申请一小时缓存,但每次版本更新都需要重新修改。
一些用户的反馈证实了作者的解决方案有效:一位在WSL环境下使用的用户表示,在采用作者建议的方式安装后,额度消耗速率迅速恢复正常。

其他一直使用npm方式安装的用户也表示未遇到最近大家抱怨的问题。

经过评论区的比对发现,这些不受影响的用户大多是在用 VS Code 插件、电脑桌面版或直接网页版。这进一步证实了这个吞额度 Bug 几乎是 Claude Code CLI 原生安装包独有的问题。

最后,作者表示自己无法判断 Extra Usage 时降级缓存是否为有意设计或是疏忽所致。可能是某种成本优化措施但未能考虑其带来的连锁反应。
近期更新的 v2.1.92 版本中,Claude Code 增加了更详细的账单透明度功能。现在用户可以使用 /cost 命令查看基于每个模型以及缓存命中情况下的详细费用分解。
同时新版本还加入了“缓存过期”的主动提醒机制:在 Pro 用户返回会话时,界面底部状态栏会显示提示信息,告知当前的提示词缓存已失效,并预估下一轮对话将发送多少个未经缓存的 Token。这相当于一种免责声明 —— 它不再静默扣费,而是明确告诉用户接下来提问将会很昂贵。

从最初的担心 AI 取代程序员发展到现在需要警惕 AI 工具在无形中掏空我们的钱包。
当 Anthropic 在追求极致体验与沉重推理成本之间挣扎时,我们很难分辨哪些问题是真正的 Bug 哪些是为了优化成本有意为之。
不过有一点可以确定:开发者们期待的不是一个为他们做决定的黑盒子工具,而是透明、可预测的操作杠杆。当一个工具开始在用户看不见的地方通过缩短缓存时间或者隐藏思考逻辑来平衡自己的账单时,它失去的不仅仅是几美元的 token 费用,更是长久以来建立起来的信任。
参考链接:https://www.reddit.com/r/ClaudeAI/comments/1sbqalg/i_reverseengineered_why_claude_code_burns_through/
