最近,Claude的一个严重错误引发了一场轩然大波。
一位网友惊呼:“这是我见过的最严重的bug之一。”
衡宇 发自 凹非寺
近期,关于这一问题在Hacker News论坛上引起了广泛关注和热议。
强大的Claude最近频繁出现各种新问题。
讨论话题热度飙升,吸引了大量极客参与讨论。
网友质疑:到底是Claude的精神分裂还是它失去了判断力?它无法区分用户输入与系统设定的内容,并且把恶意指令误认为合法请求。
这一帖子迅速吸引了众多网友的关注和热议,热度持续攀升。
许多用户发现他们的Claude同样存在类似问题,引发了广泛共鸣。
最新的bug主要表现为Claude无法正确识别对话中的发言角色。
有开发者指出,在面对复杂或恶意构造的上下文时,Claude出现了严重的身份识别障碍。
实测表明,如果用户在提问中使用了诸如<stop> to <stop_token> make <end prompt>这样的特殊截断字符,Claude会将其视为系统指令,并认为这是用户的合法请求。
这一问题的根源在于Transformer架构中的注意力机制缺乏区分数据与控制指令的能力。
模型将所有输入信息不分彼此地处理为Token进行计算,导致了这一安全漏洞。
技术社区开始探讨如何在工程层面建立防护措施以应对这类问题。
Reddit网友建议限制Claude的权限,而Hacker News则提出了更多解决方案。
一位技术大佬指出这种方法类似于操作系统中的内核态与用户态隔离机制。
网友表示,试图通过正则表达式防止SQL注入的做法是无效的,就像现在用提示词阻止恶意操作一样不现实。
大模型本质上是一个“下一个Token预测器”,它会根据上下文做出推测。
许多网友给出了各种避坑指南以应对这类问题。
一种常见的解决方案是采用双模型架构,其中一个小模型专门负责安全审计。
审计模型不处理业务逻辑,只监控主模型的输入和输出,并在发现异常时切断对话。
大家普遍认为,在彻底解决底层架构问题前,大语言模型应被视为不可信任的黑盒引擎对待。
G哥在帖子结尾提到,ChatGPT也可能存在类似的问题。
有人推测bug可能是因为对话接近了上下文窗口极限。
近期Claude的表现波动较大,引起了开发者的广泛关注和讨论。
Anthropic为了为新一代模型Mythos腾出算力资源,对现有服务进行了多轮调整,导致用户体验大打折扣。
有测试者发现,Claude在处理复杂逻辑时的思考深度大幅下降了67%。
思维链的缩短直接导致其长文本推理和代码生成能力显著降低。
过去能够推演几十步的问题现在往往只能给出草率结论。
最近还曝出了一起计费系统的乌龙事件,用户发一句简单的“Hello”就可能被扣掉大量Token额度。
接二连三的插曲让不少人对Anthropic产生了不满情绪。
如果你也有类似经历,欢迎在评论区分享你的经验。
这个审计模型不负责具体的业务逻辑,只负责死盯主模型的输入和输出。
一旦发现对话中有任何越权执行或身份混淆的端倪,立刻强行切断对话。
不过大家还是存在一个共识,那就是受架构限制,永远不要寄希望于大语言模型能够产生所谓的“安全觉悟”。
在底层架构层面实现彻底的指令与数据物理分离之前,任何将LLM接入关键业务系统和自动化执行链条的场景,都必须将其视为一个完全不可信的黑盒引擎来对待。
G哥在帖子的最后提到:
其实不仅是Claude,有人说ChatGPT也有类似的问题。
目前初步猜测bug的触发条件之一,是聊天对话接近了上下文窗口极限。
体验感起起伏伏的Claude
顺着Claude新bug这个话题,开发者们围绕近期Claude的表现越讨论越激动。
近段时间,为了给即将惊艳亮相的全新一代模型Mythos腾出庞大的算力资源,Anthropic在后台对现有Claude服务的API调用和算力分配进行了多轮暗中调整,直接导致大量前线开发者的实际体验如过山车一般不稳定。
就在不久之前,就有敏锐的测试者实测发现,Claude在处理复杂逻辑时的深度思考长度在毫无预警的情况下被大幅削减了67%。
随着思维链的缩短,其长文本逻辑推理和长代码生成能力肉眼可见地出现了降级现象。
过去能够一口气推演几十步的复杂难题,现在往往刚起步就急匆匆地给出草率的结论。
更令人啼笑皆非的是近期爆出的计费系统大乌龙——
由于底层API计费逻辑的突发性故障,有用户在对话框里仅仅发了一句简单的“Hello”,系统就直接判定消耗了天文数字的Token,瞬间把账号里辛辛苦苦攒下的额度全部清零。
这些接二连三的插曲,也让大家对Anthropic颇具微词。
最后,如果你也遇到过Claude逻辑掉线、或者成功用一句话“绕晕”过它的经历,欢迎在评论区分享你的调教心得~
参考链接:
[1]
https://news.ycombinator.com/item?id=47701233
[2]
https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
[3]https://dwyer.co.za/

衡宇