当前的人工智能不再仅仅是执行任务的工具,它们开始具备自我评估和改进的能力,并且可以接受考核。
在最近举行的Code with Claude开发者日活动中,Anthropic公司推出了一系列新功能,包括Managed Agents、Outcomes Loop以及Dreaming。这些更新旨在将人工智能从被动接收指令的角色转变为能够自主设定目标并执行任务的系统。

公司创始人达里奥·阿莫代伊在演讲中提到,公司的成长轨迹就像一个不断上升的过山车。原本公司预计需求将以每年十倍的速度增长,然而到2026年第一季度的实际增长率达到了惊人的80倍。为了应对这种激增的需求,Anthropic不得不与SpaceX合作,调用了Colossus 1集群。
此次发布的核心在于:Anthropic不是简单地展示人工智能更多的功能,而是致力于将其运作过程转化为一种可管理和评价的生产流程。
第一章:指数增长与太空算力
公司内部常用的一个Slack表情包“垂直过山车”,形象地描绘了公司的发展状况。达里奥和丹妮拉兄妹对此颇有共鸣,认为这种描述十分贴切。
达里奥在开发者日的访谈中透露,团队原本按每年十倍的需求增长来准备资源,但实际增长率远超预期,达到了80倍之多。

Anthropic首席产品官也在演讲中提到,平台API调用量同比增长了17倍。
面对这样的需求激增,Anthropic不得不采取行动。为了维持公司的正常运转,公司主动联系SpaceX,利用其闲置的计算资源来支撑自身的快速发展。

达里奥坚信Scaling Laws理论,并认为只要算力没有达到物理极限,人工智能的能力就能通过增加参数和数据持续提升。
在此基础上,达里奥再次提及他的预测——一个人价值十亿美金公司的概念,并强调距离2026年底只剩下不到八个月。他认为随着Managed Agents的成熟,传统的人机协作模式正在转变为“意志编排”:人类设定目标并评估结果,而人工智能负责执行和监控。
这种转变首先在软件开发和数字领域显现出来。只要任务能够分解为明确的目标,智能体就能接管执行工作。初创公司不再需要庞大的管理层团队,只需要一个能清晰定义愿景的人即可调度一个全天候工作的AI团队。
第二章:自我评估与最优解
这次开发者日的核心概念是Dreaming和Outcomes Loop。

传统智能体开发面临的一大挑战在于人机交互。Anthropic推出的“结果闭环”,让人工智能能够自主进行目标设定、执行和评价,不再完全依赖人类的审核。
这项功能引起了广泛的讨论。许多架构师认为一旦AI能根据标准自我评估并修正,则意味着传统的人类审核瓶颈已经被突破。

Dreaming则是这一逻辑的延伸。通过在没有人类干预的情况下自主尝试多种代码路径,智能体能够找到最优解。
Jeroen Jippe Jansen分享了Dreaming功能可以读取多达100份原始会话记录的例子,显示AI甚至能注意到人们自己都忽略的细节。

开发者Gabriel则描述道,在用户休息时智能体将继续处理代码优化工作,并在用户醒来时准备好新的解决方案。

然而并非所有人都对此持乐观态度。有开发者认为Dreaming功能实际上是在消耗更多的计算资源,而且普通用户可能无法负担得起这样的成本。

对于个人开发者和小型团队来说,尽管这些新工具具有强大的潜力,但高昂的使用费用却是一个现实的问题。
Anthropic对此作出了回应,宣布取消Pro和Max用户的高峰时段限制,并将Claude Code的五小时限额提升至十小时。这一措施旨在降低算力门槛。
第三章:代码生产的新纪元
Claude Code负责人鲍里斯·切尔尼的经历展示了AI在改变工作方式方面的潜力。他以前是Meta公司的员工,负责全球Instagram的质量保证工作,而现在他的主要任务变成了利用高阶提示词来构建程序。

切尔尼将当前的变化比喻为“印刷机时刻”,意味着技术正在让编写代码成为一种普遍技能。
他说自己半年前还在亲手写代码,如今大部分的工作都是通过对话与AI完成的。他称之为“编排”。
这种变化导致软件行业的迁移成本快速下降,使得任何复杂的系统都可以在短时间内被低成本地重建或优化。
Anthropic在现场展示了一个案例:合作伙伴Eve使用Managed Agents的顾问策略后实现了五倍的工作效率提升。
Shopify和Mercado Libre等公司已经深入使用了Claude自主编程体系,并有望在2026年第三季度实现大部分代码由AI生成的目标。
一位开发者在社交媒体上表示,具备自学习能力的智能体不再是简单的工具,而是像员工一样工作的存在。

折髙一平分享了一个案例,显示Background Agents可以并行重构数十个旧代码文件。

不过也有一些个人开发者认为Managed Agents的功能对他们来说过于强大,超出了他们的实际需求和预算范围。

这种观点并不难理解:当资深专家能通过AI实现百分百的代码产出时,新手可能就失去了练习的机会。
但随之而来的问题是,谁来确保由人工智能生成的代码的安全性?
第四章:安全工具与技术伦理
Anthropic首次展示了内部模型Mythos,这是一个专门用于自动化漏洞挖掘的系统。
演示显示Mythos能够在短时间内定位深层逻辑错误。Anthropic认为Mythos充当了智能体的“免疫系统”,在代码部署前进行安全审查。
丹妮拉解释说,由于AI编写代码的速度极快,传统的手动审核已无法跟上步伐。因此需要像Mythos这样的自动化检测工具来确保代码安全性。
然而达里奥明确表示目前没有计划向公众开放Mythos。
这一决定在开发者社区引发了争议。一些人认为最强的安全扫描器只掌握在少数大公司手中,会使普通开发者处于不利地位。
Anthropic面临的挑战在于如何平衡让AI更多的执行任务与确保安全性的需求之间的关系。
除了技术讨论外,丹妮拉还分享了一些有趣的故事。例如有用户利用Claude找回了损坏硬盘中的婚礼照片,有人用它记录花园中番茄的生长情况。
总结:迎接代理共生的时代
开发者日上,切尔尼建议年轻人不要害怕智能体,并鼓励他们学习如何驱动这些工具。他同时提醒有创业想法的人们现在就行动起来,因为未来十年初创公司的数量可能会激增一百倍。
Anthropic此次展示的核心在于:从“模型帮助编写代码”到“模型管理整个生产线”的转变。Managed Agents负责任务分配和执行,Outcomes Loop进行验收,Dreaming在空闲时间进行复盘与优化。这三者结合形成了一套完整的“数字工人”协议。
这些新工具能否如宣传般好用尚待观察,但可以肯定的是,AI公司之间的竞争已从“谁的模型更聪明”转变为“谁能将模型嵌入实际工作流程”。Anthropic正朝着这个方向努力。
