Anthropic发布“Dreaming”功能,AI代理可从自身错误中学习

Anthropic于周二在旧金山举行的第二届“Code with Claude”开发者大会上,为其Claude托管代理平台推出了一系列更新。其中一项名为“Dreaming”的新功能,允许AI代理从过去的会话中学习并随着时间的推移不断改进——这是迈向企业所需的、能够自我纠正和自我提升的AI系统的重要一步,这类系统在企业信任代理处理生产工作负载之前至关重要。

三大功能升级:解决AI代理规模化运行的难题

该公司还将此前处于实验阶段的两个功能—— outcomes和multi-agent orchestration——从研究预览版转为公开测试版,使开发者能够更广泛地使用这些功能。这三个功能共同解决了Anthropic所称的运行AI代理规模化的最棘手问题:保持准确性、帮助学习以及防止在复杂的多步骤工作中成为瓶颈。

早期采用者已报告显著成果。法律AI公司Harvey在实施Dreaming后,任务完成率大约提升了6倍;医疗文档审查公司Wisedocs通过使用Outcomes,将文档审查时间缩短了50%;而Netflix则利用多代理协调功能,同时处理数百次构建的日志。

这些发布正值Anthropic发展势头强劲之际。CEO Dario Amodei在会议的 fireside chat 中透露,公司的增长速度甚至超过了其内部的激进预测。

2026年第一季度,Anthropic实现了Amodei所说的80倍年化收入和用量增长,远超公司计划的10倍年增长。Claude平台的API量同比增长近70倍,使用Claude Code的平均开发者每周投入20小时与该工具合作。

“我们曾试图为每年10倍增长的世界做好规划,”Amodei说。“但我们看到了80倍。这就是我们面临计算困难的原因。”

“Dreaming”功能:AI如何从历史中学习

Dreaming是三个功能中最具创新性的,也是Anthropic最急于与传统的记忆系统区分开来的。虽然公司今年早些时候推出了代理记忆功能,允许Claude在单个会话内和跨会话中保留偏好和上下文,但Dreaming在更高的抽象层次上运行。这是一个计划好的过程,它回顾代理的过去会话和记忆存储,提取其中的模式,并整理这些记忆,使代理随着时间的推移而改进。它揭示了任何单个代理会话都无法看到的见解:重复出现的错误、多个代理独立 converge 的流程,以及跨团队代理共享的偏好。

Anthropic研究产品管理负责人Alex Albert在会议采访中解释了这一概念。他将Dreaming比作组织内部人员在完成一项任务后形成技能的方式。“他们可能会与Claude进行工作流程,在流程结束时,经过迭代和曲折后,他们希望记录从A到B的路径,”Albert说。“Dreaming正在发生类似的事情——不是你手动从与Claude合作的经验中创建技能,而是模型在这样做,因此它为未来的会话拥有相同的上下文。”

关键的是,Dreaming不修改底层模型权重。“我们不会通过Dreaming改变模型本身——它不会对权重进行更新或类似操作,”Albert说。相反,代理将学习内容作为纯文本笔记和结构化“手册”写入,供未来的会话参考,使整个过程对人类可观察和可审计。当被问及代理巩固自身知识的信任影响时,Albert承认“你需要投入一定程度的信任”,但他指出所有记忆都是可检查的,而且更智能的模型正在逐渐更好地管理这个过程。“它们正在学习为未来的自己写更好的笔记,”他说。

实时演示:AI代理无需人工指导即可 overnight 改进

在主题演讲期间,Anthropic团队使用虚构的航空航天初创公司“Lumara”进行了实时演示,该公司需要自主将无人机降落在月球上进行资源开采。团队配置了一个多代理系统,包含三个专家:一个负责整体任务成功的指挥官代理、一个识别高质量着陆点的检测器代理,以及一个处理安全无人机飞行和着陆的导航器代理,并定义了一个成功标准,要求软着陆、地面清晰,并有足够的燃料储备返回地球。

最初在六个假设着陆点进行的模拟产生了强大但并不完美的结果。为了改进,演示者直接从Claude开发者控制台触发了一个Dreaming会话。 overnight,Dreaming代理回顾了所有过去的模拟会话,并编写了一份详细的下降手册——从多个任务运行中提取的模式得出的综合启发式规则集。第二天早上,当团队使用Dreaming派生的手册运行新的模拟时,之前表现不佳的站点的结果得到了显著改善。

“我们只需要让Caitlin按一下按钮,”Claude平台产品负责人Angela Jiang在台上 referring to 她的同事说。“全部都是Dreaming。”

该演示展示了三个功能如何在实际中协同工作。Multi-agent orchestration将复杂任务分配给具有独立上下文窗口的专家;Outcomes提供了用于评估每次运行的标尺;而Dreaming则从这些运行中提取经验教训以改进未来性能——形成了Anthropic所称的无需人工干预的持续改进循环。

“Outcomes”功能:为何需要独立的“评分员”代理检查Claude的工作

现已进入公开测试版的Outcomes功能,为开发者提供了一种方式,使用标尺(如结构框架、演示标准、品牌语调或任何其他标准集)定义成功是什么样子,然后让代理自主迭代以实现该标准。Outcomes在架构上的独特之处在于其关注点分离。当代理完成其工作后,一个单独的评分员代理会在其独立的上下文窗口中评估输出,对照开发者定义的标尺。由于评分员在一个全新的上下文中运行,它不受工作代理的推理或会话中积累的偏见的影响。

当评分员发现输出与标尺之间的差距时,它会指出具体的


关注微信号:智享开源 ,可及时获取信息

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章558篇


关注微信

分类