Anthropic发布“Dreaming”功能，AI代理可从自身错误中学习

当前位置：首页
» 科学 » Anthropic发布“Dreaming”功能，AI代理可从自身错误中学习

Anthropic发布“Dreaming”功能，AI代理可从自身错误中学习

Anthropic于周二在旧金山举行的第二届“Code with Claude”开发者大会上，为其Claude托管代理平台推出了一系列更新。其中一项名为“Dreaming”的新功能，允许AI代理从过去的会话中学习并随着时间的推移不断改进——这是迈向企业所需的、能够自我纠正和自我提升的AI系统的重要一步，这类系统在企业信任代理处理生产工作负载之前至关重要。

三大功能升级：解决AI代理规模化运行的难题

该公司还将此前处于实验阶段的两个功能—— outcomes和multi-agent orchestration——从研究预览版转为公开测试版，使开发者能够更广泛地使用这些功能。这三个功能共同解决了Anthropic所称的运行AI代理规模化的最棘手问题：保持准确性、帮助学习以及防止在复杂的多步骤工作中成为瓶颈。

早期采用者已报告显著成果。法律AI公司Harvey在实施Dreaming后，任务完成率大约提升了6倍；医疗文档审查公司Wisedocs通过使用Outcomes，将文档审查时间缩短了50%；而Netflix则利用多代理协调功能，同时处理数百次构建的日志。

这些发布正值Anthropic发展势头强劲之际。CEO Dario Amodei在会议的 fireside chat 中透露，公司的增长速度甚至超过了其内部的激进预测。

2026年第一季度，Anthropic实现了Amodei所说的80倍年化收入和用量增长，远超公司计划的10倍年增长。Claude平台的API量同比增长近70倍，使用Claude Code的平均开发者每周投入20小时与该工具合作。

“我们曾试图为每年10倍增长的世界做好规划，”Amodei说。“但我们看到了80倍。这就是我们面临计算困难的原因。”

“Dreaming”功能：AI如何从历史中学习

Dreaming是三个功能中最具创新性的，也是Anthropic最急于与传统的记忆系统区分开来的。虽然公司今年早些时候推出了代理记忆功能，允许Claude在单个会话内和跨会话中保留偏好和上下文，但Dreaming在更高的抽象层次上运行。这是一个计划好的过程，它回顾代理的过去会话和记忆存储，提取其中的模式，并整理这些记忆，使代理随着时间的推移而改进。它揭示了任何单个代理会话都无法看到的见解：重复出现的错误、多个代理独立 converge 的流程，以及跨团队代理共享的偏好。

Anthropic研究产品管理负责人Alex Albert在会议采访中解释了这一概念。他将Dreaming比作组织内部人员在完成一项任务后形成技能的方式。“他们可能会与Claude进行工作流程，在流程结束时，经过迭代和曲折后，他们希望记录从A到B的路径，”Albert说。“Dreaming正在发生类似的事情——不是你手动从与Claude合作的经验中创建技能，而是模型在这样做，因此它为未来的会话拥有相同的上下文。”

关键的是，Dreaming不修改底层模型权重。“我们不会通过Dreaming改变模型本身——它不会对权重进行更新或类似操作，”Albert说。相反，代理将学习内容作为纯文本笔记和结构化“手册”写入，供未来的会话参考，使整个过程对人类可观察和可审计。当被问及代理巩固自身知识的信任影响时，Albert承认“你需要投入一定程度的信任”，但他指出所有记忆都是可检查的，而且更智能的模型正在逐渐更好地管理这个过程。“它们正在学习为未来的自己写更好的笔记，”他说。

实时演示：AI代理无需人工指导即可 overnight 改进

在主题演讲期间，Anthropic团队使用虚构的航空航天初创公司“Lumara”进行了实时演示，该公司需要自主将无人机降落在月球上进行资源开采。团队配置了一个多代理系统，包含三个专家：一个负责整体任务成功的指挥官代理、一个识别高质量着陆点的检测器代理，以及一个处理安全无人机飞行和着陆的导航器代理，并定义了一个成功标准，要求软着陆、地面清晰，并有足够的燃料储备返回地球。

最初在六个假设着陆点进行的模拟产生了强大但并不完美的结果。为了改进，演示者直接从Claude开发者控制台触发了一个Dreaming会话。 overnight，Dreaming代理回顾了所有过去的模拟会话，并编写了一份详细的下降手册——从多个任务运行中提取的模式得出的综合启发式规则集。第二天早上，当团队使用Dreaming派生的手册运行新的模拟时，之前表现不佳的站点的结果得到了显著改善。

“我们只需要让Caitlin按一下按钮，”Claude平台产品负责人Angela Jiang在台上 referring to 她的同事说。“全部都是Dreaming。”

该演示展示了三个功能如何在实际中协同工作。Multi-agent orchestration将复杂任务分配给具有独立上下文窗口的专家；Outcomes提供了用于评估每次运行的标尺；而Dreaming则从这些运行中提取经验教训以改进未来性能——形成了Anthropic所称的无需人工干预的持续改进循环。

“Outcomes”功能：为何需要独立的“评分员”代理检查Claude的工作

现已进入公开测试版的Outcomes功能，为开发者提供了一种方式，使用标尺（如结构框架、演示标准、品牌语调或任何其他标准集）定义成功是什么样子，然后让代理自主迭代以实现该标准。Outcomes在架构上的独特之处在于其关注点分离。当代理完成其工作后，一个单独的评分员代理会在其独立的上下文窗口中评估输出，对照开发者定义的标尺。由于评分员在一个全新的上下文中运行，它不受工作代理的推理或会话中积累的偏见的影响。

当评分员发现输出与标尺之间的差距时，它会指出具体的

关注微信号：智享开源 ，可及时获取信息

0 0