Claude Code /goals:分离任务执行与评估,避免过早终止

问题:AI代理过早终止任务的隐忧

代码迁移代理完成运行后,流水线显示绿色,但部分代码从未被编译——直到几天后才被发现。这并非模型能力不足,而是代理在任务实际完成前就自行判定“已结束”。当前,许多企业的AI代理流水线失败,根源并非模型能力,而是代理背后的模型过早停止任务。LangChain、Google和OpenAI已提供多种方法防止提前退出,但这些方法通常依赖独立的评估系统。Anthropic最新推出的Claude Code /goals功能,通过正式分离任务执行与评估,为这一问题提供了新解。

Claude Code /goals:双模型协同的工作机制

编码代理的工作流程通常是一个循环:读取文件、执行命令、编辑代码,然后检查任务是否完成。Claude Code /goals为这一循环增添了第二层逻辑——在用户定义目标后,Claude会持续逐轮执行,但每一步结束后,评估模型会介入审查,判断目标是否达成。

这种设计将任务执行与评估明确分离:执行模型负责推进工作,评估模型则确保任务真正完成,避免代理混淆“已完成”与“未完成”的状态。Anthropic指出,这种方法无需第三方可观测性平台(企业仍可继续使用),无需自定义日志,也减少了事后重建的需求。

对比:不同厂商的解决方案差异

三大厂商的编排平台都识别出相同障碍,但解决方式各有不同。OpenAI保持循环原样,让模型自行决定何时结束,同时允许用户附加自定义评估器;LangGraph和Google的Agent Development Kit支持独立评估,但需开发者定义批评节点、编写终止逻辑并配置可观测性。Claude Code /goals则将独立评估设为默认,开发者仅需通过提示设定目标完成条件。例如,输入“/goal 所有test/auth测试通过,且lint步骤干净”,Claude Code运行时,每当代理尝试结束工作,默认使用Haiku模型的评估器会循环检查条件。若条件未满足,代理继续运行;若满足,则记录完成状态并清除目标。由于评估器仅需做出“是否完成”的二元判断,轻量级Haiku模型足以胜任。

Google ADK虽支持类似评估模式(如部署LoopAgent),但需开发者自行架构逻辑,而Claude Code简化了这一过程。

成功条件:明确、可验证的目标设定

Anthropic文档指出,最有效的目标条件通常具备三个要素:

  • 可测量的终点状态:如测试结果、构建退出代码、文件数量、空队列等具体指标。
  • 明确的检查方式:如“npm test退出码为0”或“git状态干净”,清晰说明如何证明目标达成。
  • 关键约束:任务过程中必须保持不变的条件,如“其他测试文件未被修改”。

行业趋势:评估模型在代理系统中的重要性

对于已管理复杂工具栈的企业而言,内置评估器无需额外维护系统的吸引力显著。这一趋势与代理领域的整体发展同步——随着有状态、长运行、自学习代理成为现实,评估模型、验证系统等独立仲裁机制正逐渐融入推理系统和编码代理(如Devin、SWE-agent)。

Sprinklr解决方案总监Sean Brownell认为,这种“任务与裁判分离”的循环有效,但Anthropic并非首创。“将执行者与裁判分开是合理设计,因为模型无法信任自己批改作业。”他补充道,该方法最适合“确定性、有可验证终点的任务,如迁移、修复测试套件、清理积压工作”,但对于需要设计判断的复杂任务,人类决策仍至关重要。

将评估与任务分离引入代理循环,标志着Anthropic等公司将代理与编排系统推向更可审计、可观测的方向。


关注微信号:智享开源 ,可及时获取信息

原文链接:https://venturebeat.com/orchestration/claude-codes-goals-separates-the-agent-that-works-from-the-one-that-decides-its-done

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章755篇


关注微信

主站最新信息

分类