Claude Code /goals：分离任务执行与评估，避免过早终止

当前位置：首页
» 科技 » Claude Code /goals：分离任务执行与评估，避免过早终止

Claude Code /goals：分离任务执行与评估，避免过早终止

问题：AI代理过早终止任务的隐忧

代码迁移代理完成运行后，流水线显示绿色，但部分代码从未被编译——直到几天后才被发现。这并非模型能力不足，而是代理在任务实际完成前就自行判定“已结束”。当前，许多企业的AI代理流水线失败，根源并非模型能力，而是代理背后的模型过早停止任务。LangChain、Google和OpenAI已提供多种方法防止提前退出，但这些方法通常依赖独立的评估系统。Anthropic最新推出的Claude Code /goals功能，通过正式分离任务执行与评估，为这一问题提供了新解。

Claude Code /goals：双模型协同的工作机制

编码代理的工作流程通常是一个循环：读取文件、执行命令、编辑代码，然后检查任务是否完成。Claude Code /goals为这一循环增添了第二层逻辑——在用户定义目标后，Claude会持续逐轮执行，但每一步结束后，评估模型会介入审查，判断目标是否达成。

这种设计将任务执行与评估明确分离：执行模型负责推进工作，评估模型则确保任务真正完成，避免代理混淆“已完成”与“未完成”的状态。Anthropic指出，这种方法无需第三方可观测性平台（企业仍可继续使用），无需自定义日志，也减少了事后重建的需求。

对比：不同厂商的解决方案差异

三大厂商的编排平台都识别出相同障碍，但解决方式各有不同。OpenAI保持循环原样，让模型自行决定何时结束，同时允许用户附加自定义评估器；LangGraph和Google的Agent Development Kit支持独立评估，但需开发者定义批评节点、编写终止逻辑并配置可观测性。Claude Code /goals则将独立评估设为默认，开发者仅需通过提示设定目标完成条件。例如，输入“/goal 所有test/auth测试通过，且lint步骤干净”，Claude Code运行时，每当代理尝试结束工作，默认使用Haiku模型的评估器会循环检查条件。若条件未满足，代理继续运行；若满足，则记录完成状态并清除目标。由于评估器仅需做出“是否完成”的二元判断，轻量级Haiku模型足以胜任。

Google ADK虽支持类似评估模式（如部署LoopAgent），但需开发者自行架构逻辑，而Claude Code简化了这一过程。

成功条件：明确、可验证的目标设定

Anthropic文档指出，最有效的目标条件通常具备三个要素：

可测量的终点状态：如测试结果、构建退出代码、文件数量、空队列等具体指标。
明确的检查方式：如“npm test退出码为0”或“git状态干净”，清晰说明如何证明目标达成。
关键约束：任务过程中必须保持不变的条件，如“其他测试文件未被修改”。

行业趋势：评估模型在代理系统中的重要性

对于已管理复杂工具栈的企业而言，内置评估器无需额外维护系统的吸引力显著。这一趋势与代理领域的整体发展同步——随着有状态、长运行、自学习代理成为现实，评估模型、验证系统等独立仲裁机制正逐渐融入推理系统和编码代理（如Devin、SWE-agent）。

Sprinklr解决方案总监Sean Brownell认为，这种“任务与裁判分离”的循环有效，但Anthropic并非首创。“将执行者与裁判分开是合理设计，因为模型无法信任自己批改作业。”他补充道，该方法最适合“确定性、有可验证终点的任务，如迁移、修复测试套件、清理积压工作”，但对于需要设计判断的复杂任务，人类决策仍至关重要。

将评估与任务分离引入代理循环，标志着Anthropic等公司将代理与编排系统推向更可审计、可观测的方向。

关注微信号：智享开源 ，可及时获取信息

原文链接：https://venturebeat.com/orchestration/claude-codes-goals-separates-the-agent-that-works-from-the-one-that-decides-its-done

0 0