Sakana训练7B模型，指挥GPT-5、Claude Sonnet 4与Gemini 2.5 Pro

“`html

团队硬编码的每个LangChain管道，一旦查询分布发生变化就会失效——而这种情况总会发生。Sakana AI正是为了消除这一瓶颈而诞生的。

Sakana AI的研究人员推出了“RL Conductor”（强化学习指挥官），这是一个通过强化学习训练的小语言模型，能够自动协调多样化的worker LLMs（工作语言模型）池。Conductor会动态分析输入，在worker之间分配任务，并协调各代理。

这种自动化协调在复杂的推理和编码基准测试中取得了最先进（SOTA）的结果，性能优于GPT-5、Claude Sonnet 4等单个前沿模型，也优于昂贵的人工设计的多代理管道。它在成本和API调用次数上都远低于竞争对手。RL Conductor是Sakana AI商业多代理协调服务Fugu的核心。

手动代理框架的局限

大型语言模型拥有强大的潜在能力，但要充分发挥这些能力极具挑战。提取这种性能高度依赖手动设计的代理工作流，这些工作流是商业AI产品的关键组件。然而，这些框架存在固有缺陷，因为它们过于刚性和受限。

在与VentureBeat的评论中，论文合著者Yujin Tang解释了当前系统的确切瓶颈：“虽然使用像LangChain和Mixture-of-Agents这类硬编码管道的框架在特定用例中表现良好……但在生产环境中，当目标领域拥有大量用户且需求高度异构时，会自然出现瓶颈。”

Tang指出，在异构应用中实现“真实世界的泛化，本质上需要超越人工硬编码的设计”。

构建稳健代理系统的另一个瓶颈是，没有单一模型能适用于所有任务。不同模型经过微调，擅长不同领域。一个模型可能在科学推理上表现出色，另一个则在代码生成、数学逻辑或高层规划上更优。

由于模型具有这些不同的特性和互补技能，手动预测并为每个查询硬编码理想模型组合几乎不可能。一个最优的代理框架应能分析问题，并将子任务委托给池中最合适的专家。

RL Conductor旨在克服刚性、人工设计框架的局限。顾名思义，它通过分解复杂问题、将特定子任务委托给worker LLMs，并为这些模型设计通信拓扑，来指挥代理的管弦乐队。

与依赖固定代码或静态路由不同，Conductor通过生成定制的通信拓扑和任务分配策略来协调这些模型，动态分配劳动并协调各代理，从而实现更高效的问题解决。

关注微信号：智享开源 ，可及时获取信息

0 0

Mark Do Ta的个人站点

Mark Do发布文章551篇

关注微信