Sakana训练7B模型,指挥GPT-5、Claude Sonnet 4与Gemini 2.5 Pro

“`html

Sakana训练7B模型,指挥GPT-5、Claude Sonnet 4与Gemini 2.5 Pro

团队硬编码的每个LangChain管道,一旦查询分布发生变化就会失效——而这种情况总会发生。Sakana AI正是为了消除这一瓶颈而诞生的。

Sakana AI的研究人员推出了“RL Conductor”(强化学习指挥官),这是一个通过强化学习训练的小语言模型,能够自动协调多样化的worker LLMs(工作语言模型)池。Conductor会动态分析输入,在worker之间分配任务,并协调各代理。

这种自动化协调在复杂的推理和编码基准测试中取得了最先进(SOTA)的结果,性能优于GPT-5、Claude Sonnet 4等单个前沿模型,也优于昂贵的人工设计的多代理管道。它在成本和API调用次数上都远低于竞争对手。RL Conductor是Sakana AI商业多代理协调服务Fugu的核心。

手动代理框架的局限

大型语言模型拥有强大的潜在能力,但要充分发挥这些能力极具挑战。提取这种性能高度依赖手动设计的代理工作流,这些工作流是商业AI产品的关键组件。然而,这些框架存在固有缺陷,因为它们过于刚性和受限。

在与VentureBeat的评论中,论文合著者Yujin Tang解释了当前系统的确切瓶颈:“虽然使用像LangChain和Mixture-of-Agents这类硬编码管道的框架在特定用例中表现良好……但在生产环境中,当目标领域拥有大量用户且需求高度异构时,会自然出现瓶颈。”

Tang指出,在异构应用中实现“真实世界的泛化,本质上需要超越人工硬编码的设计”。

构建稳健代理系统的另一个瓶颈是,没有单一模型能适用于所有任务。不同模型经过微调,擅长不同领域。一个模型可能在科学推理上表现出色,另一个则在代码生成、数学逻辑或高层规划上更优。

由于模型具有这些不同的特性和互补技能,手动预测并为每个查询硬编码理想模型组合几乎不可能。一个最优的代理框架应能分析问题,并将子任务委托给池中最合适的专家。

代理的管弦乐队指挥

RL Conductor旨在克服刚性、人工设计框架的局限。顾名思义,它通过分解复杂问题、将特定子任务委托给worker LLMs,并为这些模型设计通信拓扑,来指挥代理的管弦乐队。

与依赖固定代码或静态路由不同,Conductor通过生成定制的通信拓扑和任务分配策略来协调这些模型,动态分配劳动并协调各代理,从而实现更高效的问题解决。

原文链接:https://venturebeat.com/orchestration/how-sakana-trained-a-7b-model-to-orchestrate-gpt-5-claude-sonnet-4-and-gemini-2-5-pro


关注微信号:智享开源 ,可及时获取信息

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章551篇


关注微信

分类