Sakana训练7B模型,指挥GPT-5、Claude Sonnet 4与Gemini 2.5 Pro
“`html
团队硬编码的每个LangChain管道,一旦查询分布发生变化就会失效——而这种情况总会发生。Sakana AI正是为了消除这一瓶颈而诞生的。
Sakana AI的研究人员推出了“RL Conductor”(强化学习指挥官),这是一个通过强化学习训练的小语言模型,能够自动协调多样化的worker LLMs(工作语言模型)池。Conductor会动态分析输入,在worker之间分配任务,并协调各代理。
这种自动化协调在复杂的推理和编码基准测试中取得了最先进(SOTA)的结果,性能优于GPT-5、Claude Sonnet 4等单个前沿模型,也优于昂贵的人工设计的多代理管道。它在成本和API调用次数上都远低于竞争对手。RL Conductor是Sakana AI商业多代理协调服务Fugu的核心。
手动代理框架的局限
大型语言模型拥有强大的潜在能力,但要充分发挥这些能力极具挑战。提取这种性能高度依赖手动设计的代理工作流,这些工作流是商业AI产品的关键组件。然而,这些框架存在固有缺陷,因为它们过于刚性和受限。
在与VentureBeat的评论中,论文合著者Yujin Tang解释了当前系统的确切瓶颈:“虽然使用像LangChain和Mixture-of-Agents这类硬编码管道的框架在特定用例中表现良好……但在生产环境中,当目标领域拥有大量用户且需求高度异构时,会自然出现瓶颈。”
Tang指出,在异构应用中实现“真实世界的泛化,本质上需要超越人工硬编码的设计”。
构建稳健代理系统的另一个瓶颈是,没有单一模型能适用于所有任务。不同模型经过微调,擅长不同领域。一个模型可能在科学推理上表现出色,另一个则在代码生成、数学逻辑或高层规划上更优。
由于模型具有这些不同的特性和互补技能,手动预测并为每个查询硬编码理想模型组合几乎不可能。一个最优的代理框架应能分析问题,并将子任务委托给池中最合适的专家。
代理的管弦乐队指挥
RL Conductor旨在克服刚性、人工设计框架的局限。顾名思义,它通过分解复杂问题、将特定子任务委托给worker LLMs,并为这些模型设计通信拓扑,来指挥代理的管弦乐队。
与依赖固定代码或静态路由不同,Conductor通过生成定制的通信拓扑和任务分配策略来协调这些模型,动态分配劳动并协调各代理,从而实现更高效的问题解决。
关注微信号:智享开源 ,可及时获取信息
评论列表
发表评论
为你推荐
关注微信

近期评论
- 发表在《今天我终于找到了加快网站速度的办法》
- 发表在《如何成为超级个体?》
- 发表在《像ChatGPT一样记笔记》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

还没有任何评论,你来说两句吧!