Sakana用7B模型协调GPT-5等：强化学习破解多LLM协同瓶颈

当前位置：首页
» 科技 » Sakana用7B模型协调GPT-5等：强化学习破解多LLM协同瓶颈

Sakana用7B模型协调GPT-5等：强化学习破解多LLM协同瓶颈

团队硬编码的每个LangChain流程，当查询分布发生变化时都会失效——而这种情况总会发生。这个瓶颈正是Sakana AI想要消除的。

Sakana AI的研究人员推出了“RL Conductor”，这是一个通过强化学习训练的小型语言模型，能自动协调一个多样化的大模型工作池。Conductor会动态分析输入，分配任务，并在代理之间进行协调。

这种自动协调在困难的推理和编码基准测试中取得了最先进的成果，超越了GPT-5和Claude Sonnet 4等前沿模型，也优于昂贵的人工设计多代理流程。它的成本仅为竞争对手的一小部分，且API调用次数更少。RL Conductor是Sakana AI商业多代理协调服务Fugu的核心。

手动智能代理框架的局限

大型语言模型具有强大的潜在能力，但要充分发挥这些能力是一个巨大挑战。要达到这种性能水平，严重依赖于人工设计的智能代理工作流程，这些流程是商业AI产品的重要组成部分。

然而，这些框架存在固有的刚性（rigid）和约束问题。在接受VentureBeat采访时，论文合著者Yujin Tang解释了当前系统的确切瓶颈：“虽然使用像LangChain和Mixture-of-Agents这样硬编码流程的框架对于特定用例可能有效……但在生产环境中，当针对用户基数大、需求高度异构的领域时，会出现一个固有的瓶颈。”

Tang指出，在这种异构应用中实现“真实世界的泛化，本质上需要超越人类硬编码的设计。”

构建稳健代理系统的另一个瓶颈是，没有单一模型适合所有任务。不同模型经过微调，专注于不同的领域：有的擅长科学推理，有的在代码生成、数学逻辑或高级规划方面更胜一筹。

由于模型具有这些不同的特性和互补技能，手动预测并为每个查询硬编码理想的模型组合实际上是不可能的。一个最优的代理框架应该能够分析问题，并将子任务委托给池中最合适的专家。

指挥代理的交响乐

RL Conductor旨在克服刚性、人工设计框架的局限。顾名思义，它通过分解挑战性问题、将目标子任务委托给工作模型，并设计通信拓扑结构来“指挥代理的交响乐”。

与依赖固定代码或静态路由不同，Conductor通过生成定制的工作流程来协调这些模型。在工作流程的每一步，模型会为任务的特定方面生成自然语言指令，分配一个代理来执行，并定义一个“访问列表”——该列表规定了其他代理的过去子任务和响应将被包含在该代理的上下文中的哪些内容。

通过用自然语言定义一切，Conductor为每个输入构建灵活的工作流程：它可以构建简单的顺序链、并行树结构，甚至递归循环，完全根据问题的需求调整。

重要的是，模型不是通过人工设计，而是通过强化学习（RL）和奖励最大化来学习这些策略。在训练期间，模型被赋予一个任务、一个工作池，以及一个基于其答案和输出格式是否正确的奖励信号。

通过一个简单的试错RL算法，模型有机地发现了哪些指令和通信结构的组合能产生最高的奖励。因此，它自动采用了高级协调策略，如目标提示工程、迭代优化和元提示优化。

模型学会了动态调整其策略，并利用工作代理的独特优势，而无需任何人类开发者硬编码这个过程。

Conductor的实际表现

为了测试RL Conductor的实际效果，研究人员使用该框架对70亿参数的Qwen2.5-7B进行了微调。在训练期间，Conductor被要求设计最多五步的代理工作流程，并获得了包含七种不同模型的工作池：三个闭源巨头（Gemini 2.5 Pro、Claude-Sonnet-4和GPT-5）和四个开源模型（包括DeepSeek-R1-Distill-Qwen-32B、Gemma3-27B和Qwen3-32B）。

团队在各种具有挑战性的基准测试中评估了Conductor，并将其与单独行动的前沿模型、自我反思代理（迭代提示以改进答案）以及最先进的多代理路由框架（如MASRouter、Mixture-of-Agents（MoA）、RouterDC和Smoothie）进行了比较。小型7B Conductor在所有任务中均创下新基准：所有任务的平均得分为77.27%，在AIME25数学基准测试中达到93.3%，在GPQA-Diamond中达到87.5%，在LiveCodeBench中达到83.93%。

值得注意的是，它在保持高效率的同时取得了这些成绩。虽然像MoA这样的基线模型每道题消耗11,203个token，但Conductor平均仅使用1,820个token，每个工作流程平均仅需三步。

仔细查看实验细节，可以清楚地看出该框架为何如此有效。Conductor自动学会了衡量任务难度：对于简单的事实回忆问题，它通常在一步或使用基本的两个代理设置中解决问题；但对于复杂的编码问题，它会构建涉及多达四个代理的广泛工作流程，包括专门的规划、实施和验证阶段。

Conductor还学会了前沿模型的不同优势：为了在编码基准测试中取得创纪录的分数，它经常分配Gemini 2.5 Pro和Claude Sonnet 4作为高级规划者，仅在最后才引入GPT-5来编写最终的优化代码。在一个特别聪明的适应性展示中，Conductor有时会完全放弃自己的角色，将整个规划过程交给Gemini 2.5 Pro，并允许它为池中的其他代理指定子任务。

除了数学和编码基准测试，Sakana AI已经在内部将底层架构用于前端办公应用。Tang说：“我们一直在使用基于Conductor技术的Fugu模型进行各种实际的企业应用：软件开发、深度研究、战略制定，甚至像幻灯片生成这样的视觉任务。”