阿里推出Metis智能体:冗余工具调用量骤降至2%,准确率同步提升
构建高效AI智能体的关键挑战之一,在于如何教导模型正确选择使用外部工具还是依赖内部知识。由于大语言模型常被训练为盲目调用工具,这往往导致处理延迟瓶颈、不必要的API成本增加,以及因环境噪声导致的推理能力下降。为了克服这一难题,阿里巴巴的研究人员推出了“分层解耦策略优化”(HDPO)框架。这是一种强化学习框架,旨在训练智能体在执行效率和任务准确性之间取得平衡。
基于该框架训练的多模态模型Metis,成功将冗余工具调用率从98%大幅削减至2%,同时在多项关键行业基准测试中确立了新的顶尖推理准确率。这一框架有助于开发出不再“随意触发”的AI智能体,使其懂得何时应避免使用工具,从而实现响应更快、成本更有效的智能系统。
目前的智能体模型面临着研究人员所描述的“严重元认知缺陷”。模型难以决定是使用内部参数化知识,还是查询外部工具。结果是,即便用户的提示词中已包含解决任务所需的所有信息,模型仍会盲目调用网络搜索或代码执行等工具和API。
这种盲目调用工具的行为给实际应用带来了严重的操作障碍。由于模型在训练时几乎完全专注于任务完成,因此对延迟问题并不敏感。这些智能体经常产生极高的工具调用率。每一次不必要的外部API调用都会引入串行处理瓶颈,导致技术强大的AI系统变得迟缓,不仅消耗工具预算,还会让用户感到沮丧。
同时,在过度使用工具上消耗计算资源,并不能转化为更好的推理能力。冗余的工具交互会向模型的上下文中注入噪声。这种噪声会分散模型的注意力,破坏原本正确的推理链路,反而会降低最终的输出质量。
为了解决盲目调用工具带来的延迟和成本问题,以往的强化学习方法曾试图通过将任务准确性和执行效率结合为一个奖励信号,来惩罚过度使用工具的行为。然而,这种耦合设计造成了一个无法解决的优化困境:如果效率惩罚过重,模型会变得过于保守,从而抑制必要的工具使用,在困难任务上牺牲正确性;反之,如果惩罚过轻,优化信号就会失去价值,无法防止在简单任务上过度使用工具。
关注微信号:智享开源 ,可及时获取信息
评论列表
发表评论
为你推荐
关注微信

近期评论
- 发表在《今天我终于找到了加快网站速度的办法》
- 发表在《如何成为超级个体?》
- 发表在《像ChatGPT一样记笔记》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

还没有任何评论,你来说两句吧!