多AI代理协同新突破:M-GRPO方法革新复杂任务处理

16次阅读
没有评论

共计 1028 个字符,预计需要花费 3 分钟才能阅读完成。

伦敦帝国理工学院与蚂蚁集团的研究团队近日提出了一种创新的多人工智能(AI)代理协同工作方法,为解决复杂任务中的协调问题提供了新思路。这项研究在本月发布的一篇论文中详细介绍了名为 M -GRPO 的方法,并在多个现实世界基准测试中验证了其有效性。

当前大多数 AI 系统依赖于单一代理来处理规划、推理和工具执行等任务。然而,研究人员指出,这种架构在处理需要长决策链的任务时存在明显缺陷。单一模型必须同时决定任务执行的内容、时机、工具选择以及输出组合,导致早期阶段的错误往往会影响到后续步骤的执行效果。

 多 AI 代理协同新突破:M-GRPO 方法革新复杂任务处理

研究团队提出了一种替代性的垂直多代理设置。在这种架构中,主代理负责生成计划、分配任务并检查输出,而多个子代理则专注于执行具体的工具任务。这种分工方式更贴近现实世界中多阶段任务的执行流程,使 AI 系统能够更有效地从外部工具中搜索、分析和检索信息。

以网页导航任务为例,主代理负责选择推理工具并发出指令,而子代理则具体执行网页浏览或信息检索等操作。这种分工明确的结构与单代理系统形成了鲜明对比,后者往往要求同一组件承担所有操作。

M-GRPO 是在早期 GRPO 方法基础上的重要扩展。GRPO 通过将代理输出与同组其他输出的平均表现进行比较,并根据相对得分更新策略。新方法将这一原理应用于具有单一主代理和多个子代理的结构中,成功解决了三个关键挑战:,

  • 代理运行频率差异:主代理每轮都运行,而子代理仅在需要时参与
  • 任务需求变化:不同任务需要不同数量的子代理
  • 分布式执行:任务可能在不同服务器上展开

研究团队通过创建解耦的训练管道解决了这些问题。系统首先收集主代理和子代理的执行数据并存储在共享缓冲区中,然后根据每个代理对最终答案的贡献进行评估。这种基于组相对优势的评估方法,允许在不同参与率的情况下进行策略更新。

研究团队在三个具有代表性的基准测试中验证了 M -GRPO 方法的有效性:,

  • WebWalkerQA:模拟页面导航和顺序工具调用任务
  • XBench DeepSearch:涉及工具选择、信息组合和最终输出组装
  • GAIA:包含搜索、工具运行和多重信息整合任务

测试结果显示,M-GRPO 在性能上显著优于单代理系统和固定子代理的多代理系统。在所有基准测试中,多代理模型都展现出更高的训练稳定性和样本效率,证实了这种新方法的实用价值。

这项研究为 AI 系统的协同工作提供了新的思路,有望在需要复杂决策和多阶段执行的任务中发挥重要作用。随着技术的进一步发展,这种多代理协作架构可能在更多实际应用场景中展现出其优势。

正文完
 0
admin-gah
版权声明:本文于2025-11-26转载自PYMNTS.com,共计1028字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码