共计 3125 个字符,预计需要花费 8 分钟才能阅读完成。
一种新兴的人工智能中间件类别,称为模型上下文协议(Model Context Protocol,MCP),旨在通过让生成式 AI 程序(如聊天机器人)连接到各种资源(包括数据库等打包软件)来增强其功能。
然而,多项研究表明,即使是顶级 AI 模型也难以有效使用 MCP。像谷歌的 Gemini 5 这样的顶级 AI 模型需要与外部程序进行多轮交互,导致 AI 模型的性能出现长时间延迟。
“即使是目前最先进的模型在不同能力上也存在困难,”咨询公司埃森哲、MIT-IBM Watson AI 实验室和加州大学伯克利分校的王振廷及其团队在 8 月发布的工作中写道,该工作引入了 MCP-Bench,这是一套包含 250 项任务的测试集,用于评估使用 MCP 的 AI 代理。
“随着任务从单服务器范围过渡到多服务器范围,性能普遍下降,”中国科技大学的郭子康及其团队上个月在测试多个 AI 模型时写道,他们使用了自己的基准测试 MCP-AgentBench。
即使是目前最好的模型,包括 OpenAI 的 GPT-5,也存在“失败案例”,这些案例源于“重复或探索性交互未能取得有意义的进展”,新加坡国立大学及其合作机构的主要作者吴子健及其团队在上个月宣布其基准测试 MCPMark 的论文中写道。
MCP 是一种将 AI 转化为客户端 - 服务器交互的中间件。它由生成式 AI 初创公司 Anthropic(Claude 系列大语言模型和聊天机器人的制造商)于去年推出,作为一种安全的行业标准方式,将大语言模型(LLM)和 AI 代理连接到数据库和客户关系管理软件等外部软件资源。
正如 ZDNET 的 Steven Vaughan-Nichols 所解释的那样,像 MCP 这样的中间件可以减少 AI 程序连接到多个外部资源所需的连接数量。
然而,拥有标准并不意味着 AI 模型会忠实执行 MCP,因为 AI 模型的功能中包含了大量的随机性(技术术语中的“概率”)。
连接到 MCP 的 AI 模型必须生成能够实现多个目标的输出,例如通过选择要访问的外部资源来制定回答查询的计划,按照什么顺序联系 MCP 服务器以访问这些外部应用程序,然后构建多个信息请求以生成最终输出以回答查询。
多项研究表明,虽然像 Gemini 5 和 GPT- 5 这样的顶级模型可以比不太出色的程序做得更好,但所有模型在管理这些挑战方面仍然存在局限性。所有模型的问题包括在检索信息时采取过多的步骤,即使语言模型的计划一开始是合理的。
所有基准测试都采用了类似的方法:它们收集了一组具有挑战性的信息查询和一组 MCP 服务器,AI 模型可以访问这些服务器,以及这些 MCP 服务器授予访问权限的信息资源。
这些测试中的资源通常是公开可用的资源,如 Google 搜索、维基百科或其他广泛可用的信息库。
王振廷及其团队在埃森哲的工作中的一个示例问题是检索在线信息以计划一个周末的徒步旅行。提示以“我正在尝试计划一个为期一周的徒步和露营环线,起点和终点都在丹佛,我希望你能和我一起深入研究细节”开始,然后继续指定几个要求,例如要访问的公园、开放时间、下雨概率等。
该请求被发送到多个支持 MCP 服务器的信息服务,包括 Google 地图和美国国家公园网站,以及特定的工具,如“findParks, getParkDetails, getAlerts, getVisitorCenters, getCampgrounds, getEvents”。
所有这些基准测试都旨在将 AI 模型的测量从简单的函数调用挑战中发展出来。基准测试要求 AI 模型实现多个要求,包括将自然语言提示转换为符合模式的搜索请求——MCP 在 JSON 代码中指定的通信顺序。
遵守模式只是最低层次的成就。在更高的层次上,“代理必须在面对模糊或未明确指定的任务描述时,从大型异构工具空间中识别出正确的工具,”王振廷及其团队写道。“这需要消除语义变体的歧义,应对命名不一致,并避免表面上合理但不相关工具带来的陷阱。”
基准测试通常衡量一个程序将利用多少不同的资源,以及需要多少“轮次”,这是衡量 AI 模型使用这些资源效率的一个指标。
正如王振廷及其团队所描述的那样,MCP-Bench“测量结构一致性、依赖意识、并行效率和反射适应性。任务不仅包括线性工作流,还包括需要在多个服务器之间进行并发交互的复杂组合,以实现多个目标。”所有这些都被视为模型在所谓的“长期规划”中或多或少的参与能力。
如果一个 AI 模型必须采取越来越多的轮次来从 MCP 服务器获取所需的信息,这可能表明它无法正确规划如何使用可用资源。
所有这些基准测试都采用了多个大语言模型,以比较当前市场上各产品的相对表现。
好消息是,这里提到的三项研究都报告说,更大、更强大的 AI 模型得分高于较小的模型。这表明,随着模型在许多方面的改进,它们也可以在与 MCP 相关的挑战上取得进步。
新加坡国立大学的吴子健及其团队也指出了顶级模型在更好规划方面的优势,写道:“更强的模型通过更好的决策和有针对性的探索取得成功,而不是盲目的试错。”
王振廷及其团队发现,“真正的区别在于对扩展的鲁棒性,顶级模型在处理长期、跨服务器任务时表现出明显的优势。”
郭子康及其团队发现一些开源模型(如 Qwen3-235B)取得了最高分,指出一个“令人惊讶且显著的趋势:领先的开源模型展示了卓越的能力,甚至可以超越其专有竞争对手。”
但所有模型也存在一些陷阱。王振廷及其团队提到,他们的 MCP-Bench 任务“本质上是多步骤的,通常涉及跨服务器的异构工具链”,并发现“即使是强大的 [AI] 模型通常也需要多轮交互”,并且“在依赖链合规性、嘈杂环境下的工具选择和长期规划等不同能力上存在困难。”
同样,郭子康及其团队指出了随着 MCP 交互复杂性增加而出现的问题,指出在所有模型中,“随着任务从单服务器范围过渡到多服务器范围,性能普遍下降……随着调用依赖从简单的单一调用增加到复杂的顺序调用,也会出现类似的下降。”
总体而言,随着 MCP 任务变得更加复杂,所有 AI 模型都面临更大的困难,即使有些模型比其他模型表现更好。
从各种基准测试中得出的直接结论是,AI 模型需要适应一个使用 MCP 成为挑战的新时代。AI 模型可能需要在新的方向上发展以应对这一挑战。
所有三项研究都发现了一个问题:随着 AI 模型必须访问更多的 MCP 服务器,性能会下降。多个资源的复杂性开始压倒那些一开始就能最好地规划步骤的模型。
正如吴子健及其团队在 MCPMark 论文中所说的那样,所有这些 MCP 服务器的复杂性对任何 AI 模型的能力都构成了压力,使其难以跟踪所有内容。
他们指出了一个关键挑战:“代理管理不断增长的 MCP 交互历史的能力”,以及“只有通过构建具有强大错误处理和自我纠正能力的代理才能解决的核心不可靠性。”
改善 AI 模型性能差距的最直接途径可能是专门为 MCP 训练它们。
使用一种微调形式,即在主要预训练阶段之后再次训练 AI 模型,华盛顿大学和 MIT-IBM Watson AI 实验室的学者开发了一个用于微调的数据集,该数据集包含数百万个 AI 程序与外部工具之间 MCP 交互的示例。正如他们所说,这是“迄今为止最大的公开可用工具代理数据集”。
本月推出的数据集 Toucan,使得相对较小的 AI 模型(如开源的 Qwen3-32B)在 MCP 任务中的整体表现优于更大的 AI 模型(如 DeepSeek V3 和 OpenAI 的 o3 mini),使用的是王振廷等人提出的相同基准测试。
尽管 Toucan 令人鼓舞,但一个大的悬而未决的问题是如何处理 MCP 可能连接到的所有非公开、非标准资源。例如,如果 AI 模型经过微调以在大多数情况下更高效地与 MCP 协同工作,这是否必然会在 XYZ 公司的本地 Salesforce CRM 或 Oracle 数据库安装中提高特定 AI 模型的性能?
在 CIO 实施 MCP 并找出答案之前,我们无法知道。