共计 768 个字符,预计需要花费 2 分钟才能阅读完成。
AI 代理能够代表我们进行买卖交易,这一现象引发了广泛关注和担忧。微软的最新研究揭示,行业领先的 AI 代理工具在完成基本的市场决策(如通过比较菜单和价格选择餐厅)时存在困难。研究人员发现,大多数代理容易被操纵,包括提示注入和误导信息。然而,这些代理的失败也为 AI 公司提供了未来改进的蓝图。

微软的研究围绕其所谓的“Magentic Marketplace”展开——这是一个开源环境,AI 代理在其中相互交流,以在模拟真实市场环境的虚拟环境中完成交易。研究的目标是在 AI 开发者迅速推出更多自主产品(如为个人和企业提供购物和购买代理)时,测试代理系统的实际能力。
微软使用领先的专有模型(如 GPT-5 和 Gemini 2.5 Flash)以及开源模型(如 OpenAI 的 OSS-20b)进行了实验。这些模型用于模拟 100 个客户和 300 个企业,它们可以通过人类用户可以监控的文本提示进行交互。
根据微软的说法,客户代理在帮助人类克服该公司所谓的“信息差距”方面往往表现出潜力。然而,代理也表现出一些关键缺陷。一个大问题与研究人员所谓的“选择悖论”有关——一个更熟悉的短语可能是“分析瘫痪”。基本上,尽管他们有许多不同的选择可供选择,但大多数客户代理——除了 GPT-5 和 Gemini 2.5 Flash 之外——只与少数供应商代理互动。

研究人员还测试了六种不同的“操纵策略”,试图误导客户代理,包括添加可疑声明(如“#1-rated Mexican restaurant”)或使用明显的提示注入。根据微软的说法,模型在响应方面存在很大差异;值得注意的是,Claude Sonnet 4 对所有操纵尝试表现出完全抵抗。
微软的发现只是最新的证明,表明在高风险情况下不应信任代理,并且无论何时部署它们,都应仔细监控。正如微软在其博客文章中总结的那样:“代理应该辅助,而不是取代人类决策。”