共计 1027 个字符,预计需要花费 3 分钟才能阅读完成。
微软最近进行了一项引人注目的实验,构建了一个模拟经济系统,其中数百个 AI 代理扮演买家和卖家的角色。然而,这些代理在基本任务上的表现令人失望,尤其是在面对骗局和操纵时,它们几乎毫无抵抗力。

微软与亚利桑那州立大学合作,于周三发布了 Magentic Marketplace 研究,该研究在点餐等场景中将 100 个客户端的 AI 代理与 300 个业务端的代理进行对比。结果显示,尽管预期之中,但自主代理商务的潜力尚未成熟。
当面对 100 条搜索结果(对代理来说难以有效处理)时,领先的 AI 模型表现不佳,其“福利评分”(模型的实用性)大幅下降。

这些代理未能进行详尽的比较,而是选择了它们遇到的第一个“足够好”的选项。这种模式在所有测试的模型中均存在,研究人员称之为“首选项偏见”,使得响应速度比实际质量具有 10-30 倍的优势。
但还有比这更糟糕的吗?是的,恶意操纵。微软测试了六种操纵策略,从虚假凭证和社会证明等心理战术到激进的提示注入攻击。OpenAI 的 GPT-4o 及其开源模型 GPTOSS-20b 被证明极其脆弱,所有支付都成功被重定向到恶意代理。阿里巴巴的 Qwen3-4b 则被权威诉求等基本说服技巧所迷惑。只有 Claude Sonnet 4 抵抗了这些操纵尝试。

当微软要求代理为共同目标工作时,其中一些代理无法确定应该承担哪些角色或如何有效协调。在明确逐步的人工指导下,性能有所提升,但这违背了自主代理的初衷。
因此,至少在目前看来,自己购物可能是更好的选择。“代理应该辅助而非取代人类决策,”微软表示。该研究建议采用监督式自主性,即代理处理任务,但人类保留控制权并在最终决策前审查建议。
这些发现发布之际,OpenAI、Anthropic 等公司正竞相部署自主购物助手。OpenAI 的 Operator 和 Anthropic 的 Claude 代理承诺可以在无需监督的情况下浏览网站并完成购买。微软的研究表明,这一承诺为时尚早。
然而,对 AI 代理不负责任行为的担忧正在加剧 AI 公司与零售巨头之间的关系。亚马逊最近向 Perplexity AI 发送了停止函,要求其停止 Comet 浏览器在亚马逊网站上的使用,指责该 AI 代理通过冒充人类购物者并降低客户体验来违反条款。
Perplexity 反击称,亚马逊的行为是“法律恐吓”,威胁了用户的自主权,并主张消费者应有权雇佣自己的数字助手,而不是依赖平台控制的助手。
该开源模拟环境现已发布于 Github,供其他研究人员重现这些发现,并在他们的模拟市场中观察混乱的爆发。