微软AI代理在虚拟经济中的失败：自主购物面临哪些挑战？

64次阅读

共计 1027 个字符，预计需要花费 3 分钟才能阅读完成。

微软最近进行了一项引人注目的实验，构建了一个模拟经济系统，其中数百个 AI 代理扮演买家和卖家的角色。然而，这些代理在基本任务上的表现令人失望，尤其是在面对骗局和操纵时，它们几乎毫无抵抗力。

微软 AI 代理在虚拟经济中的失败：自主购物面临哪些挑战？

微软与亚利桑那州立大学合作，于周三发布了 Magentic Marketplace 研究，该研究在点餐等场景中将 100 个客户端的 AI 代理与 300 个业务端的代理进行对比。结果显示，尽管预期之中，但自主代理商务的潜力尚未成熟。

当面对 100 条搜索结果（对代理来说难以有效处理）时，领先的 AI 模型表现不佳，其“福利评分”（模型的实用性）大幅下降。

微软 AI 代理在虚拟经济中的失败：自主购物面临哪些挑战？

这些代理未能进行详尽的比较，而是选择了它们遇到的第一个“足够好”的选项。这种模式在所有测试的模型中均存在，研究人员称之为“首选项偏见”，使得响应速度比实际质量具有 10-30 倍的优势。

但还有比这更糟糕的吗？是的，恶意操纵。微软测试了六种操纵策略，从虚假凭证和社会证明等心理战术到激进的提示注入攻击。OpenAI 的 GPT-4o 及其开源模型 GPTOSS-20b 被证明极其脆弱，所有支付都成功被重定向到恶意代理。阿里巴巴的 Qwen3-4b 则被权威诉求等基本说服技巧所迷惑。只有 Claude Sonnet 4 抵抗了这些操纵尝试。

微软 AI 代理在虚拟经济中的失败：自主购物面临哪些挑战？

当微软要求代理为共同目标工作时，其中一些代理无法确定应该承担哪些角色或如何有效协调。在明确逐步的人工指导下，性能有所提升，但这违背了自主代理的初衷。

因此，至少在目前看来，自己购物可能是更好的选择。“代理应该辅助而非取代人类决策，”微软表示。该研究建议采用监督式自主性，即代理处理任务，但人类保留控制权并在最终决策前审查建议。

这些发现发布之际，OpenAI、Anthropic 等公司正竞相部署自主购物助手。OpenAI 的 Operator 和 Anthropic 的 Claude 代理承诺可以在无需监督的情况下浏览网站并完成购买。微软的研究表明，这一承诺为时尚早。

然而，对 AI 代理不负责任行为的担忧正在加剧 AI 公司与零售巨头之间的关系。亚马逊最近向 Perplexity AI 发送了停止函，要求其停止 Comet 浏览器在亚马逊网站上的使用，指责该 AI 代理通过冒充人类购物者并降低客户体验来违反条款。

Perplexity 反击称，亚马逊的行为是“法律恐吓”，威胁了用户的自主权，并主张消费者应有权雇佣自己的数字助手，而不是依赖平台控制的助手。

该开源模拟环境现已发布于 Github，供其他研究人员重现这些发现，并在他们的模拟市场中观察混乱的爆发。

正文完

AI代理 AI挑战微软自主购物虚拟经济

发表至： AI应用大全

2025-11-08 00:10

0

版权声明：本文于2025-11-08转载自Decrypt，共计1027字。

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

长指甲女性的福音：Tippy Type键盘保护套

Google的AI革命：Gemini 2.0如何引领未来？

Google Home新功能：用Gemini轻松控制智能家居

AI技术革新寄生虫检测：准确率高达98.6%的突破性进展

OpenAI Sora AI应用在Android平台首日下载量突破50万

ChatGPT面临七起诉讼：被指导致自杀和幻觉

评论（没有评论）

验证码

最新文章