共计 2683 个字符,预计需要花费 7 分钟才能阅读完成。
当前所谓的 AI 智能体只是披着智能外衣的自动化程序,真正的自主性还需强化学习与记忆系统的革命性突破。

过去一年半,微软、ServiceNow、Salesforce 等科技巨头竞相推出各类“人工智能智能体”,承诺在其软件生态中实现任务自动化,以兑现生成式 AI 提升企业效率的愿景。
然而,这些被热捧的 AI 智能体大多名不副实。它们本质上是预设的自动化脚本,而非能够自主规划、学习并适应复杂环境的真正智能体。企业对这项技术的过高期望,很可能在短期内遭遇现实打击。
名不副实:当前 AI 智能体的混乱现状
如今的 AI 智能体,与学术和业界所定义的“智能体”相去甚远。真正的智能体应能长期运作,拥有广泛目标,能与环境(包括各类工具)互动,并具备持续的数据存取能力。其终极挑战在于: 从零开始制定新目标与策略 。
现实是,我们离这一目标还很遥远。当前市面上的“智能体”大多局限于聊天交互,一旦任务超出狭窄的预设范围,便容易失效。
以微软在 Microsoft 365 中推出的 Copilot 为例,它实质上更像一种文档自动生成工具,而非能够理解上下文并自主完成复杂工作流的智能助手。
市场数据印证了智能体的发展困境。风投公司 Menlo Ventures 本月的研究显示,增长最快的 AI 应用几乎全是 Copilot 类副驾驶程序,如 ChatGPT Enterprise、Claude for Work 和 Microsoft Copilot。而 Salesforce 的 Agentforce、Writer 和 Glean 等标榜的“智能体”产品,则增长乏力。
简单的自动化确实能带来价值,例如辅助客服或批量处理发票。但越来越多的学术报告指出,当前智能体无法超越这些基础功能。
斯坦福大学与 IESE 商学院的研究员指出:“尽管大型语言模型展现出令人印象深刻的推理与规划潜力,但基于 LLM 的智能体在复杂、多步骤的规划任务中仍会失败。”
行业内部也意识到了问题。微软商业业务首席执行官 Judson Althoff 近期坦言:“AI 项目的失败率异常高,超过 80%。”虽然未特指智能体,但尝试部署智能体无疑是其中最具挑战的环节之一。
技术瓶颈:缺失的强化学习与记忆系统
要让 AI 智能体兑现“完全自主”的承诺,必须攻克两大核心技术缺陷: 基于强化学习的智能体设计 ,以及 AI 记忆系统的根本性重构 。
强化学习并非新技术,它在让 AI 执行长期任务方面已有惊人成果。最著名的例子是谷歌 DeepMind 的 AlphaZero,它通过强化学习,从零掌握了国际象棋和围棋的规则,并达到超越人类的水平。
如今,强化学习正被用于提升 LLM 的推理能力,例如年初引发关注的 DeepSeek 模型。然而,将其扩展到智能体的持续自主行动,仍处于探索阶段。
中国科技大学的程明月团队在去年十一月提出了 Agent-R1 方法,尝试用强化学习训练 LLM 来预测奖励并制定策略。他们强调,真正的智能体必须摒弃预设工作流,通过端到端的“行动 - 反馈”循环与环境主动交互。
尽管 R1 在包含连续任务的“多跳”测试中表现优于传统提示型 LLM,但团队坦言,将强化学习有效应用于 LLM 智能体仍“处于起步阶段,面临巨大挑战”。
另一个由西湖大学孙明阳团队开发的 Sophia 项目,旨在让 LLM 能在与网络浏览器交互时执行“长时间持续”的任务。团队同样承认,这更多是一个概念验证,现有架构仍是“反应式”的,依赖静态的手动配置。
自我进化:AI 能否设计出更好的 AI?
一个更前沿的命题正在浮现:AI 能否设计出比人类更好的强化学习算法? 这或许能加速突破,也可能让问题更加复杂。
谷歌 DeepMind 本月在《自然》杂志上发布的研究,探讨了名为 DiscoRL 的 AI 程序。它能观察多个智能体的表现,自动发明改进的强化学习算法,从而创造出更优的智能体。
这种方法被称为“元学习”,让智能体“为自己发现学习算法”。它有望摆脱人工设计的强化学习规则,就像 AlphaZero 摒弃人类棋谱、自行发现棋类规则一样。
未知在于其泛化能力。DiscoRL 已能掌握《吃豆人小姐》等雅达利游戏,但这类环境规则明确、信息完全。对于规则模糊、信息不全的企业场景(如客户关系管理或保险理赔),这种方法能否奏效,仍是未知数。
记忆迷宫:智能体如何记住并运用过去
另一个关键突破点在于智能体的“记忆”系统。通过强化学习发展的智能体,必须维护环境的历史记录、已采取的行动以及当前在整体策略中的位置—— 这一切都与记忆功能紧密相连 。
当前的 LLM 难以在长对话或多轮任务中保持连贯性。用户常发现,在处理大型项目时,聊天机器人错误频出,有时会混淆对话早期出现的信息。
斯坦福大学以人为本人工智能研究所的报告指出,智能体执行任务的时间越长,其表现就越落后于人类。在短期任务中,顶级 AI 系统的得分是人类专家的四倍;但当任务时间拉长至 32 小时,人类表现反超 AI 两倍。
新加坡国立大学的胡宇阳团队在本月报告中强调,记忆是缓解此类失败的关键。典型的 LLM 只利用其“上下文窗口”内的近期数据。但要成为能通过环境交互持续适应的“自适应智能体”,它需要获取额外信息,包括当前任务内以及过往任务间的历史数据。
当前的研究集中于检索增强生成和向量数据库等检索方法。但胡宇阳团队认为,仅仅拥有历史记录还不够, 记忆管理本身也必须进化 。他们提出,随着智能体通过强化学习“学会”如何存储和检索数据,整个内存控制架构终将被重新设计。
这形成了一个循环依赖:强化学习的进展需要新型记忆系统的支持,而开发新型记忆管理本身又可能依赖强化学习。
漫长等待:AGI 并非解药,突破仍需时日
如此巨大的技术进步不会一蹴而就。这并非某家公司发布一个新 LLM 或工具就能解决的问题,而需要根本性的技术飞跃。
这些问题也不太可能被传说中的通用人工智能迅速解决。AGI 是人类级别的智能,而即使是强化学习的杰出代表 AlphaZero,也只是特定问题的解决者。它成功是因为国际象棋规则明确、环境信息完全。
但企业中的计费实践、客户服务或 IT 故障单管理,远非如此规则清晰。DiscoRL 方法从雅达利游戏到这些复杂任务的推广效果,仍是未知数。
考虑到重新设计强化学习与记忆系统的复杂性,我们仍需耐心等待。若以谷歌 2017 年推出 Transformer 架构,到其衍生品 ChatGPT 在 2022 年引爆市场所花费的时间为参照,行业要实现可靠、真正的智能体, 乐观估计也至少还需要五年 。
当前,企业应对 AI 智能体保持审慎乐观。它们能作为自动化工具提升特定环节的效率,但距实现完全自主、理解复杂语境并制定长期策略的“智能伙伴”,还有很长的路要走。真正的突破,取决于基础研究在强化学习与记忆系统这两个深水区的探索进度。