共计 690 个字符,预计需要花费 2 分钟才能阅读完成。
在人工智能领域,强化学习技术正掀起一场革命。2025 年,两位推动这一技术发展的先驱——Andrew G. Barto 和 Richard S. Sutton 荣获图灵奖,这是计算机界最具声望的奖项,奖金高达 100 万美元。
作为马萨诸塞大学和阿尔伯塔大学的教授,Barto 和 Sutton 在强化学习领域做出了开创性贡献。他们构建了该技术的数学基础,开发了核心算法,使其成为构建智能系统的重要方法。
强化学习技术通过让计算机从随机行动中学习,根据每个行动的结果获得奖励或惩罚,从而逐步优化决策。这一技术在 AlphaZero 项目中得到完美展现:2018 年,Google DeepMind 开发的这一程序成功掌握了国际象棋、将棋和围棋。
用一个简单的比喻来解释强化学习:就像老鼠在迷宫中寻找奶酪,它必须尝试不同路径,记住哪些行动能带来进展,哪些会导致死胡同。同样,强化学习程序也会建立对环境的内部模型,制定最优策略。
值得注意的是,Sutton 和 Barto 提出的强化学习与 OpenAI 等公司使用的 ’ 从人类反馈中强化学习 ’(RLHF)存在本质区别。后者主要用于优化大型语言模型的输出,使其更加安全和实用。
Sutton 在 2017-2023 年间担任 DeepMind 研究科学家,他强调强化学习是 ’ 第一个智能的计算理论 ’。在 2020 年的 AI 研讨会上,他指出 AI 领域亟需建立公认的智能计算理论,而强化学习正是最佳候选者。
有趣的是,Barto 和 Sutton 还强调了 ’ 玩耍 ’ 在强化学习中的重要性。Sutton 认为,设定看似无用的目标,探索各种可能性,这种 ’ 玩耍 ’ 行为可能是智能的重要体现。这一观点为人工智能的发展提供了新的思考方向。