共计 726 个字符,预计需要花费 2 分钟才能阅读完成。
人工智能在生成文本、识别图像和自动化流程方面展现了其价值,但在解决高级数学推理挑战时,AI 系统遇到了瓶颈。研究公司 Epoch AI 推出的前沿基准测试 FrontierMath 发现,即使是当今最先进的 AI 系统,包括 GPT-4o 和 Gemini 1.5 Pro,在面对数学推理挑战时,即使经过长时间的工作,也只能解决不到 2% 的问题。
为了理解和衡量 AI 的进展,基准测试是必要的。根据 Epoch AI 的产品营销,FrontierMath“可以评估 AI 系统在复杂科学推理中的表现”,因为“数学问题可以严格且自动地验证”,这与需要主观判断和昂贵测试的领域不同。
模型的表现
Epoch AI 提供了专家数学家长时间解决的样本问题,例如测试 Artin 的原始根猜想或寻找 19 次多项式。在面对高级数学问题之前,当前的 AI 模型获得了“广泛的支持以最大化其性能”,包括访问 Python 环境进行测试和验证。然而,这些支持并不足以使它们做好准备。
Epoch AI 报告称:“FrontierMath 对当今的 AI 系统来说异常具有挑战性。”
AI 系统在较简单的数学基准测试如 GSM8K 和 MATH 中得分较高——超过 90%——但在高级问题上得分约为 2%。所有 FrontierMath 问题均为先前未发表,以消除现有基准测试的数据污染担忧。,
评估 AI 系统:下一步是什么
为了在评估过程中了解 AI 系统是否具备研究级别的数学推理能力,Epoch AI 表示将采取以下步骤,使基准测试随着 AI 系统的进步更具价值:,
- 定期评估领先的 AI 模型
- 扩展基准测试
- 向公众发布更多问题
- 加强质量控制
Epoch AI 表示,FrontierMath 基准测试是在与来自领先机构的 60 多名数学家的合作下开发的。它涵盖了从计算数论到抽象代数几何的现代数学全谱。