旧金山,2025 年 11 月 12 日(全球新闻社)—— MLCommons® 今日发布了 MLPerf® …
最近的一项基准测试对 AI 代理在自动化经济任务中的表现进行了评估,结果显示,AI 要达到人类水平仍有不小差距…
人工智能标准与创新中心(CAISI)近日发布了一份关于 DeepSeek 3.1 模型的评估报告,该报告与领先…
一种新兴的人工智能中间件类别,称为模型上下文协议(Model Context Protocol,MCP),旨在…
Meta 近日发布了两款新的 Llama 4 模型——小型模型 Scout 和中型模型 Maverick。Me…
随着人工智能模型在各项基准测试中屡创佳绩,业界开始意识到,单纯依赖自动化评估已不足以全面衡量 AI 的能力。如…
人工智能在生成文本、识别图像和自动化流程方面展现了其价值,但在解决高级数学推理挑战时,AI 系统遇到了瓶颈。研…