基准测试 - 极趣AI

MLPerf Training v5.1发布：生成式AI推动基准测试创新

AI行业动态 MLPerf Training v5.1发布：生成式AI推动基准测试创新

旧金山，2025 年 11 月 12 日（全球新闻社）—— MLCommons® 今日发布了 MLPerf® …

AI代理在自由职业工作中的表现为何不如预期？

AI行业动态 AI代理在自由职业工作中的表现为何不如预期？

最近的一项基准测试对 AI 代理在自动化经济任务中的表现进行了评估，结果显示，AI 要达到人类水平仍有不小差距…

DeepSeek 3.1模型表现分析：CAISI报告揭示基准测试局限性

AI行业动态 DeepSeek 3.1模型表现分析：CAISI报告揭示基准测试局限性

人工智能标准与创新中心（CAISI）近日发布了一份关于 DeepSeek 3.1 模型的评估报告，该报告与领先…

模型上下文协议（MCP）如何影响AI模型性能？

AI行业动态 模型上下文协议（MCP）如何影响AI模型性能？

一种新兴的人工智能中间件类别，称为模型上下文协议（Model Context Protocol，MCP），旨在…

Meta 被曝作弊？Llama 4 模型基准测试引争议

AI行业动态 Meta 被曝作弊？Llama 4 模型基准测试引争议

Meta 近日发布了两款新的 Llama 4 模型——小型模型 Scout 和中型模型 Maverick。Me…

AI评估新趋势：人类参与如何重塑人工智能测试标准

AI行业动态 AI评估新趋势：人类参与如何重塑人工智能测试标准

随着人工智能模型在各项基准测试中屡创佳绩，业界开始意识到，单纯依赖自动化评估已不足以全面衡量 AI 的能力。如…

FrontierMath基准测试揭示AI在高级数学中的困境

AI行业动态 FrontierMath基准测试揭示AI在高级数学中的困境

人工智能在生成文本、识别图像和自动化流程方面展现了其价值，但在解决高级数学推理挑战时，AI 系统遇到了瓶颈。研…

热门文章

随机文章