共计 919 个字符,预计需要花费 3 分钟才能阅读完成。
人工智能标准与创新中心(CAISI)近日发布了一份关于 DeepSeek 3.1 模型的评估报告,该报告与领先的闭源模型进行了对比。报告显示,DeepSeek 在 MMLU-Pro、GPQA 和 HLE 等基准测试中的得分接近其自报分数,但在 SWE-bench Verified 测试中,由于基准测试框架的局限性,得分出现了较大偏差。
Epoch AI 的分析指出,基准测试的框架对模型表现的影响与模型本身一样大,这导致 CAISI 的报告可能低估了 DeepSeek 模型在核心基准测试中的能力。报告的后半部分展示了来自 HuggingFace 的累计下载量图表,与 atomproject.ai 的数据存在显著差异。
此外,报告还涉及 GPT-OSS 模型的实用性更新。自发布以来,GPT-OSS 的 20B 和 120B 模型表现强劲,上个月的下载量分别达到 560 万和 320 万,超越了 Qwen 3 4B 和 Qwen3-VL-30B-A3B-Instruct 等热门模型。
IBM 的 Granite LLM 系列也备受关注,尤其是其混合(注意力 + mamba)模型。Granite 4.0 的语气简洁明了,与当前行业过度优化的模型形成鲜明对比。Qwen VL 系列也迎来了更新,推出了小型和大型 MoE 模型,特别是 8B 版本在文本基准测试中表现优异。
Zhipu 的 GLM-4.6 模型被广泛认为是 Sonnet 4.5 的家庭版,尽管在长上下文表现上不如闭源模型,但其改进速度令人瞩目。Inclusion AI 的 Ling-1T 模型也达到了 1T 参数规模,并发布了推理版本,尝试了不同的架构和模态。
Moondream 3 预览版采用了 MoE 架构,总参数为 9B,活跃参数为 2B,并在基准测试中表现出色。其独特的许可证允许个人、研究和大多数商业用途,但禁止与 M87 Labs 付费版本竞争。
最后,Qwen 3-Next-80B-A3B-Instruct 模型探索了混合注意力和线性注意力架构,可能是下一代 Qwen 模型的基础。Mistral 和 Meituan-Longcat 也分别更新了其推理模型,进一步推动了 AI 模型的多样性和性能提升。
本期报告还强调了长尾模型的重要性,尽管开放数据的状态仍不稳定,但中国实验室的持续支持为 AI 模型的未来发展提供了坚实基础。