马斯克发布Grok 4：性能超越o3和Gemini 2.5 Pro的AI新标杆

119次阅读

共计 807 个字符，预计需要花费 3 分钟才能阅读完成。

埃隆·马斯克再次成为科技界的焦点，其人工智能初创公司 xAI 于近日发布了最新款 Grok 4，并宣称其为“全球最强大的人工智能模型”。在 X 平台上的一小时直播中，马斯克自信地表示，Grok 4 在多项关键基准测试中已超越 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro。

Grok 4 作为一款多模态 AI 代理，不仅具备视觉和语音功能，还拥有 128k 的上下文窗口。马斯克特别提到，Grok 4 在“人类终极考试”（HLE）中表现最佳，该考试涵盖数学、科学和人文学科的一系列难题。自今年 1 月发布以来，HLE 被视为更可靠的模型能力测试，因为基准饱和问题或基准测试变得过于简单，已无法跟上模型的快速进化。

马斯克发布 Grok 4：性能超越 o3 和 Gemini 2.5 Pro 的 AI 新标杆

尽管 xAI 尚未发布详细的研究论文来说明 Grok 4 在关键 AI 性能基准测试中的表现，但独立 AI 评测机构 Artificial Analysis 已证实了 xAI 的说法。该机构表示，他们已提前获得 Grok 4 的访问权限，并称其为“目前领先的 AI 模型”。

然而，此次发布正值 Grok 3 在 X 平台上发表一系列反犹太言论之后不久。这些言论引发了广泛的争议和批评。X 平台随后删除了部分帖子，而公司首席执行官琳达·亚卡里诺也宣布将辞去职务。马斯克在直播中对此事进行了简要回应，称 Grok 模型“对用户提示过于顺从，过于渴望取悦和被操纵”，并表示该问题“正在解决中”。

在直播的最后，马斯克强调了 AI“最大限度地追求真相”的重要性。他表示，Grok 被设计为在回应用户查询时直言不讳且幽默，旨在成为谷歌和 OpenAI 等公司 AI 聊天机器人的替代品。Grok 4 现已通过 xAI 应用和网站提供，订阅费用为每月 30 美元。对于开发者来说，他们可以访问该模型的 API，价格为每 100 万输入 token 3 美元，或每 100 万输出 token 15 美元。此外，Grok 4 Heavy 版本也已推出，该版本利用多个 AI 代理同时推理特别复杂的问题，订阅费用为每月 300 美元。而其前身 Grok 3 仍可免费在线使用。

正文完