AI模型Reflection 70B性能争议：Shumer的道歉与未解之谜

340次阅读

共计 2241 个字符，预计需要花费 6 分钟才能阅读完成。

2024 年 9 月 10 日下午 6:10

AI 模型 Reflection 70B 性能争议：Shumer 的道歉与未解之谜

图片来源：VentureBeat，由 OpenAI ChatGPT 制作

Matt Shumer，OthersideAI 的联合创始人兼首席执行官，也是其标志性 AI 助手写作产品 HyperWrite 的创始人，在经历了近两天的沉默后，在被指控欺诈后，第三方研究人员无法复制他所声称的于 9 月 5 日周四发布的新大型语言模型（LLM）Reflection 70B 的顶级性能。

在社交网络 X 上，Shumer 道歉并声称他“过于自信”，并补充说“我知道你们中的许多人对这个潜力感到兴奋，现在却持怀疑态度。”

然而，他最新的声明并未完全解释为何他的模型 Reflection 70B，他声称是使用合成数据生成平台 Glaive AI 训练的 Meta 的 Llama 3.1 的变体，在所有后续独立测试中并未表现得如他最初所述的那样出色。Shumer 也未澄清究竟出了什么问题。以下是时间线：

如果您刚刚了解到这一情况，上周，Shumer 在开源 AI 社区 Hugging Face 上发布了 Reflection 70B，称其为“世界顶级开源模型”在 X 上的一篇帖子中，并发布了一张图表，显示了他所说的该模型在第三方基准测试中的最先进结果。

Shumer 声称，这一令人印象深刻的表现是通过一种称为“Reflection Tuning”的技术实现的，该技术允许模型在输出给用户之前评估和改进其响应的正确性。

VentureBeat 采访了 Shumer，并接受了他的基准测试结果，因为我们没有时间也没有资源进行我们自己的独立基准测试——而且我们迄今为止报道的大多数模型提供商都一直很坦诚。

然而，在其发布后的几天内，独立第三方评估者和在 Reddit 和 Hacker News 上发布帖子的开源 AI 社区成员开始质疑该模型的性能，并无法在自己的测试中复制这些结果。一些人甚至发现了一些响应和数据，表明该模型与 Anthropic 的 Claude 3.5 Sonnet 模型有关——可能只是一个薄薄的“包装”。

在独立 AI 评估组织 Artificial Analysis 在 X 上发帖称其对 Reflection 70B 的测试得分远低于 HyperWrite 最初声称的分数后，批评声愈演愈烈。

此外，Shumer 被发现投资了 Glaive，即他声称用于训练模型的合成数据生成平台，但在发布 Reflection 70B 时并未披露这一信息。

Shumer 将这些差异归因于模型上传到 Hugging Face 过程中的问题，并承诺上周纠正模型权重，但至今未兑现。

X 用户 Shin Megami Boson 公开指控 Shumer 在 2024 年 9 月 8 日（周日）“在 AI 研究社区中欺诈”。Shumer 并未直接回应这一指控。

在发布并重新发布与 Reflection 70B 相关的各种 X 消息后，Shumer 于周日晚间保持沉默，并未回应 VentureBeat 的评论请求——也未发布任何公开的 X 帖子——直到 9 月 10 日（周二）晚上。

此外，Nvidia 的 Jim Fan 等 AI 研究人员指出，即使是参数较低（或复杂度较低）的模型也很容易在第三方基准测试中表现良好。

Shumer 最终于今晚（东部时间下午 5:30）在 X 上发布了一份声明，道歉并表示，部分内容为“我们有一个团队正在不懈努力，以了解发生了什么，并将在找到根本原因后决定如何继续。一旦我们掌握了所有事实，我们将继续对社区透明，说明发生了什么以及下一步的行动。”

Shumer 还链接了 Glaive AI 创始人 Sahil Chaudhary 的另一篇 X 帖子，该平台 Shumer 此前声称用于生成合成数据以训练 Reflection 70B。

有趣的是，Chaudhary 的帖子指出，Reflection 70B 的一些响应称其为 Anthropic 的 Claude 的变体，对他来说仍然是一个谜。他还承认“我与 Matt 分享的基准分数迄今为止尚未可重复。”

然而，Shumer 和 Chaudhary 的回应并未能平息怀疑者和批评者，包括 Hyperbolic Labs 的联合创始人兼首席技术官（CTO）Yuchen Jin。

Jin 在 X 上发布了一篇详细的帖子，详细描述了他如何努力在其网站上托管 Reflection 70B 版本并解决所谓的错误，指出“我在这件事上受到了情感上的伤害，因为我们为此花费了大量的时间和精力，所以我发推文描述了我在周末的表情。”

他还回应了 Shumer 的声明，在 X 上回复写道，“嗨，Matt，我们花费了大量的时间、精力和 GPU 来托管你的模型，看到你在过去 30 多个小时内停止回复我，这令人难过，我认为你可以更透明地说明发生了什么（尤其是为什么你的私人 API 表现更好）。”

截至今晚，Megami Boson 等许多人仍未被 Shumer 和 Chaudhary 的叙述所说服，将这一事件视为由热情导致的神秘、仍未解释的错误。

“据我所知，要么你在撒谎，要么 Matt Shumer 在撒谎，当然也可能你们都在撒谎，”他在 X 上发帖，随后提出了一系列问题。同样，Local Llama 子版块的用户也不相信 Shumer 的说法：

时间将证明 Shumer 和 Chaudhary 能否对其批评者和怀疑者做出令人满意的回应——其中越来越多的是整个生成式 AI 社区的在线成员。

正文完

发表至： AI行业动态

2024-09-11 22:12

0

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

Prime Day大促：MacBook Air M2半价抢购

VOICE 2026开发者大会论文征集启动，聚焦AI与半导体前沿技术

Marketech APAC 任命 Rodrigo Mitma 为新创意总监

PS5 Slim Digital 30th Anniversary Edition 预购火爆

Apple 为 iPhone 及其他产品引入 AI 功能

AI模型Reflection 70B性能争议：Shumer的道歉与未解之谜

2024 年 9 月 5 日，周四：Reflection 70B 在基准测试中表现优越的最初高调声明

2024 年 9 月 6 日（周五）至 9 月 9 日（周一）：第三方评估未能重现 Reflection 70B 的出色结果——Shumer 被指控欺诈

2024 年 9 月 10 日，周二：Shumer 回应并道歉——但未解释差异

国内高校严查AI作弊，学术诚信面临新挑战

轨道冲突训练新突破：AI对手如何重塑太空军备竞赛

NASA“毅力号”火星车首次实现AI自主规划行驶，探索火星新里程碑

尚达曼警告：新加坡将更早面对人工智能挑战，呼吁全球协同治理

内部人士看好：2026年布局必看这两只人工智能股票

Meta Ray-Ban Display 智能眼镜体验：未来已来，但离完美还差一步

人工智能冲击欧洲银行业，2030年前或将削减20万岗位

Instagram 掌门人：AI 内容将无处不在，平台如何应对变革？

井位优化新路径：融合无梯度算法与物理信息AI，提升油气田开发效率

Instagram AI内容管理大变革：莫塞里揭秘平台新策略