共计 2241 个字符,预计需要花费 6 分钟才能阅读完成。
2024 年 9 月 10 日 下午 6:10
图片来源:VentureBeat,由 OpenAI ChatGPT 制作
Matt Shumer,OthersideAI 的联合创始人兼首席执行官,也是其标志性 AI 助手写作产品 HyperWrite 的创始人,在经历了近两天的沉默后,在被指控欺诈后,第三方研究人员无法复制他所声称的于 9 月 5 日周四发布的新大型语言模型(LLM)Reflection 70B 的顶级性能。
在社交网络 X 上,Shumer 道歉并声称他“过于自信”,并补充说“我知道你们中的许多人对这个潜力感到兴奋,现在却持怀疑态度。”
然而,他最新的声明并未完全解释为何他的模型 Reflection 70B,他声称是使用合成数据生成平台 Glaive AI 训练的 Meta 的 Llama 3.1 的变体,在所有后续独立测试中并未表现得如他最初所述的那样出色。Shumer 也未澄清究竟出了什么问题。以下是时间线:
2024 年 9 月 5 日,周四:Reflection 70B 在基准测试中表现优越的最初高调声明
如果您刚刚了解到这一情况,上周,Shumer 在开源 AI 社区 Hugging Face 上发布了 Reflection 70B,称其为“世界顶级开源模型”在 X 上的一篇帖子中,并发布了一张图表,显示了他所说的该模型在第三方基准测试中的最先进结果。
Shumer 声称,这一令人印象深刻的表现是通过一种称为“Reflection Tuning”的技术实现的,该技术允许模型在输出给用户之前评估和改进其响应的正确性。
VentureBeat 采访了 Shumer,并接受了他的基准测试结果,因为我们没有时间也没有资源进行我们自己的独立基准测试——而且我们迄今为止报道的大多数模型提供商都一直很坦诚。
2024 年 9 月 6 日(周五)至 9 月 9 日(周一):第三方评估未能重现 Reflection 70B 的出色结果——Shumer 被指控欺诈
然而,在其发布后的几天内,独立第三方评估者和在 Reddit 和 Hacker News 上发布帖子的开源 AI 社区成员开始质疑该模型的性能,并无法在自己的测试中复制这些结果。一些人甚至发现了一些响应和数据,表明该模型与 Anthropic 的 Claude 3.5 Sonnet 模型有关——可能只是一个薄薄的“包装”。
在独立 AI 评估组织 Artificial Analysis 在 X 上发帖称其对 Reflection 70B 的测试得分远低于 HyperWrite 最初声称的分数后,批评声愈演愈烈。
此外,Shumer 被发现投资了 Glaive,即他声称用于训练模型的合成数据生成平台,但在发布 Reflection 70B 时并未披露这一信息。
Shumer 将这些差异归因于模型上传到 Hugging Face 过程中的问题,并承诺上周纠正模型权重,但至今未兑现。
X 用户 Shin Megami Boson 公开指控 Shumer 在 2024 年 9 月 8 日(周日)“在 AI 研究社区中欺诈”。Shumer 并未直接回应这一指控。
在发布并重新发布与 Reflection 70B 相关的各种 X 消息后,Shumer 于周日晚间保持沉默,并未回应 VentureBeat 的评论请求——也未发布任何公开的 X 帖子——直到 9 月 10 日(周二)晚上。
此外,Nvidia 的 Jim Fan 等 AI 研究人员指出,即使是参数较低(或复杂度较低)的模型也很容易在第三方基准测试中表现良好。
2024 年 9 月 10 日,周二:Shumer 回应并道歉——但未解释差异
Shumer 最终于今晚(东部时间下午 5:30)在 X 上发布了一份声明,道歉并表示,部分内容为“我们有一个团队正在不懈努力,以了解发生了什么,并将在找到根本原因后决定如何继续。一旦我们掌握了所有事实,我们将继续对社区透明,说明发生了什么以及下一步的行动。”
Shumer 还链接了 Glaive AI 创始人 Sahil Chaudhary 的另一篇 X 帖子,该平台 Shumer 此前声称用于生成合成数据以训练 Reflection 70B。
有趣的是,Chaudhary 的帖子指出,Reflection 70B 的一些响应称其为 Anthropic 的 Claude 的变体,对他来说仍然是一个谜。他还承认“我与 Matt 分享的基准分数迄今为止尚未可重复。”
然而,Shumer 和 Chaudhary 的回应并未能平息怀疑者和批评者,包括 Hyperbolic Labs 的联合创始人兼首席技术官(CTO)Yuchen Jin。
Jin 在 X 上发布了一篇详细的帖子,详细描述了他如何努力在其网站上托管 Reflection 70B 版本并解决所谓的错误,指出“我在这件事上受到了情感上的伤害,因为我们为此花费了大量的时间和精力,所以我发推文描述了我在周末的表情。”
他还回应了 Shumer 的声明,在 X 上回复写道,“嗨,Matt,我们花费了大量的时间、精力和 GPU 来托管你的模型,看到你在过去 30 多个小时内停止回复我,这令人难过,我认为你可以更透明地说明发生了什么(尤其是为什么你的私人 API 表现更好)。”
截至今晚,Megami Boson 等许多人仍未被 Shumer 和 Chaudhary 的叙述所说服,将这一事件视为由热情导致的神秘、仍未解释的错误。
“据我所知,要么你在撒谎,要么 Matt Shumer 在撒谎,当然也可能你们都在撒谎,”他在 X 上发帖,随后提出了一系列问题。同样,Local Llama 子版块的用户也不相信 Shumer 的说法:
时间将证明 Shumer 和 Chaudhary 能否对其批评者和怀疑者做出令人满意的回应——其中越来越多的是整个生成式 AI 社区的在线成员。