Meta与OpenAI的AI竞赛：数据使用背后的灰色地带

216次阅读

共计 725 个字符，预计需要花费 2 分钟才能阅读完成。

最近，Meta 和 OpenAI 之间的 AI 竞赛引发了广泛关注。这场竞赛不仅展示了科技巨头们在技术突破上的激烈竞争，也揭示了他们在数据使用上的灰色地带。一份法院解封的文件披露了 Meta 在训练 Llama 模型时的一些 ’ 小动作 ’，这些细节让人不禁联想到大学时期写论文时到处找参考文献的经历。

从这些内部邮件来看，Meta 的高管们似乎陷入了一个两难的境地。一方面，他们渴望赶上 OpenAI 的 GPT-4，甚至直言 ’ 需要学会如何构建前沿技术并赢得这场竞赛 ’；另一方面，他们又不得不在使用盗版数据的问题上小心翼翼。有趣的是，他们内部讨论时还提到了 ’ 红队测试 ’ 这样的专业术语，让人想起了谍战片里的情节。

Meta 与 OpenAI 的 AI 竞赛：数据使用背后的灰色地带

说到 LibGen 这个网站，我有个朋友曾经用它下载过一些绝版的学术书籍。没想到现在它居然成了 AI 训练数据的 ’ 香饽饽 ’。Meta 的产品总监在邮件中提到，OpenAI 和 Mistral 可能也在使用这个资源，这让我不禁想到：在这场 AI 竞赛中，大家都在同一条船上，只是有些人更善于隐藏自己的 ’ 秘密武器 ’。

最让我印象深刻的是 Meta 内部讨论如何 ’ 修饰 ’ 数据的那部分。删除版权信息、去掉作者列表 … 这些操作听起来就像是在玩一场数字版的 ’ 捉迷藏 ’。不过话说回来，这种数据稀缺的问题确实让人头疼。记得去年看到报道说，Meta 甚至考虑过直接收购出版社来获取数据，这种大手笔的做法真是让人瞠目结舌。

总的来说，这场 AI 竞赛让我感觉就像是在看一场高科技版的 ’ 猫鼠游戏 ’。每个玩家都在努力突破界限，同时又小心翼翼地避免踩到法律的红线。虽然 Meta 和 OpenAI 都声称自己是在合理使用数据，但这场官司的结果可能会对整个 AI 行业产生深远影响。毕竟，在这个数据就是黄金的时代，谁掌握了数据，谁就掌握了未来。

正文完