共计 725 个字符,预计需要花费 2 分钟才能阅读完成。
最近,Meta 和 OpenAI 之间的 AI 竞赛引发了广泛关注。这场竞赛不仅展示了科技巨头们在技术突破上的激烈竞争,也揭示了他们在数据使用上的灰色地带。一份法院解封的文件披露了 Meta 在训练 Llama 模型时的一些 ’ 小动作 ’,这些细节让人不禁联想到大学时期写论文时到处找参考文献的经历。
从这些内部邮件来看,Meta 的高管们似乎陷入了一个两难的境地。一方面,他们渴望赶上 OpenAI 的 GPT-4,甚至直言 ’ 需要学会如何构建前沿技术并赢得这场竞赛 ’;另一方面,他们又不得不在使用盗版数据的问题上小心翼翼。有趣的是,他们内部讨论时还提到了 ’ 红队测试 ’ 这样的专业术语,让人想起了谍战片里的情节。
说到 LibGen 这个网站,我有个朋友曾经用它下载过一些绝版的学术书籍。没想到现在它居然成了 AI 训练数据的 ’ 香饽饽 ’。Meta 的产品总监在邮件中提到,OpenAI 和 Mistral 可能也在使用这个资源,这让我不禁想到:在这场 AI 竞赛中,大家都在同一条船上,只是有些人更善于隐藏自己的 ’ 秘密武器 ’。
最让我印象深刻的是 Meta 内部讨论如何 ’ 修饰 ’ 数据的那部分。删除版权信息、去掉作者列表 … 这些操作听起来就像是在玩一场数字版的 ’ 捉迷藏 ’。不过话说回来,这种数据稀缺的问题确实让人头疼。记得去年看到报道说,Meta 甚至考虑过直接收购出版社来获取数据,这种大手笔的做法真是让人瞠目结舌。
总的来说,这场 AI 竞赛让我感觉就像是在看一场高科技版的 ’ 猫鼠游戏 ’。每个玩家都在努力突破界限,同时又小心翼翼地避免踩到法律的红线。虽然 Meta 和 OpenAI 都声称自己是在合理使用数据,但这场官司的结果可能会对整个 AI 行业产生深远影响。毕竟,在这个数据就是黄金的时代,谁掌握了数据,谁就掌握了未来。