开源AI新规：训练数据需公开透明

129次阅读

共计 823 个字符，预计需要花费 3 分钟才能阅读完成。

开源倡议（OSI）最近发布了其对“开放”人工智能的官方定义，这一新规为与科技巨头如 Meta 的冲突奠定了基础。根据 OSI 的新定义，一个 AI 系统要被视为真正的开源，必须提供以下信息：

访问用于训练 AI 的数据的详细信息，以便其他人可以理解和重新创建它
用于构建和运行 AI 的完整代码
训练中的设置和权重，这些设置和权重有助于 AI 产生其结果

这一新规直接挑战了 Meta 的 Llama 模型。尽管 Llama 可供公众下载和使用，但它对商业使用有限制，并且不提供访问训练数据的权限，导致其不符合 OSI 的无限制使用、修改和分享的标准。

Meta 发言人 Faith Eischen 表示，尽管公司在许多事情上同意 OSI，但不同意这一定义。她强调，没有单一的开源 AI 定义，定义它是一个挑战，因为以前的开源定义没有涵盖当今快速发展的 AI 模型的复杂性。

OSI 执行董事 Stefano Maffulli 表示，该倡议花了两年时间，在全球范围内咨询专家，通过协作过程完善了这一定义。这涉及与机器学习和自然语言处理领域的学术专家、哲学家、Creative Commons 世界的内容创作者等合作。

虽然 Meta 以安全问题为由限制对其训练数据的访问，但批评者看到了一个更简单的动机：最小化其法律责任并保护其竞争优势。许多 AI 模型几乎肯定是在受版权保护的材料上训练的；今年 4 月，《纽约时报》报道称 Meta 内部承认其训练数据中有受版权保护的内容“因为我们没有办法不收集这些内容。”

Maffulli 看到了开源历史的重演。“Meta 正在提出与微软在 1990 年代提出的相同论点”，当时微软将开源视为对其商业模式的威胁，Maffulli 说道。他回忆起 Meta 告诉他对其 Llama 的巨额投资，问他“你认为谁会能够做同样的事情？”Maffulli 看到了一个熟悉的模式：一家科技巨头使用成本和复杂性来证明其技术的封闭性。“我们回到了早期，”他说。

“那是他们的秘密武器，”Maffulli 谈到训练数据时说。“这是有价值的知识产权。”

正文完

发表至： AI行业动态

2024-10-29 06:17

0