开源AI新规:训练数据需公开透明

103次阅读
没有评论

共计 823 个字符,预计需要花费 3 分钟才能阅读完成。

开源倡议(OSI)最近发布了其对“开放”人工智能的官方定义,这一新规为与科技巨头如 Meta 的冲突奠定了基础。根据 OSI 的新定义,一个 AI 系统要被视为真正的开源,必须提供以下信息:

  • 访问用于训练 AI 的数据的详细信息,以便其他人可以理解和重新创建它
  • 用于构建和运行 AI 的完整代码
  • 训练中的设置和权重,这些设置和权重有助于 AI 产生其结果

这一新规直接挑战了 Meta 的 Llama 模型。尽管 Llama 可供公众下载和使用,但它对商业使用有限制,并且不提供访问训练数据的权限,导致其不符合 OSI 的无限制使用、修改和分享的标准。

Meta 发言人 Faith Eischen 表示,尽管公司在许多事情上同意 OSI,但不同意这一定义。她强调,没有单一的开源 AI 定义,定义它是一个挑战,因为以前的开源定义没有涵盖当今快速发展的 AI 模型的复杂性。

OSI 执行董事 Stefano Maffulli 表示,该倡议花了两年时间,在全球范围内咨询专家,通过协作过程完善了这一定义。这涉及与机器学习和自然语言处理领域的学术专家、哲学家、Creative Commons 世界的内容创作者等合作。

虽然 Meta 以安全问题为由限制对其训练数据的访问,但批评者看到了一个更简单的动机:最小化其法律责任并保护其竞争优势。许多 AI 模型几乎肯定是在受版权保护的材料上训练的;今年 4 月,《纽约时报》报道称 Meta 内部承认其训练数据中有受版权保护的内容“因为我们没有办法不收集这些内容。”

Maffulli 看到了开源历史的重演。“Meta 正在提出与微软在 1990 年代提出的相同论点”,当时微软将开源视为对其商业模式的威胁,Maffulli 说道。他回忆起 Meta 告诉他对其 Llama 的巨额投资,问他“你认为谁会能够做同样的事情?”Maffulli 看到了一个熟悉的模式:一家科技巨头使用成本和复杂性来证明其技术的封闭性。“我们回到了早期,”他说。

“那是他们的秘密武器,”Maffulli 谈到训练数据时说。“这是有价值的知识产权。”

正文完
 0
admin-gah
版权声明:本文于2024-10-29转载自TheVerge,共计823字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码