揭秘OpenAI视频生成AI工具Sora的训练数据来源

79次阅读
没有评论

共计 2144 个字符,预计需要花费 6 分钟才能阅读完成。

OpenAI 最近发布的视频生成 AI 工具 Sora 引起了不小的关注,但我发现它的训练数据来源一直是个谜。虽然 OpenAI 从未明确透露过具体的数据来源,但从 Sora 生成的内容来看,至少有一部分数据可能来自 Twitch 直播和游戏攻略视频。,

Sora 的功能与表现

我上周试用了 Sora,发现它可以根据文本提示或图像生成 20 秒左右的视频,支持多种分辨率和宽高比。有趣的是,当 OpenAI 在今年二月份首次展示 Sora 时,他们暗示这个模型可能是基于 Minecraft 视频进行训练的。这让我不禁好奇,除了 Minecraft,Sora 的训练数据中还包含了哪些其他游戏的内容?

 揭秘 OpenAI 视频生成 AI 工具 Sora 的训练数据来源

经过一番测试,我发现 Sora 似乎对多种游戏类型都有所了解。比如,它生成了一个看起来像是《超级马里奥兄弟》克隆的视频,虽然有些小瑕疵,但整体效果还不错。此外,它还能生成类似《使命召唤》和《反恐精英》风格的第一人称射击游戏视频,甚至还有点像 90 年代《忍者神龟》街机游戏的格斗片段。,

Sora 与 Twitch 直播的关联

更让我惊讶的是,Sora 似乎对 Twitch 直播的外观也很熟悉。它生成的 Twitch 直播截图看起来相当逼真,甚至包括了知名主播 Auronplay 的形象,连他手臂上的纹身都还原得非常细致。不仅如此,Sora 还生成了一个看起来像是 Pokimane 的角色,虽然有些艺术加工的痕迹,但整体风格还是很相似的。,

Sora 的训练数据与法律问题

当然,我也尝试了一些更具创意的提示,比如“意大利水管工游戏”,结果发现 OpenAI 已经实施了一些过滤措施,防止 Sora 生成过于明显的商标角色。比如,当我输入“Mortal Kombat 1 gameplay”时,Sora 并没有生成任何类似的内容。不过,我的测试结果表明,游戏内容很可能已经进入了 Sora 的训练数据。

OpenAI 一直对训练数据的来源保持谨慎。在三月份接受《华尔街日报》采访时,OpenAI 的首席技术官 Mira Murati 并没有直接否认 Sora 是在 YouTube、Instagram 和 Facebook 等内容上进行训练的。在 Sora 的技术规格中,OpenAI 承认使用了“公开可用”的数据,以及来自 Shutterstock 等库存媒体库的许可数据。

不过,如果 Sora 的训练数据中确实包含了游戏内容,这可能会带来一些法律问题,尤其是如果 OpenAI 未来打算基于 Sora 开发更多互动体验。Pryor Cashman 的知识产权律师 Joshua Weigensberg 告诉我,那些在未经许可的游戏攻略视频上进行训练的公司面临着很大的风险。他解释说,训练生成式 AI 模型通常涉及复制训练数据,如果这些数据是受版权保护的游戏攻略视频,那么训练集中很可能包含侵权材料。

像 Sora 这样的生成式 AI 模型是概率性的,它们通过大量数据学习模式来进行预测。这种特性虽然让模型能够通过观察世界来“学习”世界如何运作,但也可能成为它的弱点。当以特定方式提示时,模型可能会生成与其训练示例几乎相同的副本,这让那些未经许可就被纳入训练的作品的创作者感到不满。

目前,许多 AI 公司正面临类似的法律纠纷。微软和 OpenAI 因涉嫌允许其 AI 工具重复使用许可代码而面临诉讼,Midjourney、Runway 和 Stability AI 等公司也因侵犯艺术家权利而被起诉。主要音乐公司则对 Udio 和 Suno 这两家开发 AI 歌曲生成器的初创公司提起了侵权诉讼。

尽管如此,许多 AI 公司仍然声称享有合理使用保护,认为他们的模型创造的是转化性而非抄袭性的作品。比如,Suno 就认为,不加区分的训练与“孩子在听完摇滚乐后自己写摇滚歌曲”没有什么不同。

但游戏内容的情况可能更为复杂。Dorsey & Whitney 的律师 Evan Everist 指出,游戏攻略视频至少涉及两层版权保护:游戏开发者拥有的游戏内容,以及玩家或摄像师捕捉玩家体验所创建的独特视频。对于某些游戏,可能还有第三层权利,即软件中出现的用户生成内容。

Everist 以《堡垒之夜》为例,解释说,这些地图的攻略视频将涉及至少三个版权持有者:Epic、使用地图的人和地图的创建者。如果法院认定训练 AI 模型构成版权责任,这些版权持有者中的每一个都可能是潜在的原告或许可来源。

Joshua Weigensberg 还指出,游戏本身有许多“可保护”的元素,如专有纹理,法官在知识产权诉讼中可能会考虑这些元素。除非这些作品已获得适当许可,否则在其上进行训练可能构成侵权。

TechCrunch 联系了多家游戏工作室和出版商,包括 Epic、微软、Ubisoft、Nintendo、Roblox 和 CD Projekt Red,但很少有人愿意发表正式声明。CD Projekt Red 的一位发言人表示,“我们目前无法参与采访。”EA 则告诉 TechCrunch,“目前没有任何评论。”

尽管 AI 公司有可能在这些法律纠纷中胜诉,但即使法院裁定有利于 AI 公司,也不一定能保护其用户免受不当行为的指控。如果生成模型重复使用了受版权保护的作品,那么随后发布该作品或将其纳入其他项目的人仍可能被追究知识产权侵权责任。

总的来说,生成式 AI 的未来充满了法律和伦理的挑战。虽然这些技术有着巨大的潜力,但如何在尊重版权和创新之间找到平衡,仍然是一个亟待解决的问题。

正文完
 0
admin-gah
版权声明:本文于2024-12-13转载自TechCrunch,共计2144字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码