AI训练数据争议：未经许可使用YouTube视频引发关注

260次阅读

共计 1741 个字符，预计需要花费 5 分钟才能阅读完成。

EleutherAI 的数据再次让专业内容创作者感到沮丧。

AI 训练数据争议：未经许可使用 YouTube 视频引发关注

根据证据新闻和连线的新报告，苹果、Salesforce、Anthropic 及其他主要科技公司的人工智能（AI）模型未经创作者同意，可能违反 YouTube 条款，使用了数万部 YouTube 视频进行训练。

这些公司部分通过使用非营利组织自由人工智能（EleutherAI）的“数据堆”（The Pile）集合来训练其模型，该集合旨在为没有资源与大科技公司竞争的个人或公司提供有用的数据集，尽管它后来也被这些大公司使用。

数据堆包括书籍、维基百科文章等，其中包括通过 YouTube 的应用程序接口（API）从 173,536 部 YouTube 视频中抓取的字幕，涉及超过 48,000 个频道。这包括来自野兽先生（MrBeast）、皮尤迪派（PewDiePie）等大 YouTube 视频创作者以及知名科技评论员马奎斯·布朗利（Marques Brownlee）的视频。在推特（X）上，布朗利指出苹果使用该数据集，但也承认当苹果本身没有收集数据时，归咎于苹果是复杂的。他写道：

苹果从几家公司获取了用于其 AI 的数据
其中一家公司从 YouTube 视频中抓取了大量数据 / 转录本，包括我的视频
苹果在这里技术上避免了“过错”，因为他们不是抓取者
但这将是一个长期演进的问题

随着 AI 生成内容在互联网上的不断增加，越来越难以组合不包含已由 AI 生产的内容的数据集来训练 AI。

需要明确的是，其中一些并非新消息。数据堆经常在 AI 圈中被使用和引用，过去已知被科技公司用于训练。它已在多个知识产权所有者对 AI 和科技公司的诉讼中被引用。这些诉讼的被告，包括开放人工智能（OpenAI），称这种抓取是合理使用。这些诉讼尚未在法庭上解决。

然而，证据新闻进行了一些挖掘，以确定 YouTube 字幕使用的具体细节，甚至创建了一个工具，您可以使用它来搜索数据堆查找个别视频或频道。

这项工作揭示了数据收集的强大程度，并引起了对知识产权所有者在开放网络上对其作品使用控制程度低下的关注。

需要注意的是，这并不一定意味着这些数据被用于训练模型以生产面向最终用户的竞争性内容。例如，苹果可能为了研究目的或改进其设备上的文本输入自动完成功能而训练了数据集。

证据新闻还联系了其中几位创作者以及使用数据集的公司。大多数创作者对他们内容以这种方式被使用感到惊讶，那些提供声明的创作者对 EleutherAI 和使用其数据集的公司持批评态度。例如，《大卫·帕克曼秀》（David Pakman Show）的大卫·帕克曼说：

没有人来找我说，“我们想使用这个”… 这是我的生计，我投入了时间、资源、金钱和员工时间来创作这个内容。真的不缺工作。

复杂公司（Complexly）的首席执行官朱莉娅·沃尔什（Julia Walsh）说：

我们很沮丧地得知，我们精心制作的教育内容未经我们同意就被这样使用。

还有问题在于这种内容的抓取是否违反了 YouTube 的条款，该条款禁止通过“自动化手段”访问视频。EleutherAI 创始人西德·布莱克（Sid Black）说他使用脚本通过 YouTube 的 API 下载字幕，就像网络浏览器一样。

Anthropic 是使用该数据集训练模型的公司之一，它声称这里没有违反规定。发言人詹妮弗·马丁内斯（Jennifer Martinez）说：

数据堆包括非常小的一部分 YouTube 字幕 …YouTube 的条款涵盖对其平台的直接使用，这与使用数据堆数据集是不同的。关于潜在违反 YouTube 服务条款的问题，我们得参考数据堆的作者。

谷歌发言人告诉证据新闻，谷歌多年来一直在采取“行动防止滥用、未经授权的抓取”，但没有提供更具体的回应。这并不是 AI 和科技公司首次因未经许可使用 YouTube 视频训练模型而受到批评。值得注意的是，开放人工智能（OpenAI）被认为使用了 YouTube 数据来训练其模型，尽管并非所有此类指控都得到证实。

在接受边缘（The Verge）的尼莱·帕特尔（Nilay Patel）采访时，谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）暗示使用 YouTube 视频训练开放人工智能（OpenAI）的索拉（Sora）将违反 YouTube 的条款。当然，这种使用与通过 API 抓取字幕是不同的。

正文完

发表至： AI行业动态

2024-07-18 11:14

0