科技巨头未经许可使用YouTube视频训练AI模型

253次阅读

共计 538 个字符，预计需要花费 2 分钟才能阅读完成。

Proof News 与 Wired 联合发布的一项深入调查报告显示，包括 NVIDIA、Apple、Salesforce 和 Anthropic 在内的多家科技公司，未经许可使用了数千个 YouTube 视频内容来训练其 AI 模型。这些公司通过名为 YouTube Subtitles 的服务，从 173,536 个 YouTube 视频中获取字幕，涉及超过 48,000 个频道，包括 Khan Academy、MIT、哈佛大学等知名机构和 YouTuber 的内容。

这些字幕被用作生成式 AI 的训练数据，显示这些市值数十亿的公司在 AI 竞赛中愿意采取可能存在法律风险的手段以获得竞争优势。报告还指出，YouTube Subtitles 数据集的创建者 EleutherAI 未对未经许可使用视频的指控作出回应。该数据集是名为 The Pile 的更大集合的一部分，包含欧洲议会、英文维基百科及安然公司员工的电子邮件等材料。

此外，Proof News 发现这些公司在研究论文中详细描述了如何利用 The Pile 训练其 AI 模型。例如，Apple 使用 The Pile 训练了 OpenELM，这是一款在 4 月份发布的知名 AI 模型，仅在宣布 iPhone 和 Mac 的新 AI 功能前几周。Salesforce 也确认使用 The Pile 开发用于学术和研究目的的 AI 模型。

正文完

发表至： AI行业动态

2024-07-18 21:04

0