共计 814 个字符,预计需要花费 3 分钟才能阅读完成。
互联网档案馆一直是记者们不可或缺的资源,无论是追溯已删除的推文记录,还是为深度报道寻找历史文献。然而,人工智能的兴起在这家非营利数字图书馆与媒体机构之间引发了新的紧张关系,AI 内容抓取问题正成为双方矛盾的焦点。
近期,多家主流媒体已开始阻止互联网档案馆抓取其内容,理由是担心人工智能公司正通过该档案馆的收藏间接获取其文章数据。这种对 AI 内容抓取的担忧,反映了媒体行业在数字化时代面临的版权保护挑战。
“许多人工智能企业正在寻找易于获取、结构化的内容数据库,”《卫报》商业与授权事务负责人罗伯特·哈恩向《尼曼实验室》表示,“互联网档案馆的 API 显然成了它们连接自身系统、提取知识产权的目标渠道。”这凸显了 AI 内容抓取对媒体版权的潜在威胁。
《纽约时报》也采取了类似行动。该报一位发言人向《尼曼实验室》证实:“我们已阻止互联网档案馆的爬虫访问《纽约时报》内容,因为其‘时光机’在未经授权的情况下提供了对我方内容的无限制访问——其中也包括人工智能公司的访问。”以订阅模式为核心的《金融时报》以及社交论坛 Reddit 也已采取措施,有选择地限制互联网档案馆对其内容的收录,以应对 AI 内容抓取的风险。
多家出版商已试图通过法律途径,就人工智能公司使用其内容训练大语言模型的行为提起诉讼。仅新闻行业为例:,
- 《纽约时报》起诉 OpenAI 与微软
- 调查报道中心起诉 OpenAI 与微软
- 《华尔街日报》与《纽约日报》起诉 Perplexity
- 《大西洋月刊》《卫报》《政客》等多家出版商联合起诉 Cohere
- 《纽约时报》与《芝加哥论坛报》起诉 Perplexity
这些诉讼表明,AI 内容抓取引发的版权纠纷正在加剧。另一些媒体机构则在同意将其内容库用于训练前,试图达成财务协议——尽管这类安排往往更倾向于补偿出版公司,而非原创作者。这还未涉及其他创意领域:从小说作家、视觉艺术家到音乐人,均在就版权与作品盗用问题与人工智能工具展开博弈,AI 内容抓取的影响已波及整个创意产业。