OpenAI与出版商协议的背后：探索AI时代的版权与搜索新格局

230次阅读

共计 5065 个字符，预计需要花费 13 分钟才能阅读完成。

OpenAI 的 GPT 模型之所以取得巨大飞跃，很可能是因为它未经许可就吸收了整个书面网络的内容，包括 Axel Springer、Condé Nast 和《美联社》等主要出版商的完整档案。但出于某种原因，OpenAI 还是宣布与这些大型集团达成了协议。

乍看之下，这并不完全合理。为什么 OpenAI 要为已经拥有的东西付费？而为什么那些对其作品被盗感到愤怒的出版商会同意呢？

我怀疑，如果我们仔细审视这些协议，就能看到未来网络形态的一种可能轮廓。Google 已经越来越少地将流量导向外部网站，这威胁到了整个网络的其余部分。这是一个搜索领域的权力真空，OpenAI 可能正试图填补这一空缺。

我们从已知的信息开始。根据宣布 Axel Springer 协议的新闻稿，这些协议使 OpenAI 能够访问出版物，例如通过添加各种主题的最新和权威内容来“丰富用户与 ChatGPT 的体验”。“最新内容”这一部分至关重要。抓取网络意味着 ChatGPT 无法检索超过某个日期的信息。OpenAI 越接近实时访问，其产品就越接近实时结果。

协议的具体条款一直模糊不清，我猜是因为各方都签署了严格的保密协议。我当然不清楚 Vox Media（本出版物的母公司）协议的具体细节。对于出版商而言，保密细节在转向其他合作伙伴（比如 Google 和 AI 初创公司 Anthropic）时能给他们更强的谈判地位，就像不透露之前的薪资可以让你向新雇主要求更多薪水一样。

据《The Information》报道，OpenAI 每年向出版商提供的金额低至 100 万至 500 万美元。已有一些关于与 Axel Springer、《金融时报》、NewsCorp、Condé Nast 和《美联社》等出版商达成协议的报道。根据公开报道的数据，我粗略计算这些协议的年度上限为每家出版商 1000 万美元。

一方面，这些费用微不足道，只是少得可怜的钱。（公司前首席研究员 Ilya Sutskever 仅在 2016 年就赚了 190 万美元。）另一方面，OpenAI 已经抓取了所有这些出版物的数据。除非法院禁止它这样做，否则它可以继续这样做。那么，它到底在为什么付费呢？

也许是为了 API 访问权限，以便更容易、更实时地抓取数据。目前，ChatGPT 无法回答最新的查询；API 访问可能会改变这一点。

但这些支付也可以被视为确保出版商不会因 OpenAI 已经抓取的内容而起诉它的一种方式。一家主要出版商已经提起诉讼，其后果对 OpenAI 来说可能更加昂贵。法律纠纷将耗时数年。

如果 OpenAI 吸收了整个基于文本的互联网，这意味着几件事情。首先，无法在短期内再次生成如此大量的数据，这可能限制 ChatGPT 的进一步实用性提升。（值得注意的是，OpenAI 尚未发布 GPT-5。）其次，很多人对此感到愤怒。

许多这些人已经提起了诉讼，其中最重要的是《纽约时报》提起的诉讼。根据《纽约时报》的诉讼，当 OpenAI 吸收其作品来训练其大型语言模型时，它涉嫌侵犯版权。此外，OpenAI 通过这种方式创建的产品现在与《纽约时报》竞争，并旨在“抢走其观众”。

《纽约时报》的诉讼称，它曾试图与 OpenAI 谈判以允许使用其作品，但这些谈判失败了。我大胆猜测，这是因为在上述计算中，OpenAI 向《纽约时报》提供的金额低得令人难以接受。它的借口是合理使用——一种在特定情况下允许未经许可使用受版权保护材料的条款。

如果《纽约时报》赢得诉讼，OpenAI 可能需要支付至少 75 亿美元的法定赔偿金。

如果《纽约时报》赢得诉讼，它可能有权获得法定赔偿金，起始金额为每件作品 750 美元。《纽约时报》称 OpenAI 吸收了 1000 万件作品，因此仅法定赔偿金就至少为 75 亿美元。难怪《纽约时报》不愿意在数百万美元的范围内达成协议。

因此，当 OpenAI 与出版商达成协议时，它们实际上是保证出版商不会像《纽约时报》那样起诉 OpenAI 的和解协议。这些协议还旨在确保 OpenAI 之前使用出版商作品的行为被视为合理使用——因为 OpenAI 将在多个法庭案件中，尤其是与《纽约时报》的案件中，必须主张这一点。

新闻媒体联盟的 CEO Danielle Coffey 表示：“我有充分的理由相信他们希望在合理使用的框架下保留使用这些内容的权利。如果他们不这么认为，就不会在法庭上提出这样的论点。”

OpenAI 似乎希望稍微改善其声誉。如果你想推出一个希望人们付费的新产品，它不能带有大量的包袱和不确定性。而 OpenAI 确实有包袱：为了进行合理使用辩护，它必须承认未经许可使用了纽约时报的受版权保护材料——这隐含地表明它也未经许可使用了大量其他受版权保护的材料。它的论点仅仅是它在法律上有权这样做。

还有一个准确性的问题。我们都知道生成式 AI 会编造内容。出版商协议不仅提供了合法性——它们还可能帮助生成式 AI 获取更少可能导致尴尬错误的信息。

除了诉讼预防和声誉管理之外，还有更多因素在起作用。还记得这些协议还为 OpenAI 提供了最新信息吗？最近，OpenAI 宣布了 SearchGPT，这是其自己的搜索引擎。AI 原生网络搜索仍处于初级阶段，但如果能够过滤掉 AI 生成的 SEO 垃圾内容，转而支持真实可靠的信息来源，这将是一个优势。

过去几年，Google 搜索的质量严重下降，而 Google 在其搜索结果上添加的 AI 聊天机器人并没有改善这一状况。它有时会给出不准确的答案，同时将包含真实信息的链接埋在页面更下方。如果你想构建一个颠覆现有网络搜索的产品，现在正是时候。

OpenAI 与出版商的协议为出版商提供了更多筹码，并可能最终迫使 Google 回到谈判桌前。

Google 也成功地激怒了出版商——不仅因为它吸收了所有数据用于其大型语言模型，还因为它重新定位了自己。曾经，Google 搜索是出版商流量的主要来源，是将人们引导至原始来源的方式。但后来，Google 引入了“片段”，这意味着人们不必点击链接就能找到信息，例如如何稀释椰浆以制作等量的椰奶。因为人们不去原始来源，出版商的广告曝光率就减少了。多年来，Google 对搜索的各种改变意味着 Google 向出版商推荐更少流量，尤其是小型出版商。

现在，Google 的 AI 聊天机器人进一步边缘化了出版商。但 OpenAI 与出版商的协议为出版商提供了更多筹码，并可能最终迫使 Google 回到谈判桌前。

Google 通常不习惯为搜索付费；直到最近，安排是出版商通过流量推荐获得收益。但对于其聊天机器人，Google 确实达成了协议：与 Reddit。每年 6000 万美元，Google 可以访问 Reddit，切断了所有未达成类似协议的搜索引擎。这比 OpenAI 支付给出版商的金额要高得多，似乎为出版商打开了一扇门，他们打算走进去。

接管搜索市场是那种可以证明所有这些投资合理的事情。

多年来，Google 对普通人来说已经越来越不实用。生成式 AI 威胁要使情况变得更糟，通过创建充满垃圾文本的网站来服务广告。当然，Google 并不对待所有它抓取的网站都一样。但如果有人能提出一个承诺提供更高质量信息的替代方案，那么迷失方向的搜索引擎可能会陷入真正的麻烦。毕竟，这就是 Google 自己取代之前搜索引擎的方式，比如 AltaVista。

OpenAI 烧钱，今年可能亏损 50 亿美元。目前，它正在谈判另一轮融资，估值超过 1000 亿美元。为了证明接近这一估值的合理性，它需要一条通往盈利的路径。接管搜索市场是那种可以证明所有这些投资合理的事情。

OpenAI 的 SearchGPT 目前还不是严重的威胁。它仍然是一个“原型”，这意味着如果它犯了类似于告诉人们把胶水涂在披萨上的错误，那更容易被解释。与 Google 不同，Google 几乎是每个在线用户的工具，SearchGPT 的用户数量有限——因此更少的人会看到任何早期错误。

与出版商的协议也为 SearchGPT 提供了另一个声誉缓冲。其竞争对手 Perplexity 因抓取明确禁止它的网站而受到抨击。相比之下，SearchGPT 是与签署协议的出版商合作的结果。

目前还不完全清楚转向“答案引擎”对出版商的底线意味着什么。也许有些人会继续点击查看原始来源，特别是如果无法从大型语言模型中去除幻觉的话。另一种可能的模式来自 Perplexity，它迟来地推出了一个收入共享计划。

收入共享计划使 Perplexity 更容易声称其抓取是合理使用（听起来熟悉吗？）。Perplexity 的情况与 ChatGPT 略有不同；它创建了一个“Pages”产品，该产品有不幸的抄袭受版权保护材料的倾向。Forbes 和 Condé Nast 已经向 Perplexity 发出了法律警告。

所以这里有一个大问题：法院实际判决时会发生什么？这些出版商协议存在的原因之一是减少法律行动的威胁。但它们的存在可能与抓取受版权保护材料用于 AI 是合理使用的论点相悖。

如果《纽约时报》胜诉，这可能对 Google、OpenAI 以及支持 OpenAI 的微软都有帮助。也许这就是前 Google CEO Eric Schmidt 所说的，企业家应该对受版权保护的作品做任何他们想做的事情，并“雇佣一大批律师来清理这个烂摊子”。

法院在版权法方面是不确定的，因为它有点像色情——法官知道违规行为是什么。此外，如果《纽约时报》和 OpenAI 之间确实有审判，无论谁赢，几乎肯定会有上诉。

法院案件需要时间，上诉需要更多时间。法院解决所有这些问题需要数年时间。这对 OpenAI 这样的玩家来说足够时间来发展一个主导业务。

她特别提到 Google 如此之大，以至于可以迫使出版商接受其条款。

假设 OpenAI 最终败诉。这意味着所有大型语言模型的创建者都必须支付赔偿金。这可能非常昂贵，非常快——意味着只有最大的玩家才能竞争。这将巩固每个已建立的玩家，并可能摧毁许多开源 LLM。这使得 Google、微软、亚马逊和 Meta 在生态系统中比它们已经占据的主导地位更加重要——还有 OpenAI 和 Anthropic，它们都与一些主要玩家有协议。

新闻媒体联盟的 Coffey 还提到了大型科技公司如何应对针对它们的裁决。她特别提到 Google 如此之大，以至于可以迫使出版商接受其条款；似乎是为了强调她的观点，在我们采访几周后，Google 在一场反垄断案件中被法律认定为垄断。

这里有一个 Google 过度权力的例子：2019 年，欧盟给予数字出版商在 Google 使用其作品片段时要求支付的权利。这一法律首先在法国实施，结果是 Google 告诉出版商它将只使用他们作品的标题，而不是支付费用。“因此，他们向法国出版商发送了一堆信件，说如果你想被找到，就放弃你的版权保护，”Coffey 说。“在某种意义上，它们几乎凌驾于法律之上”，因为 Google 搜索是如此主导。

Google 目前正在利用其搜索主导地位以类似方式挤压出版商。阻止其 AI 总结人们的工作意味着 Google 根本不会列出它们，因为它使用相同的工具进行网络搜索和 AI 训练。

“这将是在生态系统初期的一个真正的反竞争悲剧。”

因此，如果《纽约时报》胜诉，似乎有可能 Google 和其他主要 AI 玩家仍然可以要求不怎么有利于出版商的协议——同时也会摧毁竞争的 LLM。“我非常担心我们正在建立一个生态系统，只有最大的公司才能负担得起训练数据，”Public Knowledge 的政策顾问 Nicholas Garcia 说。

事实上，诉讼的存在可能足以阻止一些玩家使用公开可用的数据来训练他们的模型。人们可能认为他们不能在公开可用数据上进行训练——这比计算和专家供应方面已经存在的瓶颈更进一步缩小了竞争动态。“这将是在生态系统初期的一个真正的反竞争悲剧，”Garcia 说。

OpenAI 在《纽约时报》案件中并非唯一被告；另一个是它的合作伙伴微软。如果 OpenAI 确实不得不支付一笔至少数亿美元的和解金，这可能会使其面临被微软收购的风险——微软随后将拥有 OpenAI 已经谈判的所有许可协议，在一个许可协议被版权法要求的世界中，这是一个相当大的竞争优势。当然，目前微软假装它并不真正了解 OpenAI，因为政府对反垄断的新兴趣，但这可能会在版权案件通过系统时改变。

而 OpenAI 可能会因为其谈判的许可协议而败诉。这些协议为出版商的数据创造了一个市场，根据版权法，如果你扰乱了这样一个市场，那么，这不是合理使用。这一特定的论点最近在一个最高法院案件中出现，关于一幅 Andy Warhol 的画作，该画作被发现不公平地与用于创作画作的原始图像竞争。

正文完

发表至： AI行业动态

2024-08-30 22:11

0