共计 1891 个字符,预计需要花费 5 分钟才能阅读完成。
不受限制的 AI 爬虫时代似乎正在结束——至少对于通过 Cloudflare 网络传输的五分之一互联网流量来说是这样。作为全球主要互联网内容分发网络(CDN),Cloudflare 已向 AI 公司宣战。自 7 月 1 日起,Cloudflare 默认阻止 AI 网络爬虫在未经许可或补偿的情况下访问网站内容。
这一变化解决了一个实际问题。许多网站所有者报告称,诸如 OpenAI 的 GPTBot 和 Anthropic 的 ClaudeBot 的 AI 爬虫生成了大量自动化请求,堵塞了网站,使其速度如泥浆般缓慢。GoogleBot 单独报告称,云托管服务 Vercel 每月向其托管的网站发送超过 45 亿次请求。
这些 AI 机器人通常比传统搜索引擎爬虫更具侵略性。它们有时每隔几小时就会重新访问同一页面,甚至每秒向网站发送数百次请求。尽管 AI 公司否认其机器人是罪魁祸首,但证据却讲述了不同的故事。
因此,代表其超过两百万客户,即互联网的 20%,Cloudflare 现在阻止 AI 爬虫。对于任何新注册其服务的网站,AI 爬虫将自动被阻止访问其内容,除非网站所有者明确授予权限。此外,Cloudflare 承诺通过行为分析和机器学习检测“影子”爬虫——试图逃避检测的机器人。
这一举措逆转了之前的现状,即网站所有者必须选择退出 AI 爬虫。现在,阻止是默认设置,AI 供应商必须请求访问并澄清其意图,无论是用于模型训练、搜索还是其他用途,才能被允许进入。
这一变化不仅是因为网站所有者的不满。许多出版公司,如美联社、康泰纳仕和 ZDNET 的母公司 Ziff Davis,对 AI 公司“剥离”网络内容感到沮丧。通常情况下,这是在没有补偿或同意的情况下进行的,有时甚至忽略了旨在阻止爬虫的标准协议,如 robots.txt。
此外,最近的法院案件裁定 Meta 和 Anthropic 胜诉,认为他们在合理使用原则下使用受版权保护的作品是合法的。不用说,作家、艺术家和出版商对此一点也不喜欢。出版商仍然担心联邦政府会给 AI 自由处理其内容的权力。OpenAI 和 Google 等 AI 巨头继续游说政府将 AI 对受版权保护数据的训练归类为合理使用。
值得注意的是,在版权局发布其 108 页的版权和 AI 报告的预发布版本后,该报告通过支持这两个为我们的经济和文化进步做出巨大贡献的世界级行业达成了折衷。然而,它补充说,虽然一些生成式 AI 可能构成“变革性”使用,但大规模抓取所有数据并不符合合理使用。第二天,特朗普政府解雇了版权局的负责人,并任命了一位没有版权法经验的律师接替。
鉴于这一切,难怪出版商在技术中寻求盟友。
正如 Cloudflare 首席执行官 Matthew Prince 在一份声明中所说,其新政策旨在“给予出版商应得的控制权,并建立一个对所有人——创作者、消费者、未来的 AI 创始人和互联网本身——都有效的新经济模式。”
为了配合阻止 AI 爬虫的举措,Cloudflare 还推出了其“按爬虫付费”计划。这使得出版商可以为希望抓取其内容的 AI 公司设定自己的费率。
该系统目前处于私有测试阶段,旨在创建一个框架,AI 公司可以付费访问,或者如果他们拒绝则被拒绝。从技术上讲,这将通过重新使用一个旧的、大部分未使用的 Web 服务器响应 HTTP 402 来实现,该响应返回“需要付款”的错误消息。这意味着它应该易于实现,并且与现有网站及其基础设施兼容。
总的来说,这是一件大事。由于 Cloudflare 为如此大一部分互联网提供支持,除非 AI 公司协商访问或支付许可费,否则大量网络内容可能对它们无法访问。正如 The Atlantic 的首席执行官 Nicholas Thompson 所指出的,“到目前为止,AI 公司不需要为内容许可付费,因为它们可以毫无后果地获取内容。现在他们将需要协商。”
到目前为止,大多数 AI 公司一直积极反对为内容付费。正如前英国副首相兼 Meta 高管 Nick Clegg 爵士最近所说,在抓取受版权保护的内容之前仅仅要求艺术家的许可将“基本上扼杀 AI 行业。”
Cloudflare 的新政策是对这种方法和随之而来的 AI 爬虫数量和侵入性增加的直接回应。这也是为了阻止本应流向出版商的流量被分流。
自 AI 兴起以来,新闻网站的流量大幅下降。例如,Business Insider 的流量下降了超过一半,从 2022 年 4 月到 2025 年 4 月下降了 55%。如果不加以控制,Thompson 最近预测,由于 AI,大西洋的员工应该预计来自 Google 的流量将降至零。
接下来会发生什么?其他 CDN,如 Akamai,会效仿吗?请继续关注。目前,不受限制的 AI 爬虫时代似乎正在结束,至少对于通过 Cloudflare 网络传输的五分之一互联网流量来说是这样。