共计 2355 个字符,预计需要花费 6 分钟才能阅读完成。
《大西洋月刊》近日推出了一套针对 AI 爬虫的评分系统,旨在区分哪些爬虫真正为网站带来读者,哪些仅仅是在剥离内容。只有那些被认定为有价值的爬虫才能通过这一系统。
在过去的一周内,这套系统已经成功屏蔽了一个试图重新爬取《大西洋月刊》网站 564,000 次的 AI 爬虫。与其他出版商不同,《大西洋月刊》并未对所有未达成许可协议的爬虫采取全面屏蔽的策略。由于与 OpenAI 达成了许可协议,其爬虫未被屏蔽,但其他 AI 爬虫则必须为网站带来流量或新订阅用户才能获得访问权限。这一举措表明,《大西洋月刊》希望 AI 引擎在访问其内容以改进大语言模型(LLM)输出时,能够支付相应的许可费用。
“大多数 AI 平台几乎不带来任何流量,这是设计使然。这是媒体和 AI 公司面临的根本问题:搜索平台是否会演变为能够带来有意义流量或价值的平台?因为目前它们并没有做到,”《大西洋月刊》首席执行官尼克·汤普森在接受 Digiday 采访时表示。
他进一步指出:“这些平台没有突出来源材料,也没有真正将用户引导到网站。因此,我们获得的流量微乎其微,订阅用户的数量也非常低。从我们屏蔽的 AI 爬虫中,我们没有获得有意义的订阅用户。”《大西洋月刊》目前拥有超过 100 万付费订阅用户。
今年夏天,《大西洋月刊》启动了这套 AI 爬虫屏蔽评分系统。当时,汤普森和首席产品官吉泰什·戈赫尔开始追踪有多少 AI 爬虫未经许可爬取其网站。他们使用了 Cloudflare 的工具,该工具在三周前推出,默认情况下为其所有出版商客户提供了屏蔽 AI 爬虫的能力。通过电子表格,他们记录了哪些爬虫访问了网站,以及哪些爬虫带来了推荐流量和订阅转化。
“对我们来说,屏蔽 AI 爬虫并追踪它们非常困难。它们使用无头爬虫、第三方爬虫等各种手段来逃避追踪。Cloudflare 的业务就是解决这些问题,”汤普森说道。
汤普森和戈赫尔每周都会讨论 AI 爬虫的行为。《大西洋月刊》拒绝透露其追踪了多少 AI 爬虫,但汤普森表示,他们会通过一个仪表板来查看有多少网站访问者来自 Anthropic、ChatGPT 或 DeepSeek 等 AI 平台,以及有多少订阅用户。虽然订阅用户的数量“非常小”,但这帮助他们决定屏蔽哪些 AI 爬虫。
目前,《大西洋月刊》在 AI 爬虫需要带回多少流量方面保持了宽泛的参数。“我们没有具体的阈值,”汤普森说道。“但它介于零和大量之间。有些 AI 公司几乎不带来任何流量,或者可能只带来一个订阅用户。我们肯定会屏蔽它们。如果它们带来了 1,000 个订阅用户?那就不一样了。每个订阅用户支付 80 美元,那就是 8 万美元的收入。”
《大西洋月刊》观察到,来自谷歌、苹果、DuckDuckGo、必应、ChatGPT、亚马逊、Perplexity、Facebook、ProRata 和 Mistral 等科技公司的 AI 爬虫为其带来了流量。
“大多数 AI 爬虫都会带来一些价值——尽管很小——因此你只需要权衡成本。成本是你在帮助它们建立一个竞争系统。你在帮助 AI 引擎可能超越你,并且你失去了与它们谈判交易的所有筹码。你还失去了与它们进行诉讼的所有筹码,”汤普森说道。
一些出版商采取了更为强硬的方法,屏蔽了大多数 AI 爬虫——尽管许多人现在正在重新评估这一策略。TollBit 首席执行官托希·帕兰吉建议不要完全屏蔽所有爬虫,称这会激励 AI 爬虫逃避检测。
Cloudflare 产品副总裁威尔·艾伦将其客户的 AI 爬虫屏蔽过程定义为三个步骤:审计、定义和执行。他表示,这因客户而异,取决于出版商的业务优先级,并决定哪些 AI 爬虫创造了足够的价值以证明其访问的合理性。他补充说,出版商可以通过 robots.txt 表达这些偏好,并允许或禁止特定爬虫访问其网站。
网络安全和爬虫屏蔽公司 DataDome 的联合创始人兼首席执行官本杰明·法布尔表示,从 2025 年第一季度到第三季度,17,000 个网站上的 AI 流量增加了四倍,其中一些 AI 代理——例如华为的——每月生成数十亿次请求,但没有带回任何流量。
汤普森表示,在他公开《大西洋月刊》的新 AI 屏蔽分析后,几家未具名的 AI 公司联系了他,但这些讨论没有取得任何成果。
出版商面临的一个大问题是,他们无法在不担心对搜索流量影响的情况下屏蔽谷歌的 AI 爬虫。虽然它们是独立的爬虫(谷歌的搜索爬虫称为 Googlebot,其 AI 爬虫称为 Google-Extended),但如果出版商屏蔽 Google-Extended,其内容仍然可能出现在谷歌的 AI 生成摘要 AI Overviews 中,因为这些摘要与谷歌搜索相关联。由于 AI Overviews 与核心搜索爬虫捆绑在一起,出版商无法在不影响其搜索流量的情况下选择退出谷歌的 AI 爬虫。
《大西洋月刊》计划在其 robots.txt 文件中添加 Cloudflare 的新内容信号政策,该政策为出版商提供了一种方式,用于传达他们希望和不希望谷歌等 AI 爬虫在抓取其内容后如何使用这些内容。
但这并不能保证谷歌会遵守或执行该工具传达的内容:抓取我们的网站以索引我们的页面进行搜索,但不要使用我们的内容来训练你的 AI 系统。《大西洋月刊》计划在其 robots.txt 中向谷歌的爬虫添加这一指令。
汤普森承认,谷歌可能不会遵守。如果不遵守,这可能会为像《大西洋月刊》这样的出版商在未来针对 AI 和科技公司的潜在诉讼中提供更多筹码,他补充道。
“我的观点是,我们应该以非常清晰的方式设置我们的网站,解释我们希望如何被对待,我们如何希望我们的内容被交易,以及我们如何进行谈判,”他说道。
艾伦上个月告诉 Digiday,Cloudflare 上的数百万个网站已经实施了内容信号政策工具。当被问及谷歌是否遵守出版商的请求时,艾伦表示这是“早期阶段”,目前还无法监控谷歌的合规性。
“除非谷歌真的愿意这样做,否则我们没有办法真正阻止它,”法布尔说道。