《大西洋月刊》AI爬虫评分系统：如何有效屏蔽无价值爬虫？

83次阅读

共计 2355 个字符，预计需要花费 6 分钟才能阅读完成。

《大西洋月刊》近日推出了一套针对 AI 爬虫的评分系统，旨在区分哪些爬虫真正为网站带来读者，哪些仅仅是在剥离内容。只有那些被认定为有价值的爬虫才能通过这一系统。

在过去的一周内，这套系统已经成功屏蔽了一个试图重新爬取《大西洋月刊》网站 564,000 次的 AI 爬虫。与其他出版商不同，《大西洋月刊》并未对所有未达成许可协议的爬虫采取全面屏蔽的策略。由于与 OpenAI 达成了许可协议，其爬虫未被屏蔽，但其他 AI 爬虫则必须为网站带来流量或新订阅用户才能获得访问权限。这一举措表明，《大西洋月刊》希望 AI 引擎在访问其内容以改进大语言模型（LLM）输出时，能够支付相应的许可费用。

《大西洋月刊》AI 爬虫评分系统：如何有效屏蔽无价值爬虫？

“大多数 AI 平台几乎不带来任何流量，这是设计使然。这是媒体和 AI 公司面临的根本问题：搜索平台是否会演变为能够带来有意义流量或价值的平台？因为目前它们并没有做到，”《大西洋月刊》首席执行官尼克·汤普森在接受 Digiday 采访时表示。

他进一步指出：“这些平台没有突出来源材料，也没有真正将用户引导到网站。因此，我们获得的流量微乎其微，订阅用户的数量也非常低。从我们屏蔽的 AI 爬虫中，我们没有获得有意义的订阅用户。”《大西洋月刊》目前拥有超过 100 万付费订阅用户。

今年夏天，《大西洋月刊》启动了这套 AI 爬虫屏蔽评分系统。当时，汤普森和首席产品官吉泰什·戈赫尔开始追踪有多少 AI 爬虫未经许可爬取其网站。他们使用了 Cloudflare 的工具，该工具在三周前推出，默认情况下为其所有出版商客户提供了屏蔽 AI 爬虫的能力。通过电子表格，他们记录了哪些爬虫访问了网站，以及哪些爬虫带来了推荐流量和订阅转化。

“对我们来说，屏蔽 AI 爬虫并追踪它们非常困难。它们使用无头爬虫、第三方爬虫等各种手段来逃避追踪。Cloudflare 的业务就是解决这些问题，”汤普森说道。

汤普森和戈赫尔每周都会讨论 AI 爬虫的行为。《大西洋月刊》拒绝透露其追踪了多少 AI 爬虫，但汤普森表示，他们会通过一个仪表板来查看有多少网站访问者来自 Anthropic、ChatGPT 或 DeepSeek 等 AI 平台，以及有多少订阅用户。虽然订阅用户的数量“非常小”，但这帮助他们决定屏蔽哪些 AI 爬虫。

目前，《大西洋月刊》在 AI 爬虫需要带回多少流量方面保持了宽泛的参数。“我们没有具体的阈值，”汤普森说道。“但它介于零和大量之间。有些 AI 公司几乎不带来任何流量，或者可能只带来一个订阅用户。我们肯定会屏蔽它们。如果它们带来了 1,000 个订阅用户？那就不一样了。每个订阅用户支付 80 美元，那就是 8 万美元的收入。”

《大西洋月刊》观察到，来自谷歌、苹果、DuckDuckGo、必应、ChatGPT、亚马逊、Perplexity、Facebook、ProRata 和 Mistral 等科技公司的 AI 爬虫为其带来了流量。

“大多数 AI 爬虫都会带来一些价值——尽管很小——因此你只需要权衡成本。成本是你在帮助它们建立一个竞争系统。你在帮助 AI 引擎可能超越你，并且你失去了与它们谈判交易的所有筹码。你还失去了与它们进行诉讼的所有筹码，”汤普森说道。

一些出版商采取了更为强硬的方法，屏蔽了大多数 AI 爬虫——尽管许多人现在正在重新评估这一策略。TollBit 首席执行官托希·帕兰吉建议不要完全屏蔽所有爬虫，称这会激励 AI 爬虫逃避检测。

Cloudflare 产品副总裁威尔·艾伦将其客户的 AI 爬虫屏蔽过程定义为三个步骤：审计、定义和执行。他表示，这因客户而异，取决于出版商的业务优先级，并决定哪些 AI 爬虫创造了足够的价值以证明其访问的合理性。他补充说，出版商可以通过 robots.txt 表达这些偏好，并允许或禁止特定爬虫访问其网站。

网络安全和爬虫屏蔽公司 DataDome 的联合创始人兼首席执行官本杰明·法布尔表示，从 2025 年第一季度到第三季度，17,000 个网站上的 AI 流量增加了四倍，其中一些 AI 代理——例如华为的——每月生成数十亿次请求，但没有带回任何流量。

汤普森表示，在他公开《大西洋月刊》的新 AI 屏蔽分析后，几家未具名的 AI 公司联系了他，但这些讨论没有取得任何成果。

出版商面临的一个大问题是，他们无法在不担心对搜索流量影响的情况下屏蔽谷歌的 AI 爬虫。虽然它们是独立的爬虫（谷歌的搜索爬虫称为 Googlebot，其 AI 爬虫称为 Google-Extended），但如果出版商屏蔽 Google-Extended，其内容仍然可能出现在谷歌的 AI 生成摘要 AI Overviews 中，因为这些摘要与谷歌搜索相关联。由于 AI Overviews 与核心搜索爬虫捆绑在一起，出版商无法在不影响其搜索流量的情况下选择退出谷歌的 AI 爬虫。

《大西洋月刊》计划在其 robots.txt 文件中添加 Cloudflare 的新内容信号政策，该政策为出版商提供了一种方式，用于传达他们希望和不希望谷歌等 AI 爬虫在抓取其内容后如何使用这些内容。

但这并不能保证谷歌会遵守或执行该工具传达的内容：抓取我们的网站以索引我们的页面进行搜索，但不要使用我们的内容来训练你的 AI 系统。《大西洋月刊》计划在其 robots.txt 中向谷歌的爬虫添加这一指令。

汤普森承认，谷歌可能不会遵守。如果不遵守，这可能会为像《大西洋月刊》这样的出版商在未来针对 AI 和科技公司的潜在诉讼中提供更多筹码，他补充道。

“我的观点是，我们应该以非常清晰的方式设置我们的网站，解释我们希望如何被对待，我们如何希望我们的内容被交易，以及我们如何进行谈判，”他说道。

艾伦上个月告诉 Digiday，Cloudflare 上的数百万个网站已经实施了内容信号政策工具。当被问及谷歌是否遵守出版商的请求时，艾伦表示这是“早期阶段”，目前还无法监控谷歌的合规性。

“除非谷歌真的愿意这样做，否则我们没有办法真正阻止它，”法布尔说道。

正文完