新闻网站为何屏蔽AI机器人？多数出版商正用robots.txt阻挡训练与检索

26次阅读

共计 2188 个字符，预计需要花费 6 分钟才能阅读完成。

BuzzStream 的一项最新分析揭示了一个行业趋势：大多数头部新闻网站正通过 robots.txt 文件来阻止 AI 训练机器人访问其内容。然而，这种做法同时也会屏蔽那些用于 AI 实时搜索引用的检索机器人，这可能会直接影响网站在 AI 生成答案中的出现和可见性。,

该研究分析了美国和英国市场共 100 家头部新闻网站的 robots.txt 文件，发现 79% 的网站屏蔽了至少一种 AI 训练机器人。更值得注意的是，71%的网站同时也屏蔽了至少一种用于检索或实时搜索的机器人。这意味着，新闻出版商在阻止内容被用于 AI 训练的同时，也可能主动退出了 AI 搜索工具的内容发现和引用环节。

新闻网站为何屏蔽 AI 机器人？多数出版商正用 robots.txt 阻挡训练与检索

在训练机器人中，Common Crawl 的 CCBot 被屏蔽得最多（75% 的网站），其次是 Anthropic-ai（72%）、ClaudeBot（69%）和 OpenAI 的 GPTBot（62%）。谷歌用于训练 Gemini 模型的 Google-Extended 机器人，是被屏蔽最少的训练机器人，总体屏蔽率为 46%。但地域差异明显：美国出版商的屏蔽率为 58%，几乎是英国出版商（29%）的两倍。

《每日电讯报》的 SEO 总监 Harry Clarkson-Bennett 向 BuzzStream 解释道：“出版商通过 robots.txt 屏蔽 AI 机器人，是因为几乎不存在价值交换。大语言模型的设计初衷并非带来推荐流量，而出版商（仍然！）需要流量来维持生存。”,

研究发现，高达 71% 的网站屏蔽了至少一种检索或实时搜索机器人。具体而言，66% 的网站屏蔽了 Claude-Web，而驱动 ChatGPT 实时搜索的 OpenAI OAI-SearchBot 被 49% 的网站屏蔽。ChatGPT-User 则被 40% 的网站屏蔽。相比之下，处理用户直接检索请求的 Perplexity-User 被屏蔽率最低，仅为 17%。,

用于为 Perplexity 搜索索引页面的 PerplexityBot，被 67% 的网站屏蔽。总体来看，只有 14% 的网站屏蔽了研究中追踪的所有 AI 机器人，而 18% 的网站没有屏蔽任何 AI 机器人。,

研究也指出，robots.txt 文件本质上是指令性的，而非强制性的屏障，爬虫机器人完全可以忽视这些指令。此前，当谷歌的 Gary Illyes 确认 robots.txt 无法阻止未经授权的访问时，已有报道关注这一执行缺口。它的作用更像一块“请勿入内”的告示牌，而非一扇上锁的门。

Clarkson-Bennett 在报告中表达了同样的观点：“robots.txt 文件是指令性文件。就像写着‘请勿入内’的标识，但无法阻止不服从或恶意编程的机器人。许多机器人公然无视这些指令。”

例如，Cloudflare 的记录显示，Perplexity 曾使用隐蔽的爬取手段来绕过 robots.txt 限制，包括轮换 IP 地址、变更自治系统号（ASN）以及伪造用户代理来伪装成普通浏览器。Cloudflare 已将 Perplexity 从其已验证机器人名单中移除并主动屏蔽。Perplexity 则对 Cloudflare 的说法提出异议，并发布了回应声明。

因此，对于决心屏蔽 AI 爬虫的出版商来说，除了依赖 robots.txt，可能还需要结合 CDN 级别的屏蔽或机器人指纹识别等技术手段。,

检索机器人被广泛屏蔽的现象尤其值得关注。这表示，许多出版商不仅选择不让自己的内容用于 AI 训练，还选择退出 AI 搜索工具用于呈现答案引用和内容发现的环节。

各家 AI 公司在机器人功能上做了区分。例如，OpenAI 将其爬虫按功能区分：GPTBot 用于收集训练数据，而 OAI-SearchBot 则驱动 ChatGPT 的实时搜索。屏蔽其中一个并不会自动屏蔽另一个。Perplexity 也有类似区分，PerplexityBot 用于索引，Perplexity-User 用于检索。

这些屏蔽选择直接影响着 AI 工具能获取到哪些来源进行引用。如果一个网站屏蔽了检索机器人，那么当用户向 AI 助手询问需要来源佐证的答案时，即使该网站内容曾被用于训练模型，它也可能不会出现在即时生成的答案中。

Google-Extended 的屏蔽率差异也引人深思。美国出版商的屏蔽率远高于英国，虽然数据本身无法明确说明这究竟是因为对 Gemini 发展风险的评估不同，还是源于与谷歌商业关系的差异。,

鉴于 robots.txt 方法的局限性，希望有效屏蔽 AI 爬虫的网站可能会发现，采用 CDN 级别的限制措施比单独使用 robots.txt 更为有效。

Cloudflare 的年度回顾报告指出，GPTBot、ClaudeBot 和 CCBot 是在顶级域名中收到“完全禁止”指令最多的 AI 爬虫。报告同时提到，大多数出版商对 Googlebot 和 Bingbot 采用的是“部分屏蔽”而非“完全屏蔽”，这反映了谷歌爬虫在传统搜索索引和 AI 训练中扮演的双重角色。

对于关注自身内容在 AI 时代可见性的机构而言，检索机器人这一类别值得持续关注。屏蔽训练机器人影响的是未来模型的构成，而屏蔽检索机器人则直接关系到内容当前能否出现在 AI 生成的即时答案中。新闻出版商需要在内容保护与 AI 时代可见性之间找到平衡点。

正文完

发表至： AI行业动态

2026-01-08 22:11

0

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

微软Copilot Vision：你的在线智能伙伴

马斯克xAI拟投200亿美元建数据中心集群，密西西比州迎来史上最大私企投资

英特尔公布Lunar Lake处理器发布计划

苹果iPhone 17系列新泄露：惊喜新机型与电池技术革新

谷歌AI收件箱革命：Gmail引入智能摘要与待办事项管理

新闻网站为何屏蔽AI机器人？多数出版商正用robots.txt阻挡训练与检索

数据揭示的现状：广泛屏蔽已成常态

训练机器人被广泛屏蔽

检索机器人同样面临高比例屏蔽

索引机器人屏蔽情况

执行力的缺口：robots.txt 的局限性

研究的深层含义：屏蔽选择影响 AI 内容可见性

未来趋势展望：更有效的屏蔽策略

人工智能首次为毅力号规划火星行驶路线，NASA开启地外自主导航新篇章

开罗BGICC会议：医疗AI如何从概念走向临床实践

AI时代重塑就业：批判性思维与适应力成为职场新宠

Moltbook：AI助手自运营社交媒体平台，32,000个AI独立发帖引关注

苹果收购唇语识别公司Q.ai，可穿戴设备交互将迎来无声革命

2026年企业人工智能平衡之道：如何在安全与创新之间找到最佳路径

人工智能鸿沟加剧全球不平等：发展中国家面临被边缘化风险

谷歌Pixel相机隐藏功能：一键开启Display P3让照片色彩更鲜艳

爱尔兰拟推’面对面访谈’新规：学生需口头自证作业非AI生成

加州新法严控AI风险，一州之力能否抵御潜在灾难？