新闻网站为何屏蔽AI机器人?多数出版商正用robots.txt阻挡训练与检索

26次阅读
没有评论

共计 2188 个字符,预计需要花费 6 分钟才能阅读完成。

BuzzStream 的一项最新分析揭示了一个行业趋势:大多数头部新闻网站正通过 robots.txt 文件来阻止 AI 训练机器人访问其内容。然而,这种做法同时也会屏蔽那些用于 AI 实时搜索引用的检索机器人,这可能会直接影响网站在 AI 生成答案中的出现和可见性。,

数据揭示的现状:广泛屏蔽已成常态

该研究分析了美国和英国市场共 100 家头部新闻网站的 robots.txt 文件,发现 79% 的网站屏蔽了至少一种 AI 训练机器人。更值得注意的是,71%的网站同时也屏蔽了至少一种用于检索或实时搜索的机器人。这意味着,新闻出版商在阻止内容被用于 AI 训练的同时,也可能主动退出了 AI 搜索工具的内容发现和引用环节。

新闻网站为何屏蔽 AI 机器人?多数出版商正用 robots.txt 阻挡训练与检索

训练机器人被广泛屏蔽

在训练机器人中,Common Crawl 的 CCBot 被屏蔽得最多(75% 的网站),其次是 Anthropic-ai(72%)、ClaudeBot(69%)和 OpenAI 的 GPTBot(62%)。谷歌用于训练 Gemini 模型的 Google-Extended 机器人,是被屏蔽最少的训练机器人,总体屏蔽率为 46%。但地域差异明显:美国出版商的屏蔽率为 58%,几乎是英国出版商(29%)的两倍。

《每日电讯报》的 SEO 总监 Harry Clarkson-Bennett 向 BuzzStream 解释道:“出版商通过 robots.txt 屏蔽 AI 机器人,是因为几乎不存在价值交换。大语言模型的设计初衷并非带来推荐流量,而出版商(仍然!)需要流量来维持生存。”,

检索机器人同样面临高比例屏蔽

研究发现,高达 71% 的网站屏蔽了至少一种检索或实时搜索机器人。具体而言,66% 的网站屏蔽了 Claude-Web,而驱动 ChatGPT 实时搜索的 OpenAI OAI-SearchBot 被 49% 的网站屏蔽。ChatGPT-User 则被 40% 的网站屏蔽。相比之下,处理用户直接检索请求的 Perplexity-User 被屏蔽率最低,仅为 17%。,

索引机器人屏蔽情况

用于为 Perplexity 搜索索引页面的 PerplexityBot,被 67% 的网站屏蔽。总体来看,只有 14% 的网站屏蔽了研究中追踪的所有 AI 机器人,而 18% 的网站没有屏蔽任何 AI 机器人。,

执行力的缺口:robots.txt 的局限性

研究也指出,robots.txt 文件本质上是指令性的,而非强制性的屏障,爬虫机器人完全可以忽视这些指令。此前,当谷歌的 Gary Illyes 确认 robots.txt 无法阻止未经授权的访问时,已有报道关注这一执行缺口。它的作用更像一块“请勿入内”的告示牌,而非一扇上锁的门。

Clarkson-Bennett 在报告中表达了同样的观点:“robots.txt 文件是指令性文件。就像写着‘请勿入内’的标识,但无法阻止不服从或恶意编程的机器人。许多机器人公然无视这些指令。”

例如,Cloudflare 的记录显示,Perplexity 曾使用隐蔽的爬取手段来绕过 robots.txt 限制,包括轮换 IP 地址、变更自治系统号(ASN)以及伪造用户代理来伪装成普通浏览器。Cloudflare 已将 Perplexity 从其已验证机器人名单中移除并主动屏蔽。Perplexity 则对 Cloudflare 的说法提出异议,并发布了回应声明。

因此,对于决心屏蔽 AI 爬虫的出版商来说,除了依赖 robots.txt,可能还需要结合 CDN 级别的屏蔽或机器人指纹识别等技术手段。,

研究的深层含义:屏蔽选择影响 AI 内容可见性

检索机器人被广泛屏蔽的现象尤其值得关注。这表示,许多出版商不仅选择不让自己的内容用于 AI 训练,还选择退出 AI 搜索工具用于呈现答案引用和内容发现的环节。

各家 AI 公司在机器人功能上做了区分。例如,OpenAI 将其爬虫按功能区分:GPTBot 用于收集训练数据,而 OAI-SearchBot 则驱动 ChatGPT 的实时搜索。屏蔽其中一个并不会自动屏蔽另一个。Perplexity 也有类似区分,PerplexityBot 用于索引,Perplexity-User 用于检索。

这些屏蔽选择直接影响着 AI 工具能获取到哪些来源进行引用。如果一个网站屏蔽了检索机器人,那么当用户向 AI 助手询问需要来源佐证的答案时,即使该网站内容曾被用于训练模型,它也可能不会出现在即时生成的答案中。

Google-Extended 的屏蔽率差异也引人深思。美国出版商的屏蔽率远高于英国,虽然数据本身无法明确说明这究竟是因为对 Gemini 发展风险的评估不同,还是源于与谷歌商业关系的差异。,

未来趋势展望:更有效的屏蔽策略

鉴于 robots.txt 方法的局限性,希望有效屏蔽 AI 爬虫的网站可能会发现,采用 CDN 级别的限制措施比单独使用 robots.txt 更为有效。

Cloudflare 的年度回顾报告指出,GPTBot、ClaudeBot 和 CCBot 是在顶级域名中收到“完全禁止”指令最多的 AI 爬虫。报告同时提到,大多数出版商对 Googlebot 和 Bingbot 采用的是“部分屏蔽”而非“完全屏蔽”,这反映了谷歌爬虫在传统搜索索引和 AI 训练中扮演的双重角色。

对于关注自身内容在 AI 时代可见性的机构而言,检索机器人这一类别值得持续关注。屏蔽训练机器人影响的是未来模型的构成,而屏蔽检索机器人则直接关系到内容当前能否出现在 AI 生成的即时答案中。新闻出版商需要在内容保护与 AI 时代可见性之间找到平衡点。

正文完
 0
admin-gah
版权声明:本文于2026-01-08转载自Search Engine Journal,共计2188字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码