Cloudflare AI迷宫：智能反爬虫新策略

197次阅读

共计 825 个字符，预计需要花费 3 分钟才能阅读完成。

全球领先的网络基础设施公司 Cloudflare 近日推出了一项名为 AI Labyrinth 的创新工具，旨在应对未经许可抓取网站数据以训练 AI 模型的网络爬虫。与传统的阻止手段不同，该工具通过引导爬虫进入一系列由 AI 生成的无意义内容，来“减缓、混淆并浪费”这些恶意行为的资源。

长期以来，网站主要依赖 robots.txt 这一基于信任的机制来控制爬虫的访问权限。然而，一些知名 AI 公司如 Anthropic 和 Perplexity AI 被指控无视这一机制。Cloudflare 表示，他们每天处理的网络爬虫请求超过 500 亿次，尽管拥有检测和阻止恶意爬虫的工具，但这往往促使攻击者改变策略，形成“一场无休止的军备竞赛”。

AI Labyrinth 的策略并非直接阻止爬虫，而是通过让它们处理与网站实际数据无关的内容来进行反击。该工具还充当“下一代蜜罐”，吸引 AI 爬虫不断深入链接到虚假页面，而普通用户则不会这样做。这使得 Cloudflare 更容易识别恶意爬虫并将其列入黑名单，同时还能发现“新的爬虫模式和特征”。根据文章内容，这些链接对普通访问者应该是不可见的。

Cloudflare 在博客中详细解释了 AI Labyrinth 的工作原理：首先生成多样化的主题，然后为每个主题创建内容，以产生更加多样化和有说服力的结果。重要的是，他们不会生成不准确的内容，以免助长互联网上的错误信息传播，因此生成的内容是真实的，并与科学事实相关，只是与被爬取的网站无关或非专有。

网站管理员可以通过导航到其 Cloudflare 仪表板设置中的 Bot Management 部分并启用该工具来选择使用 AI Labyrinth。该公司表示，这“只是使用生成式 AI 来阻止爬虫的第一步”。他们计划创建“完整的链接 URL 网络”，让陷入其中的爬虫难以识别其为虚假内容。正如 _Ars Technica_ 所指出的，AI Labyrinth 听起来类似于 Nepenthes，这是一种旨在让爬虫在 AI 生成的垃圾数据中“困住数月”的工具。

Cloudflare AI 迷宫：智能反爬虫新策略