Cloudflare AI迷宫:智能反爬虫新策略

42次阅读
没有评论

共计 825 个字符,预计需要花费 3 分钟才能阅读完成。

全球领先的网络基础设施公司 Cloudflare 近日推出了一项名为 AI Labyrinth 的创新工具,旨在应对未经许可抓取网站数据以训练 AI 模型的网络爬虫。与传统的阻止手段不同,该工具通过引导爬虫进入一系列由 AI 生成的无意义内容,来“减缓、混淆并浪费”这些恶意行为的资源。

长期以来,网站主要依赖 robots.txt 这一基于信任的机制来控制爬虫的访问权限。然而,一些知名 AI 公司如 Anthropic 和 Perplexity AI 被指控无视这一机制。Cloudflare 表示,他们每天处理的网络爬虫请求超过 500 亿次,尽管拥有检测和阻止恶意爬虫的工具,但这往往促使攻击者改变策略,形成“一场无休止的军备竞赛”。

AI Labyrinth 的策略并非直接阻止爬虫,而是通过让它们处理与网站实际数据无关的内容来进行反击。该工具还充当“下一代蜜罐”,吸引 AI 爬虫不断深入链接到虚假页面,而普通用户则不会这样做。这使得 Cloudflare 更容易识别恶意爬虫并将其列入黑名单,同时还能发现“新的爬虫模式和特征”。根据文章内容,这些链接对普通访问者应该是不可见的。

Cloudflare 在博客中详细解释了 AI Labyrinth 的工作原理:首先生成多样化的主题,然后为每个主题创建内容,以产生更加多样化和有说服力的结果。重要的是,他们不会生成不准确的内容,以免助长互联网上的错误信息传播,因此生成的内容是真实的,并与科学事实相关,只是与被爬取的网站无关或非专有。

网站管理员可以通过导航到其 Cloudflare 仪表板设置中的 Bot Management 部分并启用该工具来选择使用 AI Labyrinth。该公司表示,这“只是使用生成式 AI 来阻止爬虫的第一步”。他们计划创建“完整的链接 URL 网络”,让陷入其中的爬虫难以识别其为虚假内容。正如 _Ars Technica_ 所指出的,AI Labyrinth 听起来类似于 Nepenthes,这是一种旨在让爬虫在 AI 生成的垃圾数据中“困住数月”的工具。

Cloudflare AI 迷宫:智能反爬虫新策略

正文完
 0
admin-gah
版权声明:本文于2025-03-23转载自TheVerge,共计825字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码