Google搜索中的AI垃圾内容问题依然严重

225次阅读

共计 2674 个字符，预计需要花费 7 分钟才能阅读完成。

最近，我在使用 Google 搜索时偶然发现了一篇感觉非常熟悉的文章。

n

在搜索有关 Adobe 人工智能政策的最新信息时，我在 Google 中输入了“adobe train ai content”并切换到新闻标签。我已经看到了 WIRED 的报道，该报道在搜索结果页面的第二位显示：“Adobe 表示不会使用艺术家的作品训练 AI。创意人士并不信服。”尽管我没有认出排在搜索结果最顶端的出版物 Syrus #Blog 的名字，但该文章的标题让我感到一种似曾相识的感觉：“当 Adobe 承诺不使用艺术家的内容训练 AI 时，创意社区反应怀疑。”

n

点击顶部的超链接，我发现自己进入了一个充斥着抄袭文章的垃圾网站，这些文章被重新包装，其中许多使用了 AI 生成的插图。在这篇垃圾文章中，整个 WIRED 的文章被复制，只有轻微的措辞变化。甚至连原始的引语也被照搬。网页底部的一个孤零零的超链接，指向我们版本的报道，是唯一的归属形式。

n

Google 搜索结果中的一系列新闻文章显示，一篇 AI 垃圾版本的 WIRED 报道排在顶部，而原始报道排在第二位。

n Google 搜索中的 AI 垃圾内容问题依然严重 n

这个机器人不仅在复制英语新闻——我发现这种抄袭内容还有 10 种其他语言的版本，包括 WIRED 生产内容的许多语言，如日语和西班牙语。

n

最初在路透社和 TechCrunch 等媒体上发表的文章也被这个博客以多种语言抄袭，并配以类似的 AI 图像。在 6 月底和 7 月初，当我研究这个故事时，Syrus 网站似乎已经很好地操纵了 Google 的新闻结果，使其出现在多个与技术相关的查询的首页。

n

例如，我搜索“competing visions google openai”，在 Google 新闻的顶部看到了一篇 TechCrunch 的文章。下面是来自 The Atlantic 和 Bloomberg 的文章，比较了这两家竞争对手在 AI 开发方面的不同方法。然而，对于这个搜索，第四篇文章出现在这些更有信誉的网站之下，是另一篇 Syrus #Blog 的文章，该文章大量抄袭了排在第一位的 TechCrunch 文章。

n

正如 404 Media 在一月份报道的那样，今年年初，AI 生成的文章在 Google 新闻结果中多次出现。两个月后，Google 宣布对其算法进行重大更改和新垃圾邮件政策，试图改善搜索结果。到四月底，Google 分享说，从其搜索引擎排名系统中移除无用结果的主要调整已经完成。“截至 4 月 19 日，我们已经完成了这些更改的推出。你现在会在搜索结果中看到 45% 的低质量、非原创内容减少，而我们预期的改善是 40%，”Google 产品管理总监 Elizabeth Tucker 在一篇博客文章中写道。

n

尽管有了这些变化，但借助 AI 生成的垃圾内容仍然是 Google 新闻的一个持续存在的普遍问题。

n

“这在 Google 上是一个非常猖獗的问题，很难具体回答为什么会发生，”营销机构 Amsive 的搜索引擎优化高级总监 Lily Ray 说。“我们有些客户说，‘嘿，他们拿了我们的文章，用 AI 重新包装了它。它看起来完全像我们原始内容的样子，但只是有点像 AI 重写的版本。’”

n

乍一看，我清楚地看到 Syrus 博客的一些图片是基于插图的下垂眼睛和其他变形身体特征的 AI 生成的——这是 AI 试图代表人体特征的明显迹象。

n

现在，我们的文章是用 AI 重写的吗？我联系了博客背后的人，以了解更多他们是如何制作的，并通过电子邮件得到了确认，一家意大利营销机构创建了这个博客。他们声称在写作过程中使用了 AI 工具。“关于您对抄袭的担忧，我们可以向您保证，我们的内容创作过程涉及 AI 工具，这些工具分析和综合来自各种来源的信息，同时始终尊重知识产权，”一位使用 Daniele Syrus 名字的人通过电子邮件写道。

n

他们指出，被抄袭文章底部的单个超链接作为足够的归属。虽然比没有好，但一个甚至没有提到出版物名称的链接不足以防止抄袭。此人还声称，该网站的目标不是从 Google 的搜索引擎获得点击，而是测试多语言中的 AI 算法。

n

当通过电子邮件寻求回应时，Google 拒绝就 Syrus 发表评论。“我们不对特定网站发表评论，但我们的更新垃圾邮件政策禁止为了在 Google 上排名良好而大规模创建低价值、非原创内容，”Google 发言人 Meghann Farnsworth 说。“我们对全球不遵守我们政策的网站采取行动。”（Farnsworth 曾是 WIRED 的员工。）

n

查看 Google 的垃圾邮件政策，似乎这个博客直接违反了公司关于在线抓取的规则。“滥用抓取的例子包括：……从其他网站复制内容，仅轻微修改（例如，通过替换同义词或使用自动化技术），然后重新发布。”Farnsworth 拒绝确认该博客是否违反了 Google 的政策，或者公司是否会根据这一报道在 Google 新闻结果中对其进行降级。

n

那些撰写原创文章的人应该如何保护他们的作品？目前尚不清楚。尽管如此，在与 SEO 专家的所有对话之后，我注意到了一个主要的共同点，那就是一种普遍的焦虑感。

n

“我们的行业遭受了某种创伤，我甚至不是在开玩笑，”在线链接建设服务公司 Forte Analytica 的顾问 Andrew Boyd 说。“我认为其中一个主要原因是，如果你是受影响的出版商，没有追索权。突然间，你早上醒来，50% 的流量消失了。”据 Boyd 说，一些网站在 Google 的搜索算法更新期间失去了大部分访问者。

n

尽管许多 SEO 专家对 Google 最大变化缺乏透明度感到不满，但并非我交谈过的每个人都对搜索结果中垃圾邮件的普遍性持批评态度。“实际上，Google 在这方面没有得到足够的赞誉，但 Google 最大的挑战是垃圾邮件，”《Product-Led SEO》一书的作者 Eli Schwartz 说。“因此，尽管我们对 Google 现在的质量有所有抱怨，但你不会在搜索硬件时找到成人网站。他们做得足够好。”该公司继续发布较小的搜索更新以对抗垃圾邮件。

n

是的，Google 有时通过保护用户在搜索不相关的流行查询时不会看到可疑的色情网站，为用户提供了良好的体验。但期望世界上最有影响力的公司——对在线内容的创建、分发和消费有相当大的影响力——在新闻结果中更好地过滤掉抄袭的、无用的内容仍然是合理的。

n

“这很令人沮丧，因为我们看到我们试图做正确的事情，然后我们看到这么多低质量的 AI 内容超过我们的例子，”Ray 说。“所以我希望这是暂时的，但它导致我们行业中很多紧张和敌意，这是我个人在 15 年来从未见过的。”除非带有 AI 内容的垃圾网站从搜索结果中被剔除，否则出版商现在将减少生产高质量内容的动机，反过来，用户也将减少信任出现在 Google 新闻顶部的网站的理由。

正文完

发表至： AI行业动态

2024-07-04 05:17

0