AI搜索引擎的信息源:为何不流行却不可或缺?

2次阅读
没有评论

共计 894 个字符,预计需要花费 3 分钟才能阅读完成。

当谷歌的 AI 概览功能在去年遭遇滑铁卢时,人们开始意识到 AI 驱动的搜索引擎与传统链接列表之间的显著差异。最新研究进一步量化了这种差异,揭示了 AI 引擎更倾向于引用那些不会出现在谷歌前 100 名链接中的“不太流行”网站。

德国波鸿鲁尔大学和马克斯·普朗克软件系统研究所的研究人员在预印论文《生成式 AI 时代的网络搜索特征》中,对谷歌的传统搜索结果与其 AI 概览功能及 Gemini-2.5-Flash 进行了对比。他们还研究了 GPT-4o 的网络搜索模式,以及仅在需要外部信息时才进行搜索的“GPT-4o with Search Tool”。

AI 搜索引擎的信息源:为何不流行却不可或缺?

研究团队从多个来源提取测试查询,包括 WildChat 数据集中的特定问题、AllSides 上的政治话题,以及亚马逊最常搜索的 100 个产品。结果显示,生成式搜索工具引用的来源往往比传统搜索前 10 名结果中的网站更不流行,且更可能落在域名追踪器 Tranco 的前 1,000 名和前 1,000,000 名之外。特别是 Gemini 搜索,其引用的来源中位数在所有结果中均未进入 Tranco 的前 1,000 名。

尽管这些差异并不意味着 AI 生成的结果“更差”,但它们确实揭示了 AI 引擎的独特之处。基于 GPT 的搜索更倾向于引用公司实体和百科全书等来源,而几乎不引用社交媒体网站。AI 驱动的搜索结果在细节、多样性和新颖性方面与传统前 10 名链接相似,但生成式引擎倾向于压缩信息,有时会省略传统搜索保留的次要或模糊方面。

AI 搜索引擎的另一个优势在于能够将预训练的“内部知识”与从引用网站中提取的数据结合起来。然而,这种对预训练数据的依赖在搜索及时信息时可能成为限制。例如,对于从谷歌 9 月 15 日趋势查询列表中提取的搜索词,“GPT-4o with Search Tool”通常会以“请提供更多信息”之类的消息回应,而不是实际搜索网络以获取最新信息。

虽然研究人员没有确定基于 AI 的搜索引擎总体上是否比传统搜索引擎链接“更好”或“更差”,但他们敦促未来研究“新的评估方法,综合考虑生成式搜索系统中的来源多样性、概念覆盖范围和综合行为。”这一研究不仅揭示了 AI 搜索引擎的独特之处,也为未来的搜索引擎发展提供了新的思考方向。

正文完
 0
admin-gah
版权声明:本文于2025-10-29转载自Ars Technica,共计894字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码