人工智能模型崩溃的迹象:从搜索质量到数据准确性的挑战

3次阅读
没有评论

共计 1630 个字符,预计需要花费 5 分钟才能阅读完成。

随着人工智能技术的广泛应用,其模型崩溃的迹象逐渐显现。尽管人工智能在搜索等领域表现出色,但其输出的质量正面临严峻挑战。

在搜索方面,人工智能,尤其是 Perplexity,确实比 Google 更出色。然而,普通搜索已经变得糟糕,而人工智能搜索也在过去几个月里变得越来越差。特别是在搜索硬数据如市场份额统计或其他商业数字时,结果往往来自不可靠的来源。这些数据与实际情况有些相似,但从未完全准确。

人工智能模型崩溃的迹象:从搜索质量到数据准确性的挑战

这不仅仅是 Perplexity 的问题。在所有主要的人工智能搜索机器人上进行了完全相同的搜索,它们都给出了“可疑”的结果。这种现象被称为“垃圾进 / 垃圾出”(GIGO),在人工智能圈子里,这被称为人工智能模型崩溃。在人工智能模型崩溃中,人工智能系统在其自身输出的基础上进行训练,逐渐失去准确性、多样性和可靠性。这是因为错误在连续模型世代中累积,导致数据分布扭曲和性能上的“不可逆缺陷”。

模型崩溃是三个不同因素的结果。第一个是错误累积,其中每个模型世代继承并放大先前版本的缺陷,导致输出偏离原始数据模式。接下来是尾部数据的丢失:在这种情况下,罕见事件从训练数据中被抹去,最终整个概念变得模糊。最后,反馈循环强化了狭窄的模式,产生重复的文本或有偏见的推荐。

并不是唯一一个看到人工智能结果开始走下坡路的人。在最近彭博研究对检索增强生成(RAG)的研究中,这家金融媒体巨头发现,包括 GPT-4o、Claude-3.5-Sonnet 和 Llama-3-8 B 在内的 11 个领先的大型语言模型,使用超过 5000 个有害提示会产生不良结果。

RAG,对于那些不了解的人来说,使大型语言模型(LLMs)能够从外部知识库(如数据库、文档和实时内部数据存储)中提取信息,而不仅仅依赖于 LLMs 的预训练知识。可能会认为 RAG 会产生更好的结果,不是吗?确实如此。例如,它倾向于减少人工智能的幻觉。但与此同时,它增加了启用 RAG 的 LLMs 泄露私人客户数据、创建误导性市场分析和产生有偏见的投资建议的可能性。

正如彭博 CTO 办公室的人工智能战略与研究负责人 Amanda Stent 所解释的那样:“这一反直觉的发现具有深远的影响,考虑到 RAG 在生成人工智能应用中的普遍使用,如客户支持代理和问答系统。普通互联网用户每天都会与基于 RAG 的系统互动。人工智能从业者需要深思熟虑如何负责任地使用 RAG。”

这听起来不错,但“负责任的人工智能用户”是一个矛盾的说法。尽管有关人工智能将鼓励我们花更多时间做更好工作的废话,但事实是人工智能用户会写包括虚假结果的假论文。这范围从孩子的高中报告到虚假的科学研究文件到臭名昭著的《芝加哥太阳时报》夏季最佳专题,其中包括不存在的即将出版的小说。

所有这些都加速了人工智能变得毫无价值的那一天。例如,当询问 ChatGPT,“Min Jin Lee 即将出版的小说《夜影市场》的情节是什么?”其中一个虚假小说,ChatGPT 自信地回答:“关于 Min Jin Lee 即将出版的小说《夜影市场》的情节,目前没有公开信息。虽然小说已经宣布,但其故事情节的细节尚未披露。”

再次强调,GIGO。

一些研究人员认为,通过将合成数据与新鲜的人类生成内容混合,可以减轻崩溃。多么可爱的想法。这些人类生成的内容将从何而来?

在需要真正工作和学习才能产生的好内容和人工智能垃圾之间做出选择,知道大多数人会做什么。这不仅仅是某个孩子想在约翰·斯坦贝克的《珍珠》的读书报告上得 B;而是企业声称渴望提高运营效率,但实际上是想解雇员工以增加利润。

质量?请现实一点。

我们将在人工智能上投入越来越多,直到模型崩溃严重打击,人工智能的答案变得如此糟糕,即使是脑死亡的 CEO 也无法忽视它。

这需要多长时间?认为这已经在发生,但到目前为止,似乎只有一个人这么认为。尽管如此,如果相信 OpenAI 的领袖和啦啦队长 Sam Altman,他在 2024 年 2 月发推文说“OpenAI 现在每天生成约 1000 亿字”,并假设其中许多字最终出现在网上,这不会花太长时间。®

正文完
 0
admin-gah
版权声明:本文于2025-05-28转载自Theregister.com,共计1630字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码