共计 1652 个字符,预计需要花费 5 分钟才能阅读完成。
一位研究人员指出发现 Whisper 生成的每 10 个音频转录中就有 8 个存在幻觉。
由 Radhika Rajkumar 撰写,发布于 2024 年 10 月 30 日凌晨 1:00 PT。
OpenAI 的 Whisper 是一款于 2022 年推出的 AI 语音识别和转录工具,被发现存在幻觉或编造内容的问题,这使得专家担心在错误情境下可能会造成严重损害。
上周,美联社报道,密歇根大学的一位研究人员在研究公共会议时指出,Whisper 生成的每 10 个音频转录中就有 8 个存在幻觉。
这一数据点只是众多问题之一:另一位工程师在审查了 100 小时的 Whisper 转录后告诉美联社,他发现大约 50% 的转录存在幻觉,而另一位开发者在使用 Whisper 生成的 26,000 份转录中发现几乎每一份都存在幻觉。
尽管用户可以预期 AI 转录器偶尔会出现拼写错误,但研究人员指出,他们从未见过其他 AI 驱动的转录工具像 Whisper 那样频繁出现幻觉。
OpenAI 表示,Whisper 作为一个开源神经网络,在英语语音识别方面接近人类水平的鲁棒性和准确性。它广泛应用于多个行业,用于常见的语音识别任务,包括转录和翻译采访以及创建视频字幕。
这种广泛的应用可能会迅速传播虚假文本、错误归属和虚构的引述以及其他错误信息,这些信息的重要性因原始材料的性质而异。据美联社报道,Whisper 被整合到某些版本的 ChatGPT 中,嵌入呼叫中心、语音助手和 Oracle 及 Microsoft 的云平台中,上个月从 HuggingFace 下载量超过 420 万次。
更令人担忧的是,专家告诉美联社,医疗专业人员越来越多地使用基于 Whisper 的工具来转录患者与医生的咨询。美联社采访了 12 位工程师、研究人员和开发者,他们证实 Whisper 在转录文本中编造了短语和完整句子,其中一些可能包括种族评论、暴力言论甚至虚构的医疗治疗。
没有人想要误诊,高等研究院教授 Alondra Nelson 说。
OpenAI 可能并未倡导医疗用途——该公司建议避免在高风险领域使用,如决策情境,其中准确性缺陷可能导致显著的成果缺陷——但将该工具推向市场并宣传其准确性意味着它很可能会被多个行业采用,以加快工作并尽可能提高效率,无论可能的风险如何。
这个问题似乎也不依赖于较长或录音质量差的音频。据美联社报道,计算机科学家最近在简短、清晰的音频样本中发现了某些幻觉。研究人员告诉美联社,这一趋势将导致数百万录音中出现数万份错误转录。
问题的全部范围难以辨别,但研究人员和工程师表示,他们在工作中经常遇到 Whisper 的幻觉,美联社报道。此外,正如加劳德特大学技术访问项目主任、聋人 Christian Vogler 指出的那样,聋人或听力障碍者无法在所有这些其他文本中捕捉到隐藏的幻觉。
研究人员的发现表明,AI 行业存在一个更广泛的问题:工具为了利润而被过快地推向市场,尤其是在美国仍然缺乏适当的 AI 监管的情况下。这也与 OpenAI 的盈利与非盈利之争以及领导层最近对 AI 风险的预测不考虑相关。
OpenAI 的一位发言人表示,该公司不断研究如何减少幻觉,并感谢研究人员的发现,并补充说 OpenAI 在模型更新中纳入了反馈,美联社写道。
在等待 OpenAI 解决问题的同时,我们推荐尝试 Otter.ai,这是一款记者信赖的 AI 转录工具,刚刚增加了六种新语言。上个月,一位长期使用 Otter.ai 的用户指出,平台的新 AI 摘要功能幻觉了一个统计数据,但该错误并未出现在转录本身中。最好不要依赖该功能,尤其是在 AI 被要求总结更大背景时,风险可能会增加。
Otter.ai 自己的转录指南并未提及幻觉,只是指出准确性可能因背景噪音、说话者口音和对话复杂性等因素而异,并建议用户审查和编辑转录以确保完全准确,特别是在关键任务或重要对话中。
如果你有 iPhone,新的 iOS 18.1 与 Apple Intelligence 现在允许 AI 通话录音和转录,但 ZDNET 主编 Jason Hiner 表示它仍在开发中。
与此同时,OpenAI 刚刚宣布计划为其 2.5 亿 ChatGPT Plus 用户提供更多工具。