aiOla 的 Drax 模型:如何在嘈杂环境中实现更可靠的 AI 语音识别

59次阅读
没有评论

共计 1093 个字符,预计需要花费 3 分钟才能阅读完成。

人工智能初创公司 aiOla 近日发布了一款名为 Drax 的新型语音 AI 模型,声称其能够在最嘈杂的环境中实现高准确性和低延迟的语音识别,甚至超越 OpenAI 的 Whisper 和阿里巴巴的 Qwen2 等业界领先模型。这一突破性技术有望彻底改变 AI 驱动的语音识别领域,使其在日常生活和商业场景中更加实用。,

现有模型的局限性

当前,语音识别技术在实际应用中面临两大挑战:速度与准确性之间的权衡,以及在嘈杂环境中的表现不佳。以 OpenAI 的 Whisper 为例,虽然其逐词处理的方式确保了较高的准确性,但在处理长时间音频(如会议或客户通话)时,往往因速度过慢而无法跟上节奏。另一方面,阿里巴巴的 Qwen2 虽然通过基于扩散的模型提高了处理速度,但其训练数据的理想化特性使其在真实场景中的准确性大打折扣。

aiOla 的 Drax 模型:如何在嘈杂环境中实现更可靠的 AI 语音识别

Drax 的创新之处

Drax 的核心创新在于其基于“并行流”的训练方法。与传统的逐词处理不同,Drax 能够同时输出整个词元序列,从而显著减少延迟并避免错误累积。这一技术的灵感来源于扩散模型,即从嘈杂的表示中重建人类语音。Drax 的训练过程分为三步:从无意义的噪声开始,过渡到“类似语音”的中间状态,最终生成清晰且准确的转录文本。这一方法使 Drax 能够更好地应对真实场景中的背景噪声、口音和术语,从而在速度和准确性之间找到最佳平衡。,

技术优势与性能表现

根据 aiOla 发布的研究数据,Drax 在多个基准测试中均表现出色。在英语测试中,其平均词错误率(WER)为 7.4%,优于 Whisper-large-v3 的 7.6%。同时,Drax 的运行速度比 Whisper 快 32 倍,并且在法语、德语、普通话和西班牙语等语言测试中保持了相当或更好的准确性。这种跨语言的高性能表现使 Drax 成为多语言语音识别领域的潜在领导者。,

开源与社区协作

aiOla 已将 Drax 以宽松的开源许可证发布在 GitHub 和 Hugging Face 平台上,并提供三种模型尺寸供用户选择:轻量级的 Flash 版本、中等尺寸模型和完整的基础模型。这一举措旨在激发社区的进一步探索和协作,推动语音识别技术的快速发展。,

未来愿景

aiOla 的愿景是通过 Drax 实现语音作为人类与机器交互的默认方式。该公司设想了一个 AI 代理能够理解自然语言命令并将其转化为结构化数据和现实世界任务执行的世界,即使在嘈杂且术语繁多的环境中也能高效运作。

“我们正在缩小语音技术与实际需求之间的差距,”aiOla 总裁 Amir Haramty 表示,“语音识别技术的进步不仅是企业的未来,也是人机交互的未来。”

通过 Drax,aiOla 正朝着这一目标迈出重要一步,为语音识别技术的大规模实用化铺平道路。

正文完
 0
admin-gah
版权声明:本文于2025-11-07转载自SiliconANGLE,共计1093字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码