共计 1673 个字符,预计需要花费 5 分钟才能阅读完成。

总部位于加利福尼亚的初创公司 Subtle Computing 正在通过其自主研发的语音隔离模型解决在嘈杂环境中捕捉人声的问题,这项技术有望为基于语音的 AI 产品和服务带来显著提升。
目前,语音 AI 的消费者应用正在迅速增长。诸如 Granola、Fireflies、Fathom 和 Read AI 等 AI 会议笔记工具已经吸引了大量用户和投资者的关注。现有公司如 OpenAI、ClickUp 和 Notion 已经集成了语音转录解决方案。Wispr Flow 和 Willow 等应用开发者正在开发语音听写功能。此外,还有像 Plaud 和 Sandbar 这样的硬件公司,它们通过设备作为媒介转录语音,然后利用 AI 生成洞察并实现交互。
这些公司面临的挑战之一是在各种环境中捕捉用户的声音,例如嘈杂的咖啡馆或办公室。
为了解决这一问题,Subtle Computing 开发了一种端到端的语音隔离模型,即使在嘈杂的环境中也能理解用户所说的话。Chen 表示,目前有许多公司致力于语音理解技术。他指出,有时设备制造商会将语音发送到云端以获得清晰的输出,但这种方法效率不高。
该初创公司训练特定模型以适应特定设备的声学特性,并针对用户的声音进行调整,而不是训练一个适用于所有设备的通用模型。
“我们发现,当保留设备的声学特性时,性能比通用解决方案提高了一个数量级。这也意味着我们可以为用户提供个性化的解决方案。”Chen 说道。
该公司由 Tyler Chen、David Harrison、Savannah Cofer 和 Jackie Yang 共同创立,他们在斯坦福大学相识。Chen、Cofer 和 Yang 当时正在攻读博士学位,而 Harrison 则在攻读 MBA。他们在 Steve Blank 的 Lean Launchpad 课程中合作,致力于开发计算机的替代界面,并由此创立了 Subtle Computing。
“随着我们与 AI 的互动越来越多,我们正在迈向一个与设备对话的未来。”Chen 表示,“但显而易见的问题是,我们的设备在日常工作的各种环境中对我们的理解程度如何。无论是在非常嘈杂的咖啡店还是在共享办公室,周围可能有其他人,而你可能会谈论一些私密的事情——目前的语音技术还无法很好地处理这种情况。”他补充道。
该初创公司表示,可以在某些设备上仅运行语音隔离模型,该模型的大小仅为几兆字节,延迟为 100 毫秒。公司还可以运行另一个模型来转录语音并为其他设备提供文本输出。Chen 表示,得益于其隔离模型,公司的转录模型能够更好地理解用户,从而生成更准确的转录文本。
Subtle Computing 表示,高通已选择该公司作为其语音和音乐扩展计划的成员。这意味着该公司的技术将与高通的芯片兼容,并可用于 OEM 生产的设备。
该公司已筹集了 600 万美元的种子资金,由 Entrada Ventures 领投,Amplify Partners、Abstract Ventures 以及包括 Twitter 的 Biz Stone、Pinterest 的 Evan Sharp 和 Perplexity 的 Johnny Ho 在内的天使投资人参与。
Entrada Ventures 的管理合伙人 Karen Roter Davis 曾是 X(Alphabet)早期项目的负责人,她指出,语音 AI 领域竞争激烈,尽管通过这种媒介的互动正在增加,但整体语音体验并不理想。她认为,该公司专注于语音隔离为市场带来了不同的视角。
“虽然你可以争论 AI 是否会增加或减少日常时间的使用,但我们都同意,计算能力和机器学习 /AI 的进步为语音界面的突破提供了机会——如果做得好的话。”Davis 表示,“Subtle Computing 正在通过语音界面满足用户的需求,这些界面在极端噪音和极端安静的环境中都能保持稳定,提供可靠、简单且有趣的语音体验。这是一项改变游戏规则的技术。”她补充道。
该公司表示,已与一家消费硬件品牌和一家汽车品牌合作部署其解决方案,但并未透露具体名称。不过,Subtle Computing 并不想仅仅成为其他公司的模型供应商。
该初创公司还表示,计划在明年推出一款涵盖硬件和软件的消费产品,但未提供详细信息。