共计 1261 个字符,预计需要花费 4 分钟才能阅读完成。
在科技与医学的交汇点上,加州大学戴维斯分校的科学家们正致力于为瘫痪患者打造一种革命性的神经假体,使他们能够通过脑信号直接生成语音。这一技术的核心在于将神经活动实时转换为声音,而非传统的文本输出,从而为患者提供更自然、更灵活的交流方式。
英国物理学家斯蒂芬·霍金曾通过安装在眼镜上的传感器与世界交流,这种方式虽然有效,但速度缓慢且缺乏表达力。如今,脑机接口(BCI)技术的发展使得将神经活动直接翻译成语音成为可能。然而,现有的 BCI 系统通常存在显著的延迟,且受限于预定义的词汇库,无法捕捉语音中的音高和韵律等细微差别。
加州大学戴维斯分校的研究团队开发了一种新型神经假体,能够即时将脑信号转换为音素和单词。这一技术的关键在于将脑信号直接映射到语音特征,而非先转换为文本。研究负责人 Maitreyee Wairagkar 表示:“我们的目标是创建一个灵活的语音神经假体,使瘫痪患者能够尽可能流利地说话,控制自己的节奏,并通过调节语调来更具表现力。”
开发这种神经假体并非易事。首先,团队需要解决现有 BCI 系统面临的诸多问题,包括延迟、词汇限制和语音表达的不足。斯坦福大学的研究团队此前已实现脑到文本的翻译,准确率达到 97.5%,但通过文本交流仍然存在局限性。Stavisky 指出:“有时你想使用你的声音。它允许你插话,减少他人打断你的可能性——你可以唱歌,可以使用词典中没有的单词。”
Wairagkar 的团队通过植入 256 个微电极,记录患者大脑中负责控制声道肌肉的区域的神经活动。这些信号随后被发送到一种称为神经解码器的人工智能算法中,解读并提取语音特征。最终,这些特征被输入到声码器中,生成与患者正常说话时相似的声音。整个系统的延迟低至约 10 毫秒,几乎实现了脑信号到声音的即时转换。
在测试中,Wairagkar 的神经假体表现出色。人类听众在匹配合成语音与候选句子的测试中,实现了 100% 的可懂度。然而,在更难的开放式转录测试中,单词错误率为 43.75%,尽管这比患者未辅助语音的可懂度有了显著提高,但仍不足以用于日常交流。
Stavisky 认为,未来的改进方向之一是使用更多电极。他表示:“现在有很多初创公司正在构建拥有超过一千个电极的 BCI。如果你想想我们只用 250 个电极所取得的成就,与使用一千或两千个电极可能实现的成就相比——我认为它会奏效。”
总部位于德克萨斯州奥斯汀的初创公司 Paradromics 正在推进语音神经假体的临床试验,并已寻求 FDA 的批准。Stavisky 透露:“他们有一个 1600 个电极的系统,并且公开表示他们将进行语音研究。我们的合著者 David Brandman 将成为这些试验的首席研究员,我们将在加州大学戴维斯分校进行这些试验。”
这一技术的进一步发展,不仅将为瘫痪患者带来更自然的交流方式,也可能为语音合成和人机交互领域开辟新的可能性。
《自然》,2025 年。DOI:[10.1038/s41586-025-09127-3](https://doi.org/10.1038/s41586-025-09127-3)