共计 1121 个字符,预计需要花费 3 分钟才能阅读完成。
在全球化的浪潮下,语言的多样性正面临前所未有的威胁。根据联合国教科文组织的统计,全球约 3000 种语言正濒临灭绝,主要原因包括殖民化、全球化、强制文化同化以及环境破坏等因素的冲击。加拿大原住民语言委员会的研究显示,该国所有原住民语言都处于不同程度的濒危状态,没有一种语言是安全的。
随着人工智能(AI)技术的迅速发展,人们开始探讨 AI 能否成为拯救濒危语言的新工具。然而,现实情况并不乐观。世界经济论坛的数据显示,大多数 AI 聊天机器人仅使用全球 7000 种语言中的 100 种进行训练,英语成为大多数大型语言模型的主要驱动力。这种情况导致世界上大部分语言被忽视,引发了一个重要问题:在未来几年,AI 将促进语言复兴,还是加剧语言压迫?
在这一背景下,北夏延族计算机工程师 Michael Running Wolf 提出了一个创新的解决方案。在 2023 年的 TEDx 演讲中,他展示了一个名为“雪松盒”的设备,这是一个结合了古老与现代技术的离线边缘 AI 系统,内置了基于语音的最小语言课程。Running Wolf 认为,类似于 Amazon Alexa 或 Google Home 的对话式 AI 技术可以帮助语言学习者提高流利度。作为魁北克人工智能研究所“第一语言 AI 现实”计划的技术总监,他致力于通过机器学习训练的语音控制工具,帮助使用者准确发音并练习自己的语言。这一项目的核心是确保原住民保留对其数据的控制权,即所谓的“原住民数据主权”。
在菲律宾,AI 学者兼政治家 Anna Mae Yu Lamentillo 也在为支持本国的原住民语言而努力。她创建了 NightOwlGPT,一款新的 AI 翻译应用,旨在确保菲律宾的九种濒危语言在数字世界中占有一席之地。Lamentillo 强调,AI 的快速发展可能类似于历史上的殖民化模式,如果不改变 AI 开发的领导者,可能会创造一种新的殖民化形式,只有一小部分世界拥有繁荣的工具。
与此同时,喀麦隆雅温得第一大学的语言学教授 Emmanuel Ngué Um 代表非洲语言学家研究团队,使用 Mozilla 的 Common Voice 平台创建包含 31 种非洲语言的数千个单词和录音的开源数据集。这一平台旨在通过众包大规模多语言语音语料库,使语音识别和基于语音的 AI 更具包容性。然而,Ngué Um 指出,为具有多种方言的语言构建数据集并不简单,许多非洲语言没有统一或公认的书写系统,这一问题可能会减缓教学工具的创建。
尽管 AI 在语言复兴方面展现出潜力,但其成功与否取决于多个因素:资金支持、机器学习的准确训练数据以及社区接受 AI 的意愿。最终,数据主权和公平访问必须成为 AI 工具的核心。只有在 AI 实施的各个阶段都考虑到语言的独特情况,才能真正应对全球语言的多样性挑战,避免新的殖民化形式。