全球AI权力失衡:非洲研究者如何挑战西方主导

57次阅读
没有评论

共计 4515 个字符,预计需要花费 12 分钟才能阅读完成。

自 2022 年 OpenAI 推出 ChatGPT 以来,人工智能(AI)已深深融入日常生活。然而,尽管这些流行的 AI 产品被宣传为全球化的技术民主化工具,但从其应用场景到支持的语言,它们主要服务于美国和欧洲的利益。

一些位于美国科技核心之外的非洲研究人员正试图挑战这一现状,并以此改变 AI 行业中的权力动态。

全球 AI 权力失衡:非洲研究者如何挑战西方主导

分布式人工智能研究所(DAIR)是一个国际研究和技术人员组织,专注于“独立且扎根于社区的 AI 研究,摆脱大型科技公司的普遍影响”。DAIR 的成员正在开发以非洲为中心的 AI 解决方案,以满足特定的社会需求。这些方案展示了 AI 的用例,优先考虑历史上被剥夺权利的人群,而不是跨国公司或仅服务于西方用户。

Nyalleng Moorosi 是 DAIR 驻莱索托的高级研究员,也是 Deep Learning Indaba 的创始成员,该组织旨在加强非洲的 AI 和机器学习。她在南非公立学校的机器学习和教学背景塑造了她对科技领域公平的理念。

作为 Forte 大学的教育工作者——南非少数几所在种族隔离期间接受黑人学生的大学之一——Moorosi 目睹了许多学生在校期间与贫困作斗争。她表示:“想象一下,在如此不安全的条件下完成本科和研究生的学业,这令人难以置信。”

在从事教学工作后,Moorosi 被谷歌招募,成为加纳谷歌非洲 AI 研究实验室的首批员工之一。作为软件工程师,她开发了方法论和技术,以确保 AI 系统的负责任构建。

“我加入谷歌是因为他们在非洲建立了办公室,而我想留在非洲,”Moorosi 说,“我不只是想加入谷歌,我想加入谷歌非洲。”

然而,当 DAIR 创始人、谷歌伦理 AI 团队前联合负责人 Timnit Gebru 联系她,询问谷歌非洲缺乏非洲代表的问题时,Moorosi 开始质疑谷歌是否适合她在机器学习领域追求的公平工作。

大型科技公司似乎对那些试图揭露科技引发的社会危害并挑战主流 AI 实践的人进行了审查。因此,Moorosi 和 Gebru 希望通过在当地保留和资助专家,将权力集中在科技行业历史上排除的社区中。

2018 年,Moorosi、Gebru 和 DAIR 研究员 Raesetje Sefala 开始收集卫星图像,以追踪南非乡镇建成环境的变化——这些工人阶级社区历史上主要由黑人居民居住。DAIR 对南非历史上黑人城市社区在种族隔离结束后的变化感兴趣,开始编译数据集,以确定居民的生活是否随着时间的推移有所改善。

南非乡镇是位于城市郊区的欠发达社区。乡镇居民的生活质量往往比富裕郊区的居民差。然而,由于政府使用人口普查数据将公共支出分配给更富裕的地区,乡镇数据变得不可见。这种做法导致了空间种族隔离,使得居住在乡镇的黑人无法获得关键的公共资源,如充足的医疗服务、教育和绿地。

这一数据问题影响了 DAIR 的研究,因为研究人员依赖现有的数据集——主要来自南非的 AI 模型,这些模型难以捕捉该国城市景观的复杂性,也无法区分乡镇和郊区。因此,研究人员使用数百万张南非省份的卫星图像和他们收集的地理空间数据来训练机器学习模型,并构建了一个 AI 系统,将特定区域标记为富裕、非富裕和非住宅建筑群,如空地或工业区。

然而,当 DAIR 试图发表这些研究结果时,他们收到了来自以白人为主的西方学术机构的评论,称这项研究是地理学而非机器学习研究。Moorosi 表示,他们基本上被告知这项研究不属于 AI 领域。

正如 Moorosi 所解释的那样,尽管使用了计算机视觉方法,学术机构并未将他们的空间种族隔离项目视为机器学习领域的一部分:“我们使用相同的指标、算法和沟通方法,包括图表等。这很疯狂,因为当时许多玩具数据集被使用,而我们有关于实际事物的数据集,但它太小众了。”

但她补充说,这对非洲人来说并不小众:“这种追踪历史种族隔离如何影响我们生活的方式在许多前英国殖民地都存在。它在内罗毕,在拉各斯,”她解释道,“在殖民地,白人住在这里,黑人住在那里是标准的。资源分配在不同地区之间是不同的。”

“所以,它感觉小众是因为这些人不是非洲人,他们没有体验到非洲的殖民化如何塑造了我们生活的世界,”她说。Moorosi 指出,DAIR 的 AI 研究内容——而非质量——似乎削弱了其在西方主导行业中的可见性。

Lesan AI 联合创始人兼首席技术官、DAIR 研究员 Asmelash Teka Hadgu 进一步强调了这一点。他描述了 Lesan 背后的意图,这是一个主要用于非洲土著语言的语言翻译和转录工具。

Hadgu 表示,他对 AI 的方法与美国科技巨头不同,因为 Lesan AI 专注于阿姆哈拉语、提格里尼亚语等低资源语言。由于 Hadgu 会说阿姆哈拉语和提格里尼亚语,他通过关注语言中最具描述性的部分,使用埃塞俄比亚当地社区中“重新利用”的报纸和广播内容,构建了一个强大的数据集。

在非洲背景下,OpenAI 和 Anthropic 等科技巨头的流行语言模型并未充分代表数亿人。例如,根据 Wei Rui Chen 的论文《在巴别塔中摸索:对 ChatGPT 语言识别能力的调查》,OpenAI 的 ChatGPT 在 670 种语言的数据集上表现显示,非洲语言的支持最少。

“OpenAI 的 ChatGPT 完全崩溃了,不是稍微出错,而是在阿姆哈拉语和提格里尼亚语等语言中生成了胡言乱语,”Hadgu 说,“然而,他们仍然坚持那种以英语为中心的旧思维方式,并假设其他语言会跟上。”

通过为低资源语言构建高质量的数据集,Lesan 旨在“为数以千计的人提供数百万次准确的翻译,并向这些社区开放网络内容”,因为目前这些语言的在线内容有限,Hadgu 解释道。

“它们不是附加功能,”他说,“我们不会将 95% 的资源用于少数几种语言,然后再处理他们所谓的‘长尾语言’。”在这里,长尾语言指的是那些知名度较低、小众或较少本地化的语言,无论有多少人使用这些语言。

当西方 AI 公司试图在其 AI 系统中代表低资源语言时,他们的流程无法应对充分翻译的挑战。这一问题主要是因为低资源语言不像英语等西方语言那样可以以数字方式用于数据抓取,尤其是考虑到互联网仍然以英语为主。

此外,用于训练 AI 模型的数据往往严重偏向西方世界。在数据来源倡议(Data Provenance Initiative)进行的一项研究中,50 多名研究人员调查了构建 AI 模型的数据来源。研究人员分析了跨越 600 多种语言、67 个国家和 30 年的 4000 多个公共数据集。模型中约 90% 的数据来自欧洲和北美,只有 4% 来自非洲。

Hadgu 表示,Facebook 的“无语言被落下”项目“研究了数百种语言,但其中包括的非洲语言是基于我所说的‘便利性’。他们在网络上抓取这些语言的任何资源,然后使用自动化方法过滤、对齐并创建系统。”

他表示,公司基本上没有为非洲语言提供任何资源:“你可能会感到惊讶(或不会),人们宁愿为下一个英语大语言模型(LLM)的初创公司投入数百万美元。而像阿姆哈拉语和提格里尼亚语这样的低资源语言,尽管有数百万人使用,却很少被考虑用于大规模的 AI 资助。”

彭博社在 11 月报道称,法国电信公司 Orange SA 已与 OpenAI 和 Meta Platforms Inc. 合作,开始训练针对非洲语言(如沃洛夫语、普拉尔语和班巴拉语)的 AI 程序,以“解决非洲数千种方言模型短缺的问题”。

然而,许多西非和撒哈拉以南非洲语言依赖于独特的声调系统来表达单词的含义,以及追溯到前殖民时代的口述传统。许多非洲口头语言正在逐渐消失,因为母语人口正在减少,而法语和英语等殖民语言的使用越来越广泛。这一转变使得西方科技公司开发的大语言模型难以完全代表非洲语言,因为它们不理解这些语言的文化特殊性。

对 Hadgu 来说,长者和社区成员对他的机器学习系统至关重要,确保他正确代表了社区的本地背景。

与此同时,即使大型科技公司招募较小的 AI 技术人员和初创公司开发数据集以训练特定语言的模型,公司也会利用开源工作从较小的团队中获取创意、数据和资源。新加坡 AI 领导力中心的 Georg Zoeller 最近解释说:“通过开源 AI 的基本工具,超大规模公司使初创公司能够在该领域构建产品,并将其用作替代内部团队的主要产品研发来源。”

加纳自然语言处理(Ghana NLP)联合创始人 Paul Azunre 博士向我讲述了大型公司如何轻易地从全球南方的初创公司挖走资源,而不为他们的工作提供补偿。

“Facebook 在发布了一个基于我们数据的开源模型后,曾来找我们。然后,他们发布了一个公开提案征集。他们来找我们说,‘为什么不提交一个资助提案?’我们说,‘你们已经在使用我们的工作了,’”Azunre 解释道,“‘我们还需要向你们证明什么?直接付钱给我们。’”

Ghana NLP 的成立是为了应对加纳语言被排除在谷歌翻译和语音识别工具等软件产品之外的问题。为了填补这一空白,这家初创公司专注于特维语、埃维语、约鲁巴语、芳蒂语和加语的语音识别、文本到语音和语音到文本翻译,并正在扩展到包括尼日利亚、布基纳法索、肯尼亚和坦桑尼亚等邻国的语言。

“作为一个试图开发自给自足产品的开发者,我理解为什么某些产品或项目会以某种方式优先考虑,”Azunre 说,“我们会先推出特维语,因为在加纳我们有 3000 万特维语使用者……但我们与科技巨头的区别在于,我们的指导原则是始终将当地人放在首位。”

他继续说道:“没有其他选择。不能先开发产品,然后带到硅谷,让它在那里创造就业机会,同时翻译我们的文化并提取我们的数据。”此外,“就业机会必须来自你提取知识的社区。”

尽管 Azunre 是开源的支持者,但他警告说,大型科技公司可能会利用开源捕获数据集来构建解决方案,而不允许当地社区保留对其数据的控制权,这也被称为社区数据主权。此外,他认为,创建本地数据源并培训加纳人,可以构建一个强大的 AI 生态系统,赋能面临数字不平等的社区,并确保非洲的语言和文化特性在 AI 解决方案中不被遗漏。

正如科技治理研究员 Chinasa T. Okolo 所解释的那样,许多非洲政府正在考虑建立 AI 治理框架,以对抗跨国公司对非洲大陆 AI 格局的影响。七个非洲国家(贝宁、埃及、加纳、毛里求斯、卢旺达、塞内加尔和突尼斯)已起草了国家 AI 战略,但尚未实施正式的 AI 监管战略。

南非政府最近发布了国家 AI 政策框架,以确保公平获取 AI 技术,特别是在服务不足和农村社区。此外,根据 Okolo 的说法,36 个非洲国家已建立了正式的数据保护法规——为更多监管 AI 框架开辟了空间。

最近,西方 AI 公司一直在为中东和北非地区的阿拉伯语国家开发类似的区域特定大语言模型,例如 Mistral 的新 AI 模型,该模型专门针对阿拉伯语,旨在掌握有时在更大、更通用的模型中被忽视的文化细微差别。Meta 还透露,正在将其 Meta AI 扩展到中东和北非地区,为其应用程序中的阿拉伯语用户提供语言支持。

然而,越来越多的 AI 技术人员和研究人员正在放大殖民遗产与全球 AI 发展趋势之间的相似性,以及当今生成式 AI 系统背后的炒作。正如《麻省理工科技评论》的 Karen Hao 所解释的那样:“如果说 AI 行业今天正在重复殖民暴力的确切模式,那会淡化过去创伤的深度,但它现在正在使用其他更隐蔽的手段,以巨大的代价使富人和有权势者受益,而穷人则付出了巨大代价。”

正文完
 0
admin-gah
版权声明:本文于2025-03-27转载自Zdnet,共计4515字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码