共计 3246 个字符,预计需要花费 9 分钟才能阅读完成。
Andriy Onufriyenko/Getty Images
随着越来越多的组织寻求采用 人工智能 (AI),围绕基础模型训练方式的透明度仍然不足,这种差距可能会导致用户与 AI 之间的紧张关系加剧。
IDC 预计,亚太地区(不包括中国)对人工智能的支出 将从 2022 年的 255 亿美元增长到 2027 年的 907 亿美元,增幅为 28.9%。该研究公司估计,其中 81% 的支出将用于预测性和解释性人工智能应用。
** 另请参阅:负责任地使用人工智能的五种方法**
因此,虽然 围绕生成式人工智能的炒作 很多,但 IDC 亚太区副总裁 Chris Marshall 表示,这一人工智能细分领域只占该地区人工智能支出的 19%。本周在新加坡举行的英特尔人工智能峰会上,Marshall 表示,这项研究强调了一个市场需要更广泛的人工智能方法,该方法超越了生成式人工智能。
IDC 指出,亚太地区 84% 的组织认为,利用生成式人工智能模型将为他们的业务带来显著的竞争优势。该研究公司补充说,这些企业希望在运营效率和员工生产力方面取得进展,改善客户满意度,并开发新的商业模式。
** 另请参阅:最佳人工智能聊天机器人:ChatGPT 和其他值得注意的替代方案**
IDC 还预计,该地区大多数组织将在 2024 年增加边缘 IT 支出,预计到 2025 年,75% 的企业数据将在边缘生成和处理,而不会涉及传统数据中心和云。
英特尔亚太区日本首席技术官 Alexis Crowell 在一份声明中表示:“为了真正将人工智能普及到各个地方,所使用的技术必须为个人、行业和整个社会提供可访问性、灵活性和透明度。随着我们见证人工智能投资的持续增长,未来几年对于市场以负责任和深思熟虑的方式建立其人工智能成熟度基础至关重要。”
新闻通讯
ZDNET 科技今日
ZDNET 的科技今日通讯是一个每日简报,每周五天提供最新、最热门的故事。
订阅
行业参与者和政府经常吹嘘在人工智能方面建立信任和透明度的重要性,并让消费者了解人工智能系统是“公正、可解释和安全的”。然而,当 ZDNET 询问目前围绕大型语言模型 (LLM) 和基础模型的训练方式是否具有足够的透明度时,Crowell 表示:“没有,还不够。”
她指出了 来自斯坦福大学、麻省理工学院和普林斯顿大学的研究人员 进行的一项研究,该研究评估了 10 个主要基础模型的透明度,其中得分最高的平台只获得了 54% 的分数。她在峰会上的媒体简报会上说:“这是一个不及格的成绩。”
** 另请参阅:如果我们现在不采取行动,今天的人工智能热潮将放大社会问题**
根据该研究,平均得分仅为 37%,该研究根据 100 个指标对这些模型进行了评估,包括构建模型所涉及的过程,例如有关训练数据的相关信息、模型的架构和风险,以及管理其使用的政策。得分最高的为 Meta 的 Llama 2,得分为 54%,其次是 BigScience 的 Bloomz,得分为 53%,以及 OpenAI 的 GPT-4,得分为 48%。
研究人员指出:“没有一家主要的基金会模型开发商接近提供足够的透明度,这揭示了人工智能行业中存在根本性的透明度不足。”
透明度是必要的
Crowell 表达了希望,随着 基准测试 的可用性和组织对人工智能发展的监控,这种情况可能会发生变化。她补充说,诉讼(例如《纽约时报》对 OpenAI 和微软提起的诉讼)可以帮助带来进一步的法律清晰度。
她指出,应该有类似于数据管理立法的 治理框架 ,包括欧洲的 GDPR(通用数据保护条例),以便用户了解他们的数据是如何被使用的。她说,企业需要根据数据的收集方式和流向做出购买决策,并补充说,来自 要求更多透明度的用户的日益增长的紧张局势 可能会推动行业行动。
据最近的一项 Salesforce 调查 显示,目前,54% 的人工智能用户不信任 用于训练人工智能系统的 数据,该调查对来自美国、英国、爱尔兰、澳大利亚、法国、德国、印度、新加坡和瑞士的近 6000 名知识工作者进行了调查。
** 另请参阅:人工智能和高级应用程序正在给当前的技术基础设施带来压力**
Crowell 引用了 波士顿咨询集团领导 的一份研究报告,表示与普遍看法相反,准确性不必以透明度为代价。该报告研究了黑盒和白盒人工智能模型在近 100 个基准分类数据集上的表现,包括定价、医疗诊断、破产预测和购买行为。对于近 70% 的数据集,黑盒和白盒模型产生了同样准确的结果。
该报告说:“换句话说,在大多数情况下,准确性和可解释性之间没有权衡取舍。可以不牺牲准确性地使用更可解释的模型。”
Marshall 说,获得完全的透明度仍然具有挑战性。他指出,关于人工智能可解释性的讨论曾经十分热闹,但现在已经平息下来,因为这是一个难以解决的问题。
** 另请参阅:为生成式人工智能对 IT 行业的影响做好准备的 5 种方法**
据人工智能新加坡 (AISG) 的人工智能创新总监 Laurence Liew 表示,主要基础模型背后的组织可能不愿意公开他们的训练数据,因为他们担心会被起诉。Liew 补充说,对训练数据的选择也会影响人工智能的准确率。Liew 解释说,AISG 选择不使用某些数据集,因为使用所有公开可用的数据集可能会给他们的LLM 计划 SEA-LION(东南亚语言联网)带来潜在问题。
他说,因此,这种开源架构的准确性不如当今市场上的一些主要 LLM。“这是一个微妙的平衡,”他指出,并补充说,要实现高准确率,就意味着采用开放的方式使用所有可用的数据。他表示,选择“道德”的道路,不接触某些数据集,将意味着准确率低于商业参与者所取得的准确率。
Liew 说,虽然新加坡在 SEA-LION 方面选择了较高的道德标准,但它仍然经常面临用户的挑战,用户要求利用更多数据集来提高 LLM 的准确性。
一群 新加坡作家和出版商在上个月表达了担忧,担心他们的作品可能会被用于训练 SEA-LION。他们的不满之处包括明显缺乏对使用他们的作品“支付公平补偿”的承诺。他们还指出,需要明确和明确地承认,新加坡的知识产权和版权法以及现有的合同安排将在创建和训练 LLM 时得到遵守。
关于开源的透明度
Red Hat 首席执行官 Matt Hicks 表示,这种认可也应该扩展到可能开发人工智能应用程序的开源框架中。
Hicks 在本周 Red Hat 峰会 2024 之后的一次虚拟媒体简报会上表示,模型是在人们提供的拥有版权的大量数据的基础上进行训练的,负责任地使用这些人工智能系统意味着遵守他们使用的许可证。
** 另请参阅:想从事人工智能工作吗?如何在 5 步内调整你的职业生涯**
这对于可能具有不同许可证变体的开源模型来说尤为重要,包括像 GPL 这样的左派许可证和像 Apache 这样的宽松许可证。
他强调了透明度和承担责任以了解数据模型以及处理模型生成的输出的重要性。为了确保人工智能架构的安全性和安全性,必须确保模型免受恶意攻击。
Red Hat 正试图通过一系列工具来帮助其客户完成这些工作,包括他们在峰会上发布的 Red Hat Enterprise Linux AI (RHEL AI)。该产品包含四个组件,包括来自 InstructLab 社区的 Open Granite 语言和代码模型,这些模型由 Red Hat 提供支持。
该方法解决了组织在其人工智能部署中经常遇到的挑战,包括管理应用程序和模型生命周期,开源供应商表示。
“\[RHEL AI\] 为将开源许可的 GenAI 模型引入企业创建了一个基础模型平台,”Red Hat 说。“借助 InstructLab 对齐工具、Granite 模型和 RHEL AI,Red Hat 旨在将真正开源项目的优势(可自由访问和重用、透明且对贡献开放)应用于 GenAI,以努力消除这些障碍。”
这篇文章清晰地阐述了人工智能透明度的重要性,尤其是在训练数据和模型架构方面。随着人工智能技术的快速发展,用户越来越关注其数据的安全性以及人工智能决策的公平性。文章通过引用研究数据和专家观点,强调了透明度不足可能导致用户与 AI 之间紧张关系加剧,并呼吁行业采取行动,建立更透明的人工智能生态系统。文章还介绍了一些公司和组织在提高人工智能透明度方面的努力,为读者提供了积极的信号。