共计 873 个字符,预计需要花费 3 分钟才能阅读完成。
在当今的人工智能领域,数据被视为核心资源。然而,随着数据成本的不断攀升,这一资源正变得越来越难以触及,尤其是对于那些非顶级科技公司而言。
去年,OpenAI 的研究员詹姆斯·贝克(James Betker)在其个人博客上发表了一篇文章,探讨了生成式人工智能模型及其训练数据的特性。贝克指出,训练数据是决定人工智能系统性能的关键因素,而非模型的设计或架构。
贝克的主张是否正确?训练数据是否真的是影响模型性能的最重要因素?这确实是一个值得探讨的问题。
统计机器
生成式人工智能系统本质上是概率模型,依赖于大量的统计数据来推测数据的合理性。例如,在句子“I go to the market”中,“go”这个词应该放在“to the market”之前。因此,模型拥有的示例越多,其性能通常越好。艾伦人工智能研究所(AI2)的高级应用研究科学家凯尔·洛(Kyle Lo)也支持这一观点,他认为性能的提升主要来自数据。
洛还提到了 Meta 的 Llama 3 模型,尽管其架构与 AI2 的 OLMo 模型相似,但由于训练数据量更大,Llama 3 在多项人工智能基准测试中表现更优。这表明,数据量的增加确实可以提升模型性能,但洛也强调了数据筛选和质量的重要性。
不良行为
随着对大型高质量训练数据集的需求增加,人工智能开发正逐渐集中于那些拥有充足预算的少数大公司。这可能导致数据获取的不公平,限制了小型企业和独立研究者的发展。
不断增长的成本
获取高质量训练数据的成本正在迅速增长,这对于大多数学术研究团体、非营利组织和初创公司来说是一个巨大的挑战。例如,OpenAI 已经投入数亿美元用于获取许可内容,而这一数字远超大多数组织的预算。
独立努力
尽管面临挑战,仍有一些非营利性组织和研究团体致力于创建开放的训练数据集,如 EleutherAI 和 Hugging Face。这些努力旨在为所有人提供训练生成式人工智能模型的资源,尽管目前还难以与大科技公司的资源相抗衡。
总之,数据在人工智能的发展中扮演着至关重要的角色,但其获取和成本问题正成为行业发展的瓶颈。解决这些问题,不仅需要技术创新,还需要政策和市场的共同努力。