人工智能发展的关键:数据成本与质量

88次阅读
没有评论

共计 873 个字符,预计需要花费 3 分钟才能阅读完成。

在当今的人工智能领域,数据被视为核心资源。然而,随着数据成本的不断攀升,这一资源正变得越来越难以触及,尤其是对于那些非顶级科技公司而言。

去年,OpenAI 的研究员詹姆斯·贝克(James Betker)在其个人博客上发表了一篇文章,探讨了生成式人工智能模型及其训练数据的特性。贝克指出,训练数据是决定人工智能系统性能的关键因素,而非模型的设计或架构。

贝克的主张是否正确?训练数据是否真的是影响模型性能的最重要因素?这确实是一个值得探讨的问题。

统计机器

生成式人工智能系统本质上是概率模型,依赖于大量的统计数据来推测数据的合理性。例如,在句子“I go to the market”中,“go”这个词应该放在“to the market”之前。因此,模型拥有的示例越多,其性能通常越好。艾伦人工智能研究所(AI2)的高级应用研究科学家凯尔·洛(Kyle Lo)也支持这一观点,他认为性能的提升主要来自数据。

洛还提到了 Meta 的 Llama 3 模型,尽管其架构与 AI2 的 OLMo 模型相似,但由于训练数据量更大,Llama 3 在多项人工智能基准测试中表现更优。这表明,数据量的增加确实可以提升模型性能,但洛也强调了数据筛选和质量的重要性。

不良行为

随着对大型高质量训练数据集的需求增加,人工智能开发正逐渐集中于那些拥有充足预算的少数大公司。这可能导致数据获取的不公平,限制了小型企业和独立研究者的发展。

不断增长的成本

获取高质量训练数据的成本正在迅速增长,这对于大多数学术研究团体、非营利组织和初创公司来说是一个巨大的挑战。例如,OpenAI 已经投入数亿美元用于获取许可内容,而这一数字远超大多数组织的预算。

独立努力

尽管面临挑战,仍有一些非营利性组织和研究团体致力于创建开放的训练数据集,如 EleutherAI 和 Hugging Face。这些努力旨在为所有人提供训练生成式人工智能模型的资源,尽管目前还难以与大科技公司的资源相抗衡。

总之,数据在人工智能的发展中扮演着至关重要的角色,但其获取和成本问题正成为行业发展的瓶颈。解决这些问题,不仅需要技术创新,还需要政策和市场的共同努力。

正文完
 0
admin-gah
版权声明:本文于2024-06-02转载自Techcrunch,共计873字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码