人工智能发展的关键:数据的重要性与挑战

102次阅读
没有评论

共计 1488 个字符,预计需要花费 4 分钟才能阅读完成。

当今先进的人工智能系统的核心是数据,但这一成本却越来越高,使得除了最富有的科技公司之外,其他公司难以承受。去年,OpenAI 的研究员詹姆斯·贝克尔在他的个人博客上发表了一篇关于生成式人工智能模型及其训练数据集的性质的文章。在文章中,贝克尔声称,训练数据——而不是模型的设计、架构或任何其他特征——是越来越复杂、功能更强大的人工智能系统的关键。

“在相同的数据集上进行足够长时间的训练,几乎每个模型最终都会收敛到同一点,”贝克尔写道。贝克尔的说法是否正确?训练数据是决定模型能够做什么的最重要因素吗,无论是回答问题、绘制人类手部,还是生成逼真的城市景观?这当然是有可能的。

统计机器

生成式人工智能系统基本上是概率模型——一大堆统计数据。它们根据大量示例猜测应该将哪些数据放在哪里,以使其最“合理”(例如,在句子“I go to the market”中,“go”在“to the market”之前)。因此,数据似乎对于性能的提升起到很大的作用,至少在具备稳定的训练设置之后。

艾伦人工智能研究所(AI2)的高级应用研究科学家凯尔·洛举例说明了今年早些时候发布的 Meta 的 Llama 3 文本生成模型,尽管架构非常相似,但它的表现优于 AI2 自己的 OLMo 模型。洛认为,Llama 3 训练的数据明显比 OLMo 多,这解释了为什么它在许多流行的人工智能基准测试中表现出色。

不良行为

洛等专家担心,对大型、高质量训练数据集的日益重视将会把人工智能开发集中到那些能够购买这些数据集的拥有数十亿美元预算的少数公司手中。合成数据或基本架构的重大创新可能会打破现状,但这两者似乎都不在近期的计划之内。

事实上,争取获取更多训练数据的竞赛并没有导致像秘密聚合受版权保护的内容等不道德(甚至可能非法)行为,而是奖励了那些有资金投入数据许可的科技巨头。例如,OpenAI 的生成式人工智能模型主要是通过使用来自公共网页的图像、文本、音频、视频等数据进行训练的。OpenAI 等机构声称,他们合理使用法律来保护自己免受法律制裁,但目前他们无法阻止这种做法。

成本上升

预计未来十年,人工智能训练数据市场规模将从目前的约 25 亿美元增长到约 300 亿美元,数据经纪人和平台正在竞相收取昂贵的费用——在一些情况下,甚至不顾其用户的反对。库存媒体库 Shutterstock 已经与从 2500 万美元到 5000 万美元不等的人工智能供应商达成协议,而 Reddit 已经通过向 Google 和 OpenAI 等机构许可数据赚取了数亿美元。从 Photobucket 到 Tumblr 再到问答网站 Stack Overflow,几乎所有已积累了多年大量数据的平台都与生成式人工智能开发者签署了协议,但用户并没有从这些利润中获得任何收益。

独立努力

如果在这片阴霾中有一线阳光的话,那就是一些少数独立的非营利性努力,旨在创建任何人都可以使用来训练生成式人工智能模型的大规模数据集。EleutherAI 是一个由松散的 Discord 集体于 2020 年开始的基层非营利性研究团体,他们正在与多伦多大学、AI2 和独立研究人员合作,创建的 The Pile v2 是一个由主要来源于公共领域的数十亿文本段落组成的数据集。四月,人工智能初创公司 Hugging Face 发布了 FineWeb,这是 Common Crawl 的经过过滤的版本——由非营利组织 Common Crawl 维护,由数十亿网页组成——Hugging Face 声称这可以提高模型在许多基准测试中的表现。

问题是,这些开放努力是否能够与大科技公司保持同步。只要数据收集和筛选仍然是一种资源问题,答案很可能是否定的——至少在某种平衡研究突破的方式出现之前。

正文完
 0
admin-gah
版权声明:本文于2024-06-02转载自Techcrunch,共计1488字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码