训练数据:AI发展的关键资源

167次阅读
没有评论

共计 1838 个字符,预计需要花费 5 分钟才能阅读完成。

数据是当今先进的 AI 系统的核心,但它的成本越来越高,使其只能供最富有的科技公司使用。去年,OpenAI 的研究员詹姆斯·贝克(James Betker)在他的个人博客上发布了一篇关于生成式 AI 模型及其训练数据集本质的文章。贝克在文章中声称,训练数据是越来越复杂和有能力的 AI 系统的关键,而不是模型的设计、架构或其他特征。

贝克写道:“如果让模型使用相同的数据集进行足够长的训练,几乎每个模型都会收敛到同一个点。”贝克说得对,训练数据决定了模型可以做什么,比如回答问题、绘制手部图像或生成逼真的城市风景。

这确实是可能的。生成式 AI 系统基本上是一堆统计模型,也就是一堆巨大的统计数据。模型通过大量的示例进行推测,以确定将哪些数据放在哪里是最“合理的”(例如,在句子“I go to the market”中将“go”放在“to the market”之前)。因此,从直觉上看,模型拥有更多示例作为参考,训练在这些示例上的模型的性能就会更好。

“至少在拥有稳定的训练设置之后,性能的提升似乎主要来自于数据。”Allen Institute for AI(AI2)的高级应用研究科学家 Kyle Lo 告诉 TechCrunch 说。他举例 Meta 的文本生成模型 Llama 3(今年年初发布)与 AI2 自己的 OLMo 模型相比,尽管两者在架构上非常相似,但 Llama 3 在许多流行的 AI 基准测试中表现更好。Llama 3 训练时使用的数据比 OLMo 多得多,这就是 Lo 认为解释其在基准测试中优势的原因。

这并不意味着以指数级别扩大训练数据集的路径肯定会得到指数级别的更好模型。模型遵循的是“垃圾进,垃圾出”的原则,Lo 指出,因此数据的筛选和质量非常重要,也许比数量更重要。他补充说:“例如,一个精心设计的数据可能使一个小模型胜过一个大模型。例如,大型模型 Falcon 180 billion 在 LMSYS 基准测试中排名第 63,而较小的模型 Llama 2 13 billion 排名第 56。”

在去年十月与 TechCrunch 的一次采访中,OpenAI 研究员 Gabriel Goh 表示,更高质量的注释极大地提高了 OpenAI 的文本到图像模型 DALL-E 3 相比其前身 DALL-E 2 的图像质量。“我认为这是改进的主要原因,”他说,“与 DALL-E 2 相比,文本注释要好得多,简直没法比。”

包括 DALL-E 3 和 DALL-E 2 在内的许多 AI 模型都通过让人类标注数据来辅助训练,使模型能够将这些标签与数据的其他观察特征相联系。例如,一个模型如果被喂入大量带有各个品种标注的猫图片,最终会“学会”将术语“短尾”和“短毛”与它们独特的视觉特征联系在一起。

像 Lo 这样的专家担心,对大型、高质量训练数据集的不断强调将导致 AI 发展集中在少数拥有数十亿美元预算、能够承担这些数据集费用的参与者手中。合成数据或基本架构的重大创新可能会打破现状,但目前似乎并没有看到这样的突破。

Lo 表示:“总的来说,负责对 AI 开发有用的内容的实体都有动力保护他们的材料。随着数据访问的下降,我们实际上是在给少数几个早期数据获取者带来好处,并提高梯子,以使其他人无法获取数据并赶上他们。”

实际上,争夺更多训练数据的竞争并没有导致不道德(甚至非法)的行为,比如秘密聚集版权内容,反而是奖励那些拥有丰厚资金用于数据许可的科技巨头。

像 OpenAI 这样的生成式 AI 模型主要通过公共网页(包括使用 AI 生成的网页)上的图片、文本、音频、视频和其他数据来进行训练,其中一些数据可能受版权保护。像 OpenAI 这样的机构声称,公平使用法可以保护他们免受法律制裁。但很多权利持有者不同意这种观点,但至少目前他们无法采取任何措施来阻止这种做法。

有许多生成式 AI 供应商通过可疑的手段获取大量数据来训练他们的模型。据报道,OpenAI 未经 YouTube 的许可 - 或者创作者的许可 - 转录了超过 100 万小时的 YouTube 视频,然后将其提供给旗舰模型 GPT-4。谷歌最近修改了其服务条款,部分原因是为了能够获取公共 Google 文档、Google 地图上的餐馆评论和其他在线材料,供其 AI 产品使用。而据说 Meta 曾经考虑冒险使用受知识产权保护的内容来训练他们的模型。

与此同时,大大小小的公司依靠每小时只支付几美元的第三世界国家的工人来创建用于训练集的注释。其中一些注释者是由规模巨大的初创公司(如 Scale AI)雇佣的,他们要连续工作数天来完成任务,而这些任务会让他们暴露于暴力和流血的图像,而且没有任何福利或未来工作的保证。

不断上升的成

正文完
 0
admin-gah
版权声明:本文于2024-06-02转载自Techcrunch,共计1838字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码