共计 2614 个字符,预计需要花费 7 分钟才能阅读完成。
数据是当今先进人工智能系统的核心,但成本越来越高,使得只有最富有的科技公司才能负担得起。去年,OpenAI 的研究员詹姆斯·贝克在他的个人博客上发表了一篇关于生成式人工智能模型及其所训练的数据集性质的文章。在这篇文章中,贝克声称,训练数据是日益复杂、能力更强的人工智能系统的关键,而不是模型的设计、架构或其他特征。
贝克写道:“在相同的数据集上训练足够长时间,几乎所有模型最终都趋于相同的点。”贝克说得对吗?训练数据是模型能否回答问题、绘制人手或生成逼真城市风景的最大决定因素吗?这是有道理的。
统计机器
生成式人工智能系统基本上是概率模型——一大堆统计数据。它们基于大量示例猜测哪些数据最合理地放在哪里(例如,在句子“我去市场”中,“去”一词放在“去市场”之前)。因此,似乎很直观,模型拥有更多示例时,在这些示例上训练的模型性能更好。
“在你有一个稳定的训练环境之后,性能的提升似乎来自于数据,”艾伦人工智能研究所(AI2)的高级应用研究科学家凯尔·洛告诉 TechCrunch,“至少在你有一个稳定的训练环境之后。”他举了 Meta 的 Llama 3 作为例子,这是今年年初发布的一个文本生成模型,尽管与 AI2 自己的 OLMo 模型的架构非常相似,但 Llama 3 在许多热门的人工智能基准测试中表现优越。Llama 3 训练的数据比 OLMo 多,洛认为这解释了它在这些基准测试中的优势。
这并不是说训练在数量级上更大的数据集一定能得到数量级上更好的模型。洛指出,模型的运行是按照“垃圾进,垃圾出”的原则进行的,因此数据筛选和质量非常重要,也许比数量更重要。他补充说:“小型模型通过精心设计的数据可能优于大型模型。例如,大型模型 Falcon 180B 在 LMSYS 基准测试中排名第 63,而较小的模型 Llama 2 13B 排名第 56。”
不良行为
像洛这样的专家担心对大规模高质量训练数据的不断追求将使人工智能的发展集中在具有数十亿美元预算的少数公司手中,而只有这些公司才能负担得起这些数据。人工智能领域的重大创新,如 [合成数据](https://www.bloomberg.com/news/newsletters/2024-05-02/microsoft-google-and-meta-bet-on-fake-data-to-train-ai-models) 或基本架构的突破,可能会打破现状,但在近期内似乎没有出现。
“总体而言,控制可能对人工智能开发有用的内容的实体都有动机封锁他们的素材,”洛说,“随着对数据的访问日益困难,我们基本上是赞许少数早期的数据获取者,并拉起梯子,以便其他人无法获得数据赶上。”
事实上,争夺更多训练数据的竞赛并没有导致不道德或非法的行为,例如秘密聚合受版权保护的内容,但它使得拥有深厚的资金实力的科技巨头能够在数据许可方面获得回报。
像 OpenAI 这样的生成式人工智能模型主要是通过公共网页(包括 AI 生成的网页)中的图片、文字、音频、视频和其他一些有版权的数据进行训练的。世界各地的权利拥有者认为,公平使用法不能使他们免于法律制裁。然而,在目前的情况下,他们对此做不了什么。
有许多让人担忧的例子表明,生成式人工智能供应商通过可疑的方式获取大规模数据来训练他们的模型。据报道,OpenAI 未经 YouTube 的批准,也未经创作者的批准,转录了 100 多万小时的 YouTube 视频,用于训练其旗舰模型 GPT-4。Google 最近扩大了其服务条款的范围,其中一部分是为了能够利用公共的 Google 文档、Google 地图上的餐厅评论和其他在线材料来支持其人工智能产品的开发。据说 Meta 曾考虑冒险在知识产权保护的内容上训练其模型。
不断增长的成本
换句话说,即使是更合法的数据交易,也并没有促进一个开放而公平的生成式人工智能生态系统。
OpenAI 已经在从新闻出版商、股票媒体库和其他来源许可内容方面花费了数亿美元,用于训练其人工智能模型,这一预算远远超过大多数学术研究机构、非营利组织和初创公司的能力。据说,Meta 甚至考虑收购出版商 Simon & Schuster 以获取电子书摘录的权利(最终,Simon & Schuster 于 2023 年以 16.2 亿美元的价格卖给私人股本公司 KKR)。
人工智能训练数据市场预计将在未来十年从目前的约 250 亿美元增长到约 300 亿美元,数据经纪人和平台正在争相收取最高价,有时候甚至违背了他们的用户的意愿。
股票媒体库 Shutterstock 与从 2500 万美元到 5000 万美元不等的人工智能供应商签订了交易,而 Reddit 声称已经通过向 Google 和 OpenAI 等组织提供数据许可获得了数亿美元的收入。从 Photobucket 到 Tumblr 再到问答网站 Stack Overflow,似乎很少有积累了多年丰富数据的平台没有与生成式人工智能开发商签订协议。
这些平台有权出售数据,至少根据你相信哪些法律论点是如此。但在大多数情况下,用户没有分享这些利润。这对更广泛的人工智能研究社区造成了伤害。
洛说:“小公司将无法负担这些数据许可,因此无法开发或研究人工智能模型。我担心这可能导致对人工智能开发实践缺乏独立审查。”
独立努力
如果在这阴郁的环境中有一线阳光,那就是为培训生成式人工智能模型创建可供任何人使用的大规模数据集的少数独立非盈利努力。
EleutherAI 是一个从 2020 年开始作为一个松散的 Discord 集体存在的草根非营利研究组织,他们正在与多伦多大学、艾伦人工智能研究所(AI2)和独立研究人员合作,创建 The Pile v2,这是一个主要来源于公共领域的数十亿个文本段落的数据集。
今年 4 月,人工智能初创公司 Hugging Face 发布了 FineWeb,这是 Common Crawl 的一个经过筛选的版本,Common Crawl 是由非营利机构 Common Crawl 维护的数据集,由数十亿个网页组成,Hugging Face 声称该数据集改善了许多基准测试上的模型性能。
一些开放训练数据集的努力,比如 LAION 团队的图像数据集,遇到了版权、数据隐私和其他同样重要的伦理和法律挑战。但一些更专注于数据筛选的团队承诺会做得更好。例如,The Pile v2 删除了它的前身数据集 The Pile 中的一些版权问题。
问题是,这些开放努力能否希望与大科技巨头保持同步。只要数据收集和筛选仍然是一项资源问题,答案很可能是否定的——至少在某种研究突破能够扭转局势之前是如此。