共计 3360 个字符,预计需要花费 9 分钟才能阅读完成。
今天的先进人工智能系统的核心是数据,但它的成本越来越高,使得只有最富有的科技公司能够负担得起。
去年,OpenAI 的研究员詹姆斯·贝特克 (James Betker) 在他的个人博客上发表了一篇关于生成式人工智能模型和它们所训练的数据集的性质的文章。在这篇文章中,贝特克指出训练数据——而不是模型的设计、架构或任何其他特征——是越来越复杂、功能更强大的人工智能系统的关键。
贝特克写道:“如果训练数据集相同,几乎每个模型最终都会趋于相同的结果。”
贝特克是对的吗?训练数据是模型能够做到的最重要的因素吗?无论是回答问题、画人手还是生成逼真的城市风景。
这种说法是有道理的。
生成式人工智能系统基本上是概率模型,也就是一堆巨大的统计数据。它们根据大量的示例猜测哪些数据在哪里放置最“合理”(例如,在句子“I go to the market”中,“go”在“to the market”之前)。因此,这似乎很直观,模型所拥有的示例越多,训练效果就会越好。
“在建立了一个稳定的训练设置之后,似乎性能提升主要来自数据,”阿伦人工智能研究所 (AI2) 的资深应用研究科学家凯尔·洛 (Kyle Lo) 告诉 TechCrunch,“至少在你的训练设置稳定之后。”他解释说,一旦训练环境稳定,数据量的增加通常会带来性能的提升。
他举例说明了今年早些时候发布的 Meta 的 Llama 3(一个文本生成模型),尽管与 AI2 自家的 OLMo 模型在结构上非常相似,但 Llama 3 在许多流行的人工智能基准测试中表现优于 OLMo,洛认为这得益于它训练的数据集比 OLMo 要多得多。
(我要指出,在今天的人工智能行业中,使用的基准测试并不一定是衡量模型性能的最佳标准,但除了 [我们自己的定性测试](https://techcrunch.com/2024/03/23/why-its-impossible-to-review-ais-and-why-techcrunch-is-doing-it-anyway/) 外,它们是我们唯一能够参考的少数几个指标之一。)
这并不意味着通过指数级增加训练数据集一定能获得指数级更好的模型。洛指出,模型遵循“垃圾进,垃圾出”的范式,因此数据的筛选和质量比纯粹的数量更为重要。
他补充说:“一个小型模型精心设计的数据可能比一个大型模型表现更好。例如,一个大型模型 Falcon 180B 在 LMSYS 基准测试中排名第 63,而一个更小的模型 Llama 2 13B 排名第 56。”
在去年 10 月接受 TechCrunch 采访时,OpenAI 的研究员加布里埃尔·戈 (Gabriel Goh) 表示,高质量的注释对于 OpenAI 的 DALL-E 3(OpenAI 的文本到图像模型)相比于其前身 DALL-E 2 的改进起到了巨大的贡献。“我认为这是改进的主要来源,”他说。“与 [DALL-E 2] 相比,文本注释要好得多,根本无法相提并论。”
许多生成式人工智能模型,包括 DALL-E 3 和 DALL-E 2,都是通过让人类注释者为数据打上标签,以便模型能够学会将这些标签与数据的其他观察特征进行关联来进行训练的。例如,一个模型如果被喂饱了各种品种的猫照片,并为每个品种进行了注释,最终会“学会”将“bobtail”和“shorthair”等术语与它们独特的视觉特征相关联。
像洛这样的专家担心,追求更大规模、高质量训练数据集的趋势将使人工智能开发集中在那些能够负担得起这些数据集的数十亿美元预算的少数玩家手中。模拟数据或基本架构的重大创新可能会改变现状,但目前似乎还没有这样的迹象。
“总的来说,管理对人工智能开发有潜在用途的内容的实体都有动力将其材料限制起来,”洛表示。“随着对数据的访问闭塞,我们实际上是在给数据获取的少数早期参与者祝福,并拉起梯子,以便其他人无法获取数据迎头赶上。”
的确,如果争夺更多训练数据的竞赛没有导致像秘密聚合版权内容这样的不道德(甚至非法)行为,它会奖励那些有资金购买数据许可的科技巨头。
像 OpenAI 这样的生成式人工智能模型大多数是通过从公开网页(包括 [存在问题的](https://www.scientificamerican.com/article/ai-generated-data-can-poison-future-ai-models/#:~:text=But%20as%20AI%20developers%20scrape,each%20succeeding%20generation%20of%20models.) 那些由 AI 生成的网页)中获取的图片、文本、音频、视频和其他数据进行训练的,其中一些数据受到版权保护。像 OpenAI 等实体声称,合理使用原则使他们免于法律惩罚。但是许多权利持有人不同意这种观点,至少目前他们无法阻止这种做法。
许多生成式人工智能供应商通过有问题的方式获得大量数据来训练它们的模型,这并不是没有例外。据报道,OpenAI 以未经 YouTube 许可(或创作者的许可)转录了超过一百万小时的 YouTube 视频,供其旗舰模型 GPT- 4 使用。谷歌最近扩大了其服务条款,部分原因是为了能够使用公共 Google 文档、Google 地图上的餐厅评论和其他网络材料用于其人工智能产品。据说 Meta 甚至考虑冒险在知识产权受保护的内容上训练它的模型。
与此同时,中小型公司仍然依赖低薪支付第三世界国家的工人来为训练集创建注释,一小时只支付几美元。其中一些注释员是由 Scale AI 等巨头初创公司雇佣的,他们要连续数天工作来完成任务,这些任务让他们暴露在描绘暴力和流血场景的图像中,却无法享受到任何福利或未来合同的保障。
换句话说,即使是更合法的数据交易也并没有促进一个开放和公平的生成式人工智能生态系统。
OpenAI 已经花费数亿美元从新闻出版商、股票媒体库和其他来源获取许可内容来训练其人工智能模型——这是一个预算远远超出大多数学术研究团体、非营利组织和初创公司能够承担的范围。Meta 甚至考虑购买出版商 Simon & Schuster 的版权以获取电子书节选权(最终,Simon & Schuster 于 2023 年以 16.2 亿美元卖给了私募股权公司 KKR)。
据预计,人工智能训练数据市场在未来十年内将从大约 25 亿美元增长到接近 300 亿美元,数据经纪人和平台将竞相开出高价,甚至无视用户的反对。
股票媒体库 Shutterstock 与 AI 供应商达成的交易金额介于 2,500 万美元到 5,000 万美元之间,而 Reddit 声称通过向 Google 和 OpenAI 等机构授权数据赚取了数亿美元。看起来,几乎每个拥有大量数据、多年积累的平台都与生成式人工智能开发者签订了协议——从 Photobucket、Tumblr 到问答网站 Stack Overflow。
这些平台的数据可以销售——至少取决于你相信哪些法律论点。但是在大多数情况下,用户并未从利润中获得任何利益。这对更广泛的人工智能研究社区造成了伤害。
洛表示:“规模较小的参与者将无法负担这些数据许可证,因此将无法开发或研究人工智能模型。我担心这可能导致对人工智能开发实践缺乏独立审查。”
如果有一丝阳光穿过黑暗,那就是为训练生成式人工智能模型创建大规模数据集的几个独立的非营利性努力。
EleutherAI 是一个从 2020 年开始作为一个松散集体在 Discord 上成立的群众性非营利性研究团体,它与多伦多大学、AI2 和独立研究人员合作创建了 The Pile v2,这是一个以数十亿个主要来自公共领域的文本段落为主的数据集。
今年 4 月,人工智能创业公司 Hugging Face 发布了 FineWeb,这是 Common Crawl 的筛选版本——它是由非营利组织 Common Crawl 维护的数据集合,包含着数十亿个网页,Hugging Face 声称 FineWeb 改进了许多基准测试中模型的性能。
一些发布开放训练数据集的努力,比如 LAION 小组的图像集,遇到了版权、数据隐私和其他同样重要的道德和法律挑战。但是一些更专注于数据筛选的机构承诺会做得更好。例如,The Pile v2 从其前身数据集 The Pile 中删除了存在问题的版权材料。
问题是,这些公开努力是否能希望与大科技公司保持同步发展。只要数据的收集和筛选仍然是一个资源问题,答案可能是否定的——至少在某个研究突破改变了竞争态势之前。