共计 1539 个字符,预计需要花费 4 分钟才能阅读完成。
今年夏天,Taylor 和她的室友经历了一段不寻常的时光。他们在绘画、雕塑和做家务时,将 GoPro 相机绑在额头上,目的是为训练一个 AI 视觉模型提供数据。通过仔细同步视频片段,系统可以从多个角度观察同一行为。虽然这项工作颇具挑战性,但报酬丰厚,足以让 Taylor 将大部分时间投入艺术创作。
“我们醒来后完成日常事务,然后将相机绑在头上并同步时间,”她解释道。“之后我们会做早餐并清洗餐具,然后分开进行艺术创作。”
尽管他们每天只需制作五小时的同步视频片段,但 Taylor 发现她需要分配七小时来完成这项工作,以确保有足够的休息时间。“这会导致头痛,”她说,“取下相机后,额头上会留下一个红色的印记。”
Taylor(她要求不透露姓氏)是 Turing 公司的数据自由职业者。Turing 是一家 AI 公司,致力于开发视觉模型,而非教授 AI 如何创作油画。其目标是让 AI 掌握顺序问题解决和视觉推理等抽象技能。与依赖文本的大型语言模型不同,Turing 的视觉模型完全基于视频训练——其中大部分视频由公司直接收集。
除了像 Taylor 这样的艺术家,Turing 还与厨师、建筑工人和电工等从事手工劳动的人合作。Turing 首席 AGI 官 Sudarshan Sivaraman 表示,手动收集数据是获得多样化数据集的唯一途径。“我们正在为多种蓝领工作收集数据,以确保在预训练阶段拥有多样化的信息,”他解释道,“一旦捕获这些信息,模型将能够理解如何执行特定任务。”
Turing 的工作反映了 AI 公司处理数据方式的转变。过去,训练数据集通常从网络上抓取或由低薪标注员收集,而如今,公司愿意为精心策划的数据支付高价。随着 AI 的基础能力逐渐成熟,专有训练数据被视为竞争优势。许多公司不再将任务外包给承包商,而是亲自承担数据收集工作。
以电子邮件公司 Fyxer 为例,该公司使用 AI 模型分类邮件并起草回复。在早期实验后,创始人 Richard Hollingsworth 发现,最佳方法是使用一系列基于紧密聚焦训练数据的小模型。与 Turing 不同,Fyxer 是在他人的基础模型上构建的,但其核心理念一致:“我们意识到,数据的质量而非数量才是决定性能的关键,”Hollingsworth 表示。
这种理念在实践中体现为一些非常规的人员选择。Hollingsworth 透露,在早期,Fyxer 的工程师和经理有时会被训练模型所需的行政助理以四比一的比例超过。“我们雇佣了许多经验丰富的行政助理,因为需要训练模型理解是否应该回复电子邮件,”他解释道,“这是一个非常以人为本的问题,找到合适的人非常困难。”
尽管数据收集的速度从未放缓,但 Hollingsworth 对数据集的态度逐渐转变,更倾向于使用更小、更精心策划的数据集。“数据的质量而非数量才是真正决定性能的因素,”他强调。这一点在使用合成数据时尤为明显。合成数据扩大了可能的训练场景范围,但也放大了原始数据集中任何缺陷的影响。Turing 估计,其 75% 到 80% 的数据是合成的,这些数据从原始 GoPro 视频中推断而来。因此,保持原始数据集的高质量至关重要。
“如果预训练数据本身质量不高,那么无论如何处理合成数据,其质量也不会高,”Sivaraman 指出。
除了质量考量,将数据收集保留在公司内部还具有强大的竞争逻辑。对于 Fyxer 来说,数据收集的艰苦工作是公司抵御竞争的最佳护城河之一。Hollingsworth 认为,任何人都可以将开源模型集成到产品中,但并非每个人都能找到专家标注员将其训练成可用的产品。“我们相信,最好的方法是通过数据,”他表示,“通过构建定制模型,并通过高质量、人类主导的数据进行训练。”
_更正:本文的先前版本错误地引用了 Turing 的名称。TechCrunch 对此错误表示遗憾。