共计 1769 个字符,预计需要花费 5 分钟才能阅读完成。
Databricks,这家为大型企业构建定制人工智能模型的领先公司,近日推出了一项突破性的机器学习技术。该技术能够在无需依赖高质量标注数据的情况下,显著提升 AI 模型的性能。
Databricks 的首席 AI 科学家 Jonathan Frankle 在过去一年中深入了解了客户在使 AI 可靠工作方面面临的主要挑战。他指出,数据质量问题是核心症结所在。
“每家企业都拥有数据,也清楚自己的目标,”Frankle 表示,“但缺乏干净的数据使得微调模型以执行特定任务变得困难。没有人会带着可以直接输入提示或 [应用程序编程接口] 的完美微调数据来寻求帮助。”
Databricks 的创新技术可能使企业最终能够部署自己的 AI 代理来执行任务,而无需过分担忧数据质量问题。该方法巧妙地结合了强化学习(一种让 AI 模型通过实践不断改进的技术)和“合成”或 AI 生成的训练数据,从而帮助创建高级推理模型。
OpenAI、Google 和 DeepSeek 的最新模型都大量依赖强化学习和合成训练数据。WIRED 还透露,Nvidia 计划收购专注于合成数据的公司 Gretel。“我们都在探索这个领域,”Frankle 说。
Databricks 的方法基于一个简单而深刻的事实:即使是一个相对较弱的模型,只要尝试足够多次,也可以在特定任务或基准测试中表现出色。研究人员将这种提升模型性能的方法称为“best-of-N”。Databricks 训练了一个模型,能够根据示例预测人类测试者会倾向于选择哪个 best-of-N 结果。随后,Databricks 的奖励模型(DBRM)可以用来改进其他模型的性能,而无需进一步的标注数据。
DBRM 用于从给定模型中选择最佳输出,从而为模型的进一步微调创建合成训练数据,使其在首次尝试时就能产生更好的结果。Databricks 将这一新方法命名为“测试时自适应优化”(TAO)。“我们讨论的这种方法使用了一些相对轻量级的强化学习,基本上将 best-of-N 的优势融入模型本身,”Frankle 解释道。
他还补充说,Databricks 的研究表明,TAO 方法在扩展到更大、更强大的模型时会表现出更显著的改进。虽然强化学习和合成数据已经被广泛使用,但将它们结合起来以改进语言模型是一种相对较新且技术上具有挑战性的技术。
Databricks 在 AI 开发方面表现出异常开放的态度,旨在向客户展示其具备创建强大定制模型所需的专业技能。此前,该公司曾向 WIRED 透露其如何从零开始开发 DBX,这是一款尖端的开源大型语言模型(LLM)。
如果没有精心标注和整理的数据,微调 LLM 以更有效地执行特定任务(例如分析财务报告或健康记录以发现模式或识别问题)是具有挑战性的。许多公司现在希望使用 LLM 通过所谓的代理来自动化任务。
例如,金融领域使用的代理可能会分析公司的关键绩效,然后生成报告并自动发送给不同的分析师。健康保险领域使用的代理可能会帮助引导客户获取有关相关药物或病症的信息。
Databricks 在 FinanceBench 上测试了 TAO 方法,这是一个评估语言模型回答财务问题能力的基准。在这个基准测试中,Meta 免费 AI 模型中最小的 Llama 3.1B 得分为 68.4%,而 OpenAI 的专有 GPT-4o 和 o3-mini 模型的得分为 82.1%。通过使用 TAO 技术,Databricks 让 Llama 3.1B 在 FinanceBench 上的得分提升至 82.8%,超过了 OpenAI 的模型。
“这个总体思路非常有前景,”东北大学从事强化学习研究的计算机科学家 Christopher Amato 表示。“我完全同意缺乏良好的训练数据是一个大问题。”
Amato 指出,许多公司现在正在寻找使用合成数据和强化学习训练 AI 模型的方法。TAO 方法“非常有前景,因为它可能允许更可扩展的数据标注,并且随着模型变得更强大和标注随着时间的推移变得更好,性能也会有所提升,”他说。
然而,Amato 也提醒,强化学习有时会以不可预测的方式表现,这意味着需要谨慎使用。
Frankle 表示,Databricks 正在使用 TAO 技术来提升客户 AI 模型的性能,并帮助他们构建第一个代理。一位制作健康追踪应用程序的客户发现,TAO 方法使其能够部署一个以前不够可靠的 AI 模型。“你希望 [应用程序] 在医学上是准确的,”他说。“这是一个棘手的问题。”