共计 1797 个字符,预计需要花费 5 分钟才能阅读完成。
一年前,Databricks 以 13 亿美元的价格收购了 MosaicML,现在已更名为 Mosaic AI,该平台已成为 Databricks AI 解决方案的核心部分。在公司的 Data + AI 峰会上,Databricks 宣布推出多项新功能。在发布会前,我与 Databricks 的联合创始人兼 CEO Ali Ghodsi 和 CTO Matei Zaharia 进行了深入交谈。
在会议上,Databricks 推出了五个新的 Mosaic AI 工具:Mosaic AI Agent Framework、Mosaic AI Agent Evaluation、Mosaic AI Tools Catalog、Mosaic AI Model Training 和 Mosaic AI Gateway。
Ghodsi 表示:“过去的一年非常精彩——生成式 AI 取得了巨大进展。每个人都对此感到兴奋。但大家关心的仍然是三个问题:如何提高这些模型的质量或可靠性?第二个问题是,如何确保其成本效益?这里模型的成本差异巨大——价格上存在巨大的、数量级的差异。第三,我们如何在不泄露数据隐私的情况下做到这一点?”
今天的发布旨在解决 Databricks 客户的这些主要担忧。
Zaharia 还指出,现在部署大型语言模型(LLMs)的企业正在使用包含多个组件的系统。这通常意味着他们需要多次调用模型(或多个模型),并使用各种外部工具来访问数据库或进行检索增强生成(RAG)。这些复合系统加速了基于 LLM 的应用程序,通过使用更便宜的模型进行特定查询或缓存结果来节省资金,并且可能最重要的是,通过将基础模型与专有数据相结合,使结果更加可信和相关。
他解释说:“我们认为这是真正高影响、任务关键型 AI 应用的未来。因为如果你考虑一下,如果你正在做一些真正关键的任务,你会希望工程师能够控制其所有方面——而你通过模块化系统来实现这一点。因此,我们正在进行大量基础研究,以找出为特定任务创建这些系统的最佳方式。”
至于实际构建这些系统,Databricks 本周推出了两项服务:Mosaic AI Agent Framework 和 Mosaic AI Tools Catalog。AI Agent Framework 利用了公司上个月普遍可用的无服务器向量搜索功能,为开发者提供了构建基于 RAG 的应用程序的工具。
Ghodsi 和 Zaharia 强调,Databricks 的向量搜索系统采用混合方法,结合了经典的关键词搜索和嵌入搜索。所有这些都与 Databricks 数据湖深度集成,两个平台上的数据始终自动保持同步。这包括整个 Databricks 平台的治理功能——特别是 Databricks Unity Catalog 治理层——以确保个人信息不会泄露到向量搜索服务中。
谈到 Unity Catalog(公司现在也在逐步开源),值得注意的是,Databricks 现在正在扩展这个系统,让企业能够管理在生成答案时可以调用的 AI 工具和功能。Databricks 表示,这个目录还将使这些服务在公司内部更容易被发现。
Ghodsi 还强调,开发者现在可以通过使用 Langchain 或 LlamaIndex 等工具将模型和功能链接在一起来构建自己的代理。Zaharia 告诉我,许多 Databricks 客户已经在使用这些工具。
为了评估这些新应用,Databricks 还推出了 Mosaic AI Agent Evaluation,这是一个 AI 辅助评估工具,结合了基于 LLM 的评判者来测试 AI 在生产中的表现,但也允许企业快速从用户那里获得反馈,并让他们标记一些初始数据集。质量实验室包括一个基于 Databricks 今年早些时候收购的 Lilac 的 UI 组件,它允许用户可视化和搜索庞大的文本数据集。
另一种提高结果的方法是使用微调模型。为此,Databricks 现在提供了 Mosaic AI Model Training 服务,允许用户使用组织私有数据对模型进行微调,以帮助它们在特定任务上表现更好。
最后的新工具是 Mosaic AI Gateway,该公司将其描述为“查询、管理和部署任何开源或专有模型的统一接口”。这里的想法是允许用户以受控方式查询任何 LLM,使用集中式凭据存储来确保数据的安全性。毕竟,没有企业希望其工程师将随机数据发送到第三方服务。
在预算缩减的时代,AI Gateway 还允许 IT 为不同供应商设置速率限制,以保持成本可控。此外,这些企业还可以获得使用跟踪和调试这些系统的能力。