Wikimedia新数据库助力AI开发者高效搜索数据

2次阅读
没有评论

共计 1520 个字符,预计需要花费 4 分钟才能阅读完成。

维基百科的姊妹项目 Wikidata 近日推出全新数据库,旨在帮助人工智能(AI)模型更轻松地吸收和利用其庞大的数据资源。这一创新举措将为 AI 开发者提供更便捷的数据访问方式,尤其是那些不在大型科技公司核心资金圈内的开发者。

Wikimedia 新数据库助力 AI 开发者高效搜索数据
图片:Alex Castro / The Verge

已故英国作家道格拉斯·亚当斯(Douglas Adams)因 1979 年出版的《银河系漫游指南》而闻名于世。然而,亚当斯的故事远不止于其 维基百科条目 中所记载的内容。无论你是否需要了解他的 星座 是双鱼座,或是全球图书馆如何用同一串数字——13230702——来存储他的书籍,你都可以在 Wikimedia 基金会的一个被忽视的角落——Wikidata——找到这些信息。

在 Wikidata 中,与亚当斯相关的图片、文本、关键词和其他信息不仅以网页形式存储,还以适合机器处理的格式(如JSON)呈现。

如今,Wikidata 正在引入一个对 AI 友好的新数据库,使大型语言模型更容易吸收这些信息。该数据库源自 Wikimedia 基金会德国分会 Wikimedia Deutschland 的Wikipedia Embedding Project,该分会负责监督 Wikidata。位于柏林的团队在过去一年中利用大型语言模型将 Wikidata 中的 1900 万条条目从结构复杂的数据转换为能够捕捉条目上下文和含义的向量。

在这种向量化格式中,信息可以被想象成一张由点和相互连接的线组成的图——道格拉斯·亚当斯将与“人类”以及他的书名相关联,Wikidata 项目负责人 Lydia Pintscher 向_The Verge_解释道。

尽管前端用户体验将保持不变——维基百科不会变成聊天机器人,项目负责人强调——但后端将更便于 AI 开发者在构建例如他们自己的聊天机器人时访问数据。

Pintscher 表示,该项目的目标是为那些不在大型科技公司核心资金圈内的 AI 开发者创造一个公平的竞争环境。像 OpenAI 和 Anthropic 这样的公司有资源将 Wikidata 向量化,就像 Pintscher 和她的团队所做的那样。而较小的公司则最能受益于新访问的 Wikidata 库中存储的精选数据。“对我来说,这真的是为了给他们一个优势,至少给他们一个机会,对吧?”Pintscher 说。

她以 Govdirectory 为例,该项目利用 Wikidata 由志愿者整理的庞大数据来造福社会。该平台允许用户查找全球公共官员的社交媒体账号和电子邮件。

大多数 AI 聊天机器人优先考虑互联网上的热门词汇和话题。除了为小型科技公司提供支持外,团队还希望更便捷地访问 Wikidata 将使 AI 系统更好地反映互联网上未被广泛代表的小众话题,Pintscher 说。这可能是向 ChatGPT 提供信息的一种更好方式,而不是“生成大量内容,然后等待 ChatGPT 下一次重新训练,也许或也许不会考虑你贡献的内容,”Pintscher 说。

在实践中,向量将使 AI 系统不仅能够更好地访问信息本身,还能更好地访问信息周围的上下文,Wikidata AI 项目经理 Philippe Saadé告诉_The Verge_。

团队使用了 AI 公司 Jina AI 的模型,将截至 2024 年 9 月 18 日的 Wikidata 结构化数据转换为向量。IBM 公司 DataStax 目前免费为该项目提供存储向量数据库的基础设施。

团队正在等待使用该数据库的开发者的反馈,然后再用过去一年添加的信息更新数据库。虽然当前数据库不包括过去一年添加的全新信息,但 Saadé表示,对现有 Wikidata 的小幅编辑或调整不会削弱数据库的实用性。“归根结底,我们计算的向量就像是一个项目的总体概念,所以如果 Wikidata 上有一些小编辑,它不会特别相关,”他说。

正文完
 0
admin-gah
版权声明:本文于2025-10-01转载自TheVerge,共计1520字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码