共计 1815 个字符,预计需要花费 5 分钟才能阅读完成。
训练师们,我们终于了解到 Niantic 如何使用我们的数据了。在最近发布的 Niantic 官方公司博客 中,Niantic 详细描述了他们正在使用你的 PokéStop 扫描数据构建的内容:一个庞大的地理空间 AI 模型。
该模型目前尚未命名,但 Niantic 称其为世界上首个 大型地理空间模型(LGM),类似于 Chat GPT 是一个大型语言模型(LLM)。该模型尚未存在,Niantic 发布此博客文章作为训练和构建此类模型的意向公告。
以下是 Niantic 正在构建的内容,他们如何使用和计划使用我们的数据,以及这个新的人工智能模型的目的。
什么是大型地理空间模型?
大型地理空间模型 是 Niantic 用来描述帮助计算机理解和导航物理世界的 AI 模型的术语。它是一个使用大量数据构建和训练的 AI 模型:
- 数十亿张我们周围世界的图像
- 数十亿小时的扫描我们周围世界的位置
所有这些数据点都锚定在实际的物理位置上,这使得模型具有位置感,并通过 3D 视觉理解它所看到的内容。听起来有点吓人,不是吗?好吧,从这里开始并没有变得更好。
一对多 – 本地模型的融合
Niantic 还分享了他们对这一模型的愿景,即成为 多个本地模型的融合,其中一些本地模型看到了建筑的前面,而其他模型看到了建筑的背面。他们提议的大型地理空间模型将能够利用这两个本地模型,并创建该建筑的完整 3D 图像,通过插值本地知识提炼和创建新信息。
想象你自己站在一座教堂后面。假设最近的本地模型只看到了教堂的前门,因此它无法告诉你你在哪里。该模型从未见过建筑的背面。但在全球范围内,我们已经看到了很多教堂,成千上万座,所有这些都被世界各地各自的本地模型捕获。没有两座教堂是完全相同的,但许多教堂具有共同特征。LGM 是一种访问这种分布式知识的方式。
LGM 在全球大规模模型中提炼出共同信息,使本地模型之间能够进行通信和数据共享。LGM 将能够内化教堂的概念,以及这些建筑通常是如何结构的。即使对于某个特定位置,我们只映射了教堂的入口,LGM 也能够根据它之前见过的成千上万座教堂,对建筑的背面做出智能猜测。
Niantic 现有的模型可以被描述为 本地模型,从某种意义上说,我们作为玩家通过 PokéStop 扫描训练的每个小型或中型神经网络都是一个小型或中型本地模型。
Niantic 计划将它们作为对全球大型模型的贡献,“实现对地理位置的共享理解,并理解尚未完全扫描的地方。”
模型应像人类一样思考
Niantic 还分享了这一新模型应像人类一样思考和理解空间——它应识别街道,理解常见的建筑模式,即使从未走过某条街道也能得出导航结论。
在一个非常具体的例子中,该模型应能够导航欧洲的老城区,因为它知道街道的布局,但也因为它理解欧洲老城区建造的文化背景,因此可以从中学到结论。
这是整个故事中特别有趣且令人担忧的方面。人们可以理解 3D 视觉模型知道它们正在看埃菲尔铁塔,但要理解其周围的整体几何和建筑……听起来很危险。
Niantic 迄今为止的成就
到目前为止,Niantic 在创建 LGM 方面取得了巨大进展,但遗憾的是,他们仍然相距甚远。他们与创建这一模型之间最大的障碍是需要训练它的海量数据。
请记住,3D 扫描在互联网上并不容易获得,它们是由《Pokémon GO》玩家使用“扫描 PokéStop”功能创建的。与 Chat GPT 不同,Chat GPT 可以使用整个互联网作为训练场,LGM 需要我们的数据和我们的输入。
以下是 Niantic 迄今为止的工作,如他们所分享的:
- 在过去五年中,Niantic 专注于构建我们的视觉定位系统(VPS),该系统使用手机拍摄的单张图像,通过从人们扫描我们游戏和 Scaniverse 中有趣位置构建的 3D 地图来确定其位置和方向。
- 通过 VPS,用户可以在世界中以厘米级精度定位自己。这意味着他们可以精确且逼真地将数字内容放置在物理环境中。这种内容是持久的,即在你离开后仍留在该位置,并且可以与其他人共享。
- 例如,Niantic 最近开始在《Pokémon GO》中推出一项实验性功能,称为Pokémon Playgrounds,用户可以在特定位置放置 Pokémon,它们将留在那里供其他人看到和互动。
VPS 覆盖范围是基于用户扫描构建的,今天他们在全球有1000 万个扫描位置,其中 100 万个已处理并可与他们的 VPS 系统一起使用。覆盖图清楚地显示了玩家扫描最多的地方:
除此之外,Niantic 迄今已训练了超过 5000 万个神经网络,多个网络可以为单个位置做出贡献。