NASA 利用 AI 技术提升科学数据搜索效率

4次阅读
没有评论

共计 2209 个字符,预计需要花费 6 分钟才能阅读完成。

2025 年 3 月 15 日

NASA 利用 AI 技术提升科学数据搜索效率

NASA 全球降水测量(GPM)任务在 NASA Worldview 上拍摄的图像快照,显示美国东南部的大范围降雨,并叠加了地球科学、大气、降水、液滴尺寸的 GCMD 关键词推荐器。

想象一下在线购买一双新跑鞋。如果每个卖家对它们的描述都不同——有人称之为“运动鞋”,有人称之为“训练鞋”,还有人称之为“锻炼鞋”——你很快就会在混乱的术语海洋中迷失方向。幸运的是,大多数在线商店都使用标准化的分类和筛选器,因此你可以通过简单的路径点击:女装 > 鞋类 > 跑鞋,快速找到所需商品。

现在,将这个问题扩展到科学研究。想象一下,不是“运动鞋”,而是“气溶胶光学深度”或“海面温度”。不是少数零售商,而是成千上万的研究人员、仪器和数据提供者。如果没有描述数据的共同语言,寻找相关的地球科学数据集就像在干草堆中寻找一根针,而且是蒙着眼睛。

这就是为什么 NASA 创建了 全球变化主目录(GCMD),这是一个标准化的词汇表,帮助科学家以一致且可搜索的方式标记他们的数据集。但随着科学的发展,保持元数据组织和可发现的挑战也在增加。

为了应对这一挑战,NASA 位于阿拉巴马州亨茨维尔的马歇尔太空飞行中心(MSFC)的数据科学与信息学办公室(ODSI)开发了GCMD 关键词推荐器(GKR):一个智能工具,旨在帮助数据提供者和管理者自动分配正确的关键词。

升级后的 GKR 模型不仅仅是一项技术改进;它是如何组织和访问科学知识的一次飞跃。通过自动推荐精确、标准化的关键词,该模型减轻了人类管理者的负担,同时确保了元数据的高质量。这使得研究人员、学生和公众更容易找到他们所需的数据集。

这也为更广泛的应用奠定了基础。GKR 中使用的技术,如将焦点损失应用于稀有标签分类问题,以及将预训练变压器适应于特定领域,可以惠及地球科学以外的领域。

新升级的 GKR 模型解决了信息科学中的一个巨大挑战,称为极端多标签分类。这个概念很简单:模型不是只预测一个标签,而是必须从数千个标签中选择多个,有时是几十个。每个数据集可能需要从受控词汇表中提取多个细微的描述符进行标记。

想象一下尝试识别照片中的所有动物。如果只有一只狗,这很容易。但如果有一只狗、一只鸟、一只躲在灌木丛中的浣熊,以及一只只在 0.1% 的训练照片中出现的独角兽,任务就变得困难得多。这就是 GKR 所面临的挑战:精确标记复杂的数据集,即使某些关键词的示例很少。

而且问题还在不断增长。新版本的 GKR 现在考虑了 3,200 多个关键词,而之前的版本只有大约 430 个。这是词汇复杂性的七倍增长,也是模型需要学习和预测的一个重大飞跃。

为了应对这种规模,GKR 团队不仅增加了更多数据;他们还从头构建了一个更强大的模型。升级的核心是INDUS,这是一个高级语言模型,训练了来自跨学科科学文献的 660 亿个单词——地球科学、生物科学、天文学等。

NASA 利用 AI 技术提升科学数据搜索效率

NASA ODSI 的 GCMD 关键词推荐器 AI 模型在 INDUS 的帮助下自动标记科学数据集,INDUS 是一个在 NASA 科学出版物上训练的大型语言模型,涵盖天体物理学、生物和物理科学、地球科学、太阳物理学和行星科学等学科。

“我们处于尖端人工智能和机器学习科学的前沿,”MSFC 的 NASA ODSI AI 团队成员 Sajil Awale 说。“这个问题领域既有趣又具有挑战性,因为它是一个极端分类问题,模型需要根据上下文的微小差异区分非常相似的关键词 / 标签。看到我们如何利用 INDUS 构建这个 GKR 模型是令人兴奋的,因为它是为科学领域设计和训练的。未来有改进 INDUS 的机会。”

这意味着新的 GKR 不仅仅是基于单词相似性进行猜测;它理解关键词出现的上下文。这就像一个模型知道“降水”可能与天气有关,而另一个模型能识别它在卫星数据中作为气候变量的含义。

虽然旧模型仅在 2,000 条元数据记录上进行了训练,但新版本可以访问来自 NASA 通用元数据存储库 的 43,000 多条记录的更丰富数据集。这种增加的曝光有助于模型做出更准确的预测。

通用元数据存储库是以下数据搜索和发现服务的后端:

在这种任务中最大的障碍之一是类别不平衡。一些关键词经常出现;其他关键词可能只出现几次。传统的机器学习方法,如最初用于训练模型的交叉熵损失,往往倾向于简单、常见的标签,而忽略了稀有的标签。

为了解决这个问题,NASA 的团队转向了焦点损失,这种策略减少了模型对明显示例的关注,将重点转移到更难、代表性不足的案例上。

结果如何?一个整体表现更好的模型,尤其是在专家寻找小众数据集时最重要的关键词上。

最终,科学不仅依赖于收集数据,还依赖于使这些数据可用和可发现。更新后的 GKR 工具是这一任务中一个安静但关键的部分。通过将强大的 AI 引入元数据标记任务,它有助于确保从全球卫星和仪器涌入的地球观测数据不会在翻译中丢失。

在一个充满数据的世界中,像 GKR 这样的工具帮助研究人员在噪声中找到信号,并将信息转化为洞察。

除了为 GKR 提供动力外,INDUS 大型语言模型还支持其他 NASA SMD 项目的创新。例如,INDUS 通过帮助自动化元数据管理和提高搜索结果的相关性排名来支持科学发现引擎。多样化的应用反映了 INDUS 作为 SMD 基础 AI 能力的日益增长的作用。

INDUS 大型语言模型由位于华盛顿 NASA 总部的科学任务理事会的 首席科学数据官办公室 资助。首席科学数据官办公室通过数据科学、高级分析和人工智能的创新应用和合作伙伴关系推动科学发现。

正文完
 0
admin-gah
版权声明:本文于2025-07-10转载自Mirage News,共计2209字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码