AI 技术革新：NaviSense 助力视障人士环境感知

61次阅读

共计 965 个字符，预计需要花费 3 分钟才能阅读完成。

近年来，帮助视障人士导航环境的系统和应用取得了显著进展，但宾夕法尼亚州立大学的一个研究团队指出，这些技术仍有改进空间。该团队结合了视障社区的建议和人工智能（AI）技术，开发了一款名为 NaviSense 的智能手机应用程序，旨在更好地满足视障人士的需求。

NaviSense 利用手机的集成音频和振动功能，通过语音提示实时识别用户寻找的物品，并引导用户找到环境中的物体。测试用户反馈，与现有的视觉辅助选项相比，体验有所提升。该团队在 10 月 26 日至 29 日于丹佛举行的 ACM SIGACCESS ASSETS ’25 会议上展示了该工具，并获得了最佳观众选择海报奖。工具的详细信息已发布在会议论文集中。

据宾夕法尼亚州立大学 Evan Pugh 教授、电气工程 A. Robert Noll 讲席教授、NaviSense 团队负责人 Vijaykrishnan Narayanan 介绍，许多现有的视觉辅助程序将用户与现场支持团队连接，这可能效率低下或引发隐私问题。一些程序提供自动化服务，但 Narayanan 解释说，这些程序存在一个明显的问题。

“以前，物体模型需要预加载到服务的内存中才能被识别，”Narayanan 说。“这效率非常低，用户在使用这些工具时灵活性大大降低。”

为了解决这个问题，团队在 NaviSense 中引入了大语言模型（LLMs）和视觉语言模型（VLMs），这两种 AI 模型能够处理大量数据以回答查询。Narayanan 表示，该应用程序连接到托管 LLMs 和 VLMs 的外部服务器，使 NaviSense 能够了解其环境并识别其中的物体。

“使用 VLMs 和 LLMs，NaviSense 可以根据语音命令实时识别环境中的物体，而无需预加载物体模型，”Narayanan 说。“这是该技术的一个重要里程碑。”

据 NaviSense 的首席学生研究员、计算机工程博士生 Ajay Narayanan Sridhar 介绍，团队在开发前与视障人士进行了一系列访谈，以便能够专门根据用户需求定制工具功能。

“这些访谈让我们很好地了解了视障人士面临的实际挑战，”Sridhar 说。

NaviSense 在环境中搜索用户请求的物体，特别过滤掉不符合用户口头请求的物体。如果它不理解用户在寻找什么，它会提出后续问题以帮助缩小搜索范围。Sridhar 表示，这种对话功能提供了其他工具难以提供的便利性和灵活性。

正文完