AI 技术革新:NaviSense 助力视障人士环境感知

15次阅读
没有评论

共计 965 个字符,预计需要花费 3 分钟才能阅读完成。

近年来,帮助视障人士导航环境的系统和应用取得了显著进展,但宾夕法尼亚州立大学的一个研究团队指出,这些技术仍有改进空间。该团队结合了视障社区的建议和人工智能(AI)技术,开发了一款名为 NaviSense 的智能手机应用程序,旨在更好地满足视障人士的需求。

NaviSense 利用手机的集成音频和振动功能,通过语音提示实时识别用户寻找的物品,并引导用户找到环境中的物体。测试用户反馈,与现有的视觉辅助选项相比,体验有所提升。该团队在 10 月 26 日至 29 日于丹佛举行的 ACM SIGACCESS ASSETS ’25 会议上展示了该工具,并获得了最佳观众选择海报奖。工具的详细信息已发布在会议论文集中。

AI 技术革新:NaviSense 助力视障人士环境感知

据宾夕法尼亚州立大学 Evan Pugh 教授、电气工程 A. Robert Noll 讲席教授、NaviSense 团队负责人 Vijaykrishnan Narayanan 介绍,许多现有的视觉辅助程序将用户与现场支持团队连接,这可能效率低下或引发隐私问题。一些程序提供自动化服务,但 Narayanan 解释说,这些程序存在一个明显的问题。

“以前,物体模型需要预加载到服务的内存中才能被识别,”Narayanan 说。“这效率非常低,用户在使用这些工具时灵活性大大降低。”

为了解决这个问题,团队在 NaviSense 中引入了大语言模型(LLMs)和视觉语言模型(VLMs),这两种 AI 模型能够处理大量数据以回答查询。Narayanan 表示,该应用程序连接到托管 LLMs 和 VLMs 的外部服务器,使 NaviSense 能够了解其环境并识别其中的物体。

“使用 VLMs 和 LLMs,NaviSense 可以根据语音命令实时识别环境中的物体,而无需预加载物体模型,”Narayanan 说。“这是该技术的一个重要里程碑。”

据 NaviSense 的首席学生研究员、计算机工程博士生 Ajay Narayanan Sridhar 介绍,团队在开发前与视障人士进行了一系列访谈,以便能够专门根据用户需求定制工具功能。

“这些访谈让我们很好地了解了视障人士面临的实际挑战,”Sridhar 说。

NaviSense 在环境中搜索用户请求的物体,特别过滤掉不符合用户口头请求的物体。如果它不理解用户在寻找什么,它会提出后续问题以帮助缩小搜索范围。Sridhar 表示,这种对话功能提供了其他工具难以提供的便利性和灵活性。

正文完
 0
admin-gah
版权声明:本文于2025-11-25转载自Mirage News,共计965字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码