共计 748 个字符,预计需要花费 2 分钟才能阅读完成。
宾夕法尼亚州立大学研究团队近日推出了一款革命性的智能手机应用 NaviSense,这款应用融合了大型语言模型(LLMs)和视觉语言模型(VLMs)等尖端人工智能技术,致力于为视觉障碍者提供更精准的物体识别和导航服务。
NaviSense 的创新之处在于其采用了先进的 AI 技术,能够实时处理环境信息并识别物体,而无需预先加载物体模型。这一突破性设计显著提升了用户的使用灵活性和效率。应用程序通过语音指令和手机的运动传感器,不仅能识别目标物体,还能引导用户的手部精确找到物体位置。
该团队负责人 Vijaykrishnan Narayanan 教授指出,现有的视觉辅助工具存在诸多局限,如需要现场支持团队介入可能引发的隐私问题,或自动化服务在识别精度上的不足。NaviSense 通过引入 LLMs 和 VLMs,有效解决了这些问题。
在开发过程中,研究团队深入访谈了视觉障碍者,充分了解他们的实际需求。基于这些反馈,NaviSense 特别设计了对话功能,当无法准确理解用户请求时,会通过提问来缩小搜索范围。此外,应用程序还能实时监测用户手部动作,提供精确的位置反馈。
测试结果显示,NaviSense 在物体识别准确性和搜索效率方面均优于现有商业产品。参与测试的 12 名用户在受控环境中的体验反馈积极,其中一位用户特别赞赏了应用程序提供的方位提示功能。
目前,研究团队正在优化应用程序的功耗,以减少对智能手机电池的消耗,同时进一步提高 LLM 和 VLM 的效率。Narayanan 教授表示,这项技术已接近商业发布阶段,团队将继续优化工具,为视觉障碍社区提供更优质的服务。
该研究成果在 2025 年 10 月 26 日至 29 日于丹佛举行的计算机协会 SIGACCESS ASSETS 会议上展示,并荣获最佳观众选择海报奖。相关详细信息已发表在会议论文集中。