人类在社交互动理解上仍优于AI,研究揭示关键差距

17次阅读
没有评论

共计 1006 个字符,预计需要花费 3 分钟才能阅读完成。

约翰霍普金斯大学的最新研究显示,人类在描述和解释动态场景中的社交互动方面显著优于当前的人工智能模型。这一发现对自动驾驶汽车、辅助机器人等依赖 AI 系统在现实世界中导航的技术具有重要意义。

研究团队由约翰霍普金斯大学认知科学助理教授 Leyla Isik 领导,发现人工智能系统在理解与人类互动所需的社会动态和背景方面存在明显不足。Isik 教授指出:“例如,自动驾驶汽车的 AI 需要识别人类司机和行人的意图、目标和行为。我们希望它能预测行人的移动方向,或判断两个人是在交谈还是准备过马路。这些能力对 AI 与人类互动至关重要,但我们的研究表明,目前的系统还无法做到这一点。”

人类在社交互动理解上仍优于 AI,研究揭示关键差距

研究共同第一作者、博士生 Kathy Garcia 将于 4 月 24 日在国际学习表征会议上展示这些研究成果。研究过程中,团队让人类参与者观看三秒钟的视频片段,并对理解社交互动的重要特征进行评分。这些片段包括人们相互互动、进行并行活动或独立进行活动。

随后,研究人员要求超过 350 个 AI 语言、视频和图像模型预测人类如何判断这些视频,以及他们的大脑在观看时的反应。对于大型语言模型,研究人员让 AI 评估人类撰写的简短描述。

研究结果显示,人类参与者在所有问题上大多达成一致,而 AI 模型无论其规模或训练数据如何,都无法做到这一点。视频模型无法准确描述人们在视频中的行为,图像模型也无法可靠地预测人们是否在交流。虽然语言模型在预测人类行为方面表现较好,视频模型在预测大脑神经活动方面表现更佳,但整体而言,AI 的表现仍远不及人类。

Garcia 表示:“仅仅看到图像并识别物体和面孔是不够的。这是第一步,它让我们在 AI 领域取得了长足进步。但现实生活并不是静态的。我们需要 AI 理解场景中正在展开的故事。理解社交互动的关系、背景和动态是下一步,而这项研究表明,AI 模型开发可能存在盲点。”

研究人员认为,这一差距源于 AI 神经网络的基础架构。当前 AI 系统主要受到处理静态图像的大脑部分的启发,而处理动态社交场景的大脑区域则完全不同。

Isik 教授总结道:“有很多细微差别,但最大的结论是,没有一个 AI 模型能够像处理静态场景那样,在所有方面匹配人类大脑和行为对场景的反应。我认为人类处理场景的方式中有些根本的东西是这些模型所缺失的。”

这项研究揭示了当前 AI 系统在处理复杂社交互动方面的局限性,为未来 AI 技术的发展指明了方向。随着 AI 在现实世界中的应用日益广泛,解决这一差距将成为推动技术发展的关键。

正文完
 0
admin-gah
版权声明:本文于2025-04-25转载自ScienceDaily,共计1006字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码