共计 717 个字符,预计需要花费 2 分钟才能阅读完成。
在人工智能(AI)领域,视觉识别一直是一个重要的研究方向。然而,瑞士洛桑联邦理工学院(EPFL)的一项最新研究揭示了 AI 在处理不完整视觉信息时的局限性,特别是在“轮廓整合”方面。这项研究不仅指出了 AI 与人类视觉的差距,还提出了解决方案。
人类大脑具备出色的“轮廓整合”能力,即使物体被部分遮挡或破碎成片段,也能轻松识别出完整物体。这种能力在日常生活中无处不在,比如在人群中认出朋友或识别熟悉的形状。然而,即使是最先进的 AI 系统,也难以从破碎的视觉信息中进行泛化。
EPFL 的 NeuroAI Lab 团队,由 Martin Schrimpf 领导,系统比较了人类和 AI 在处理视觉难题时的表现。研究团队开发了一系列识别测试,要求人类和 1,000 多个人工神经网络识别缺失或片段化的轮廓物体。结果显示,在轮廓整合方面,人类始终优于 AI。
实验结果表明,即使物体的大部分轮廓缺失,人类的准确率仍能达到 50%。相比之下,AI 模型在相同情况下往往会陷入随机猜测。只有经过数十亿张图像训练的模型才能接近人类的表现,即便如此,它们也必须专门针对研究中的图像进行调整。
研究还发现,当片段指向同一方向时,人类表现出一种自然的“整合偏差”。经过训练以发展类似偏差的 AI 模型在面对图像失真时表现更好。专门为整合轮廓设计的 AI 系统不仅提高了准确性,还使它们更关注物体的形状,而不是表面纹理。
这些发现表明,轮廓整合并非天生的能力,而是可以通过经验学习。对于依赖计算机视觉的行业,如自动驾驶汽车或医学成像,构建更像人类看世界的 AI 可能意味着更安全、更可靠的技术。研究团队建议,缩小 AI 与人类视觉差距的最佳方法是为机器提供更“类人”的视觉训练,包括多张物体常被部分遮挡的现实世界图像。