共计 940 个字符,预计需要花费 3 分钟才能阅读完成。
密歇根大学工程学院的研究团队近日开发出一种名为 H -CAST 的新型 AI 模型,该模型通过从宽泛到具体的层次树对图像进行分类,这一创新性方法在计算机视觉领域取得重要进展。
传统深度学习模型在图像分类时通常专注于细粒度识别,但在处理不完美图像时往往表现欠佳。密歇根大学计算机科学与工程教授 Stella Yu 指出:” 现实世界中的图像大多存在不完美,如果模型只关注细粒度分类,在图像信息不足时可能完全无法进行分类。”
H-CAST 模型通过层次分类方法有效解决了这一问题。与以往模型不同,H-CAST 采用自下而上的训练方式,从识别喙和翅膀等精细细节开始,逐步构建更粗糙的结构,从而实现更好的对齐和准确性。研究主要作者 Seulki Park 表示:” 我们发现跨级别的一致视觉基础可以产生巨大差异。通过鼓励模型以视觉一致的方式 ’ 看到 ’ 层次结构,我们希望推动更集成和可解释的识别系统的发展。”
该模型采用了无监督分割技术,这种通常用于识别大图像中结构的方法被创新性地应用于层次分类。研究团队在四个基准数据集上对 H -CAST 进行了测试,结果显示其在层次分类基准上优于零样本 CLIP 和最先进的基线模型。特别是在 BREEDS 数据集中,H-CAST 的全路径准确率比之前的最先进模型高出 6%,比基线模型高出 11%。
H-CAST 的应用前景广阔。在野生动物监测领域,它可以在无法精确识别物种时提供更粗略的预测;在自动驾驶领域,它能够帮助系统解释不完美的视觉输入,如被遮挡的行人或远处的车辆,从而做出更安全的决策。
Park 进一步解释道:” 人类会自然地退回到更粗略的概念。如果无法确定图像是否是彭布罗克柯基犬,我们仍然可以自信地说它是一只狗。但模型通常无法进行这种灵活的推理。我们希望最终构建一个可以像我们一样调整其预测级别的系统。”
这项研究已在国际学习表示会议(ICLR)上展示,相关论文发表在 arXiv 预印本服务器上。除了密歇根大学,加州大学伯克利分校、麻省理工学院和 Scaled Foundations 也参与了这项研究。模型训练和测试工作主要在密歇根大学的 ARC 高性能计算平台上完成。
这一突破性研究为计算机视觉领域带来了新的思路,有望推动 AI 系统在处理复杂视觉信息时更加灵活和准确,为人工智能在实际应用中的进一步发展奠定基础。