麻省理工突破AI个性化定位技术,提升视觉语言模型12%准确率

3次阅读
没有评论

共计 1130 个字符,预计需要花费 3 分钟才能阅读完成。

麻省理工学院的研究团队近日在生成式 AI 领域取得重大突破,开发出一种创新方法,显著提升了视觉语言模型(VLM)在个性化对象定位方面的能力。这一技术突破将为宠物监控、生态监测以及辅助技术等领域带来革命性变革。

由麻省理工学院和 MIT-IBM Watson AI 实验室的专家组成的研究团队,针对当前 VLM 在识别特定对象方面的不足,提出了一种全新的训练方法。该方法利用精心准备的视频跟踪数据,通过多个帧跟踪同一对象,使模型能够专注于上下文线索而非依赖记忆知识。

 麻省理工突破 AI 个性化定位技术,提升视觉语言模型 12% 准确率

研究结果显示,使用新方法重新训练的模型在定位个性化对象任务上表现优异,超越了现有最先进的系统。同时,该技术保留了模型在其他方面的通用能力。这一进步为未来 AI 系统在跨时间跟踪特定对象(如儿童背包)或生态监测中定位特定物种等应用场景提供了新的可能性。

项目负责人、麻省理工学院博士后 Jehanzeb Mirza 表示:’ 我们的最终目标是让这些模型能够像人类一样从上下文中学习。这种能力将使模型无需为每个新任务重新训练,仅需提供少量示例即可推断出如何执行任务。’

研究过程中,团队发现大型语言模型(LLM)在从上下文中学习方面表现出色,但视觉语言模型(VLM)却未能继承这一能力。为此,研究人员专注于改进用于重新训练现有 VLM 的数据,这一过程被称为微调。

传统微调数据通常缺乏连贯性,导致模型难以在多个图像中识别同一对象。为解决这一问题,研究团队开发了一个新的数据集,该数据集包含显示同一对象在不同场景中移动的视频片段。通过在不同上下文中使用同一对象的多个图像,模型被鼓励通过专注于上下文来一致地定位感兴趣的对象。

然而,研究人员发现 VLM 存在 ’ 作弊 ’ 倾向,即利用预训练知识而非上下文线索来识别对象。为克服这一挑战,团队在数据集中使用伪名称代替实际对象类别名称,迫使模型专注于上下文信息。

经过多次实验,研究团队成功提高了 VLM 的个性化定位准确性,平均提升约 12%。在使用伪名称数据集时,性能提升更达到了 21%。此外,随着模型规模的增加,该技术带来的性能提升也更为显著。

展望未来,研究团队计划进一步探索 VLM 未能继承 LLM 上下文学习能力的潜在原因,并研究在不使用新数据重新训练的情况下提高 VLM 性能的机制。

未参与该研究的 Mila-Quebec 人工智能研究所博士后 Saurav Jha 评价道:’ 这项工作将少样本个性化对象定位重新定义为指令微调问题,并引入了一个新的基准。它为增强视觉语言基础模型的广泛采用提供了实用、以数据为中心的方案。’

该研究由 MIT-IBM Watson AI 实验室资助,其成果将在即将召开的国际计算机视觉会议上展示。这一突破性进展有望推动 AI 技术在现实世界工作流程中的广泛应用,包括机器人、增强现实助手和创意工具等领域。

正文完
 0
admin-gah
版权声明:本文于2025-10-17转载自Mirage News,共计1130字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码