微软Azure AI发布新型视觉基础模型Florence-2

163次阅读
没有评论

共计 771 个字符,预计需要花费 2 分钟才能阅读完成。

2024 年 6 月 19 日 10:53 AM

微软 Azure AI 发布新型视觉基础模型 Florence-2 Image Credit: mnbb // Getty Images

今日,微软的 Azure AI 团队在 Hugging Face 上发布了一个新的视觉基础模型 Florence-2。该模型采用宽松的 MIT 许可证,能够通过统一的基于提示的表示处理各种视觉和视觉语言任务。它有两个版本——232M 和 771M 参数——并且在诸如字幕生成、物体检测、视觉定位和分割等任务上表现出色,与许多大型视觉模型相比,性能相当或更优。

Florence- 2 的独特之处是什么?

如今,大型语言模型(LLMs)是企业运营的核心。一个模型可以在许多情况下提供摘要、撰写营销文案甚至处理客户服务。跨领域和任务的适应性水平令人惊叹。但这种成功也让研究人员思考:视觉模型,这些主要是任务特定的,能否做到同样的事情?

核心挑战与解决方案

核心上,视觉任务比基于文本的自然语言处理(NLP)更复杂。它们需要全面的感知能力。为了解决这个问题,微软首先使用专用模型生成一个名为 FLD-5B 的视觉数据集。然后,使用这些数据,训练了 Florence-2,它使用序列到序列架构,整合了图像编码器和多模态编码器 - 解码器。这使得模型能够处理各种视觉任务,而无需进行特定于任务的架构修改。

性能优于更大的模型

当使用图像和文本输入提示时,Florence- 2 处理各种任务,包括物体检测、字幕生成、视觉定位和视觉问答。更重要的是,它以与许多更大模型相当或更好的质量提供这些功能。目前,232M 和 771M 版本的预训练和微调 Florence- 2 均在 Hugging Face 上以宽松的 MIT 许可证提供,允许无限制地分发和修改用于商业或私人用途。

开发者将如何利用它并减少对不同任务的不同视觉模型的需求,这将是一件有趣的事情。小型、任务无关的模型不仅可以节省开发者使用不同模型的需求,还可以大幅降低计算成本。

正文完
 0
admin-gah
版权声明:本文于2024-06-20转载自VentureBeat,共计771字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码