微软Azure AI发布新型视觉基础模型Florence-2

201次阅读

共计 771 个字符，预计需要花费 2 分钟才能阅读完成。

2024 年 6 月 19 日 10:53 AM

微软 Azure AI 发布新型视觉基础模型 Florence-2 Image Credit: mnbb // Getty Images

今日，微软的 Azure AI 团队在 Hugging Face 上发布了一个新的视觉基础模型 Florence-2。该模型采用宽松的 MIT 许可证，能够通过统一的基于提示的表示处理各种视觉和视觉语言任务。它有两个版本——232M 和 771M 参数——并且在诸如字幕生成、物体检测、视觉定位和分割等任务上表现出色，与许多大型视觉模型相比，性能相当或更优。

如今，大型语言模型（LLMs）是企业运营的核心。一个模型可以在许多情况下提供摘要、撰写营销文案甚至处理客户服务。跨领域和任务的适应性水平令人惊叹。但这种成功也让研究人员思考：视觉模型，这些主要是任务特定的，能否做到同样的事情？

核心上，视觉任务比基于文本的自然语言处理（NLP）更复杂。它们需要全面的感知能力。为了解决这个问题，微软首先使用专用模型生成一个名为 FLD-5B 的视觉数据集。然后，使用这些数据，训练了 Florence-2，它使用序列到序列架构，整合了图像编码器和多模态编码器 - 解码器。这使得模型能够处理各种视觉任务，而无需进行特定于任务的架构修改。

当使用图像和文本输入提示时，Florence- 2 处理各种任务，包括物体检测、字幕生成、视觉定位和视觉问答。更重要的是，它以与许多更大模型相当或更好的质量提供这些功能。目前，232M 和 771M 版本的预训练和微调 Florence- 2 均在 Hugging Face 上以宽松的 MIT 许可证提供，允许无限制地分发和修改用于商业或私人用途。

开发者将如何利用它并减少对不同任务的不同视觉模型的需求，这将是一件有趣的事情。小型、任务无关的模型不仅可以节省开发者使用不同模型的需求，还可以大幅降低计算成本。

正文完

发表至： AI行业动态

2024-06-20 21:11

0