共计 1975 个字符,预计需要花费 5 分钟才能阅读完成。
微软并未因其与 OpenAI 的合作成果而满足于当前成就。
相反,这家总部位于华盛顿州雷德蒙德的公司今日推出了其 Phi 系列语言 / 多模态 AI 中的 3 个新模型。
这三个新的 Phi 3.5 模型包括 38.2 亿参数的 Phi-3.5-mini-instruct、419 亿参数的Phi-3.5-MoE-instruct 和 41.5 亿参数的Phi-3.5-vision-instruct,分别针对基础 / 快速推理、更强大的推理以及视觉(图像和视频分析)任务设计。
所有三个模型均可供开发者在 Hugging Face 上下载、使用和微调定制,遵循微软品牌的 MIT 许可证,允许无限制的商业使用和修改。
令人惊讶的是,这三个模型在多项第三方基准测试中均展现出接近最先进水平的性能,甚至在某些情况下超越了包括谷歌的 Gemini 1.5 Flash、Meta 的 Llama 3.1 以及 OpenAI 的 GPT-4o 在内的其他 AI 提供商。
这一性能结合宽松的开源许可政策,使得微软在社交网络 X 上受到赞誉:
微软刚刚发布了 Phi 3.5 mini、MoE 和 vision,支持 128K 上下文、多语言和 MIT 许可证!MoE 击败了 Gemini flash,Vision 与 GPT4o 竞争?
Mini 拥有 38 亿参数,击败了 Llama3.1 8B 和 Mistral 7B,并与 Mistral NeMo 12B 竞争… pic.twitter.com/7QJYOSSdyX
— Vaibhav (VB) Srivastav (@reach_vb) August 20, 2024
让我们根据发布在 Hugging Face 上的说明,简要回顾一下今天发布的每个新模型。
Phi-3.5 Mini Instruct:针对计算受限环境的优化
Phi-3.5 Mini Instruct 模型是一个轻量级 AI 模型,拥有 38 亿参数,专为遵循指令和 128k 令牌上下文长度支持而设计。
该模型非常适合在内存或计算受限的环境中需要强大推理能力的场景,包括代码生成、数学问题解决和基于逻辑的推理等任务。
尽管体积小巧,Phi-3.5 Mini Instruct 模型在多语言和多轮对话任务中表现出优异性能,较其前身有显著改进。
它在多个基准测试中展现出接近最先进的性能,并在测量“长上下文代码理解”的 RepoQA 基准测试中超越了其他类似大小的模型(Llama-3.1-8B-instruct 和 Mistral-7B-instruct)。
Phi-3.5 MoE:微软的“专家混合”
Phi-3.5 MoE(专家混合)模型是该公司在这一模型类别中的首个产品,它将多种不同类型的模型结合在一起,每种模型专门处理不同的任务。
该模型采用 42 亿活跃参数的架构,支持 128k 令牌上下文长度,为需求较高的应用提供可扩展的 AI 性能。然而,根据 HuggingFace 文档,它仅以 66 亿活跃参数运行。
Phi-3.5 MoE 旨在在各种推理任务中表现出色,在代码、数学和多语言语言理解方面提供强大性能,经常在特定基准测试中超越更大的模型,包括 RepoQA:
它还令人印象深刻地在 5 -shot MMLU(大规模多任务语言理解)中击败了 GPT-4o mini,涵盖 STEM、人文科学、社会科学等不同专业水平。
MoE 模型的独特架构使其能够在处理多种语言的复杂 AI 任务时保持效率。
Phi-3.5 Vision Instruct:高级多模态推理
Phi-3.5 Vision Instruct 模型是三者中的最后一个,它集成了文本和图像处理能力。
这种多模态模型特别适用于一般图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。
与 Phi-3.5 系列中的其他模型一样,Vision Instruct 支持 128k 令牌上下文长度,使其能够处理复杂的多帧视觉任务。
微软强调,该模型结合了合成和筛选的公开可用数据集进行训练,专注于高质量、推理密集型数据。
训练新的 Phi 三重奏
Phi-3.5 Mini Instruct 模型在 512 个 H100-80G GPU 上使用 3.4 万亿令牌进行了 10 天的训练,而 Vision Instruct 模型在 256 个 A100-80G GPU 上使用 5000 亿令牌进行了 6 天的训练。
Phi-3.5 MoE 模型采用混合专家架构,在 512 个 H100-80G GPU 上使用 4.9 万亿令牌进行了 23 天的训练。
MIT 许可证下的开源
所有三个 Phi-3.5 模型均在 MIT 许可证下提供,展示了微软对开源社区的支持。
该许可证允许开发者自由使用、修改、合并、发布、分发、再许可或销售软件副本。
许可证还包括一个免责声明,即软件“按原样”提供,不提供任何形式的担保。微软和其他版权持有者不对软件使用可能产生的任何索赔、损害或其他责任负责。
微软发布 Phi-3.5 系列标志着多语言和多模态 AI 发展的重要进展。
通过在开源许可证下提供这些模型,微软使开发者能够将尖端 AI 功能集成到他们的应用中,促进商业和研究领域的创新。