月之暗面Kimi K2.5发布：看视频就能编程，AI视觉开发新突破

10次阅读

共计 1257 个字符，预计需要花费 4 分钟才能阅读完成。

人工智能领域再迎重磅更新。获得阿里巴巴支持的中国 AI 初创公司月之暗面，于近日正式发布了其最新的开源大模型 Kimi K2.5。该公司将其誉为迄今为止全球“最强大的开源模型”，其核心亮点在于将“视觉编程”能力推向了一个新高度，让用户仅凭上传一个视频或图片就能生成可交互的网页代码，实现真正意义上的“氛围编程”。

Kimi K2.5 基于去年亮相的 Kimi K2 大语言模型构建，其编码能力使其有潜力与 OpenAI、谷歌等公司的顶尖专有模型一较高下。根据官方发布的数据，Kimi K2.5 在 SWE-Bench Verified 和 SWE-Bench Multilingual 等权威编码基准测试中，得分已与行业前沿模型相当。

月之暗面 Kimi K2.5 发布：看视频就能编程，AI 视觉开发新突破

视觉编程：从看到代码的一步跨越

真正让 Kimi K2.5 可能脱颖而出的是其原生的多模态能力。该模型使用了高达 15 万亿个文本和视觉标记进行预训练，能够理解图像和视频中的视觉信息，并直接将其转化为可用的前端代码。

在官方演示中，模型仅根据一段记录用户滚动浏览某个网站的视频，就成功生成了新网站的代码草稿，基本复现了原网站的整体布局和美感。这意味着，设计师或产品经理只需录制一个界面演示视频，AI 就能自动生成对应的网页框架，大大降低了从视觉设计到代码实现的门槛。

当然，以当前 AI 的典型风格，生成的代码也会出现一些轻微的视觉错误，例如将某些图形元素描绘得不够精确。但其核心价值在于省去了传统开发流程中“手动将设计稿转化为代码”的繁琐中间步骤。现有的 ChatGPT、Claude 等模型虽然也能根据截图生成原始代码，但通常需要开发者进行大量调试和整合。而月之暗面新模型的目标是实现更直接的“图像 / 视频到可运行产品”的生成。

目前，Kimi K2.5 强大的编码能力已通过名为 Kimi Code 的开源平台提供，可以轻松集成到 Cursor、VSCode 和 Zed 等主流开发环境中。开发者也可以通过 Kimi.com 官网、Kimi App 或其 API 直接访问该模型。

智能体集群：并行处理复杂任务

除了革命性的视觉编程能力，月之暗面还同步发布了一项名为“智能体集群”的研究预览功能。这项功能能够协调多达一百个“子智能体”并行工作，共同处理一个复杂的多步骤任务。

这种并行处理方式可以显著提升任务执行效率。据官方称，与传统的顺序执行相比，“智能体集群”最多可将端到端的整体运行时间减少 80%。这对于需要大量计算或复杂逻辑推理的任务来说，是一个巨大的性能提升。

目前，拥有月之暗面“Allegretto”（月费 31 美元）或“Vivace”（月费 159 美元）账户的用户，可以在 Kimi 网站上尝鲜“智能体集群”的测试版功能，只需在提示框的模型下拉菜单中选择“K2.5 Agent Swarm (Beta)”即可。

尽管 Kimi K2.5 这类“看视频编程”能力的实际应用场景和商业价值仍有待市场观察，但它无疑为“氛围编程”和低代码开发工具指明了一个充满想象力的方向。它极大地降低了通过视觉表达创作意图的门槛，若其能力在实践中被证明稳定可靠，很可能会引发整个 AI 辅助开发领域的效仿与跟进。

正文完