月之暗面Kimi K2.5发布:看视频就能编程,AI视觉开发新突破

10次阅读
没有评论

共计 1257 个字符,预计需要花费 4 分钟才能阅读完成。

人工智能领域再迎重磅更新。获得阿里巴巴支持的中国 AI 初创公司月之暗面,于近日正式发布了其最新的开源大模型 Kimi K2.5。该公司将其誉为迄今为止全球“最强大的开源模型”,其核心亮点在于将“视觉编程”能力推向了一个新高度,让用户仅凭上传一个视频或图片就能生成可交互的网页代码,实现真正意义上的“氛围编程”。

Kimi K2.5 基于去年亮相的 Kimi K2 大语言模型构建,其编码能力使其有潜力与 OpenAI、谷歌等公司的顶尖专有模型一较高下。根据官方发布的数据,Kimi K2.5 在 SWE-Bench Verified 和 SWE-Bench Multilingual 等权威编码基准测试中,得分已与行业前沿模型相当。

月之暗面 Kimi K2.5 发布:看视频就能编程,AI 视觉开发新突破

视觉编程:从看到代码的一步跨越

真正让 Kimi K2.5 可能脱颖而出的是其原生的多模态能力。该模型使用了高达 15 万亿个文本和视觉标记进行预训练,能够理解图像和视频中的视觉信息,并直接将其转化为可用的前端代码。

在官方演示中,模型仅根据一段记录用户滚动浏览某个网站的视频,就成功生成了新网站的代码草稿,基本复现了原网站的整体布局和美感。这意味着,设计师或产品经理只需录制一个界面演示视频,AI 就能自动生成对应的网页框架,大大降低了从视觉设计到代码实现的门槛。

当然,以当前 AI 的典型风格,生成的代码也会出现一些轻微的视觉错误,例如将某些图形元素描绘得不够精确。但其核心价值在于省去了传统开发流程中“手动将设计稿转化为代码”的繁琐中间步骤。现有的 ChatGPT、Claude 等模型虽然也能根据截图生成原始代码,但通常需要开发者进行大量调试和整合。而月之暗面新模型的目标是实现更直接的“图像 / 视频到可运行产品”的生成。

目前,Kimi K2.5 强大的编码能力已通过名为 Kimi Code 的开源平台提供,可以轻松集成到 Cursor、VSCode 和 Zed 等主流开发环境中。开发者也可以通过 Kimi.com 官网、Kimi App 或其 API 直接访问该模型。

智能体集群:并行处理复杂任务

除了革命性的视觉编程能力,月之暗面还同步发布了一项名为“智能体集群”的研究预览功能。这项功能能够协调多达一百个“子智能体”并行工作,共同处理一个复杂的多步骤任务。

这种并行处理方式可以显著提升任务执行效率。据官方称,与传统的顺序执行相比,“智能体集群”最多可将端到端的整体运行时间减少 80%。这对于需要大量计算或复杂逻辑推理的任务来说,是一个巨大的性能提升。

目前,拥有月之暗面“Allegretto”(月费 31 美元)或“Vivace”(月费 159 美元)账户的用户,可以在 Kimi 网站上尝鲜“智能体集群”的测试版功能,只需在提示框的模型下拉菜单中选择“K2.5 Agent Swarm (Beta)”即可。

尽管 Kimi K2.5 这类“看视频编程”能力的实际应用场景和商业价值仍有待市场观察,但它无疑为“氛围编程”和低代码开发工具指明了一个充满想象力的方向。它极大地降低了通过视觉表达创作意图的门槛,若其能力在实践中被证明稳定可靠,很可能会引发整个 AI 辅助开发领域的效仿与跟进。

正文完
 0
admin-gah
版权声明:本文于2026-01-28转载自Zdnet,共计1257字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码