共计 773 个字符,预计需要花费 2 分钟才能阅读完成。
近期,AI 图像编辑领域迎来了一项重大突破。谷歌旗下的 DeepMind 团队推出了一款名为“纳米香蕉”的创新模型,这一模型不仅在技术上取得了显著进步,更是在 LMArena 图像编辑排行榜上荣登榜首。
“纳米香蕉”模型,技术上称为 Gemini 2.5 Flash Image,其核心优势在于编辑过程中保持图像细节的一致性。与传统的生成系统不同,该模型能够在每次编辑时记住并保留图像的特定元素,而不是随机生成新的内容。这一特性使得 Gemini 2.5 Flash Image 在 AI 图像编辑领域脱颖而出。
谷歌在今年早些时候首次在 Gemini 中引入了图像编辑功能,而“纳米香蕉”模型的加入,无疑将这一功能提升到了新的高度。用户现在可以通过简单的提示来修改图像,无需在 Photoshop 等复杂软件中手动操作。例如,用户可以上传一张照片,并尝试改变其风格或服装,如将某人重新想象为斗牛士或 90 年代情景喜剧中的角色。由于“纳米香蕉”模型在编辑过程中保持一致性,结果仍然会像原始源图像中的人,即使连续进行多次编辑,情况也是如此。
此外,Gemini 增强的图像编辑功能还允许用户合并多张图像,作为选择新图像的素材。谷歌提供的示例中,分别拍摄了一位女性和一只狗的照片,并使用它们生成了一张狗被拥抱的新快照。这一功能展示了生成式 AI 在图像编辑中的最佳用途之一。
与谷歌其他 AI 图像生成模型一样,Gemini 2.5 Flash Image 的输出始终在角落带有可见的“AI”水印。该图像还具有不可见的 SynthID 数字水印,即使经过适度修改也能检测到。
用户今天可以在 Gemini 应用中尝试新的原生图像编辑功能。谷歌表示,新的图像模型也将很快在 Gemini API、AI Studio 和 Vertex AI 中向开发者推出。这一创新不仅为 AI 图像编辑解锁了新的可能性,也为用户提供了更加便捷和高效的图像处理体验。