谷歌Imagen 3 AI图像生成模型现已公开可用

280次阅读

共计 955 个字符，预计需要花费 3 分钟才能阅读完成。

谷歌 Imagen 3 AI 图像生成模型现已公开可用图片来源：Jake Peterson/Google

谷歌最新的 AI 图像生成模型 Imagen 3 目前在美国已公开可用，只需一个免费的谷歌账户即可尝试。据 VentureBeat 报道，该公司本周悄然开放了其模型，并在周二发布了一篇研究论文。这是继谷歌在五月份的 Google I/ O 大会上首次宣布这一新模型后的两个月。

在机器学习平台 Hugging Face 上的一篇研究论文中，谷歌研究人员表示：“我们介绍了 Imagen 3，这是一个从文本提示生成高质量图像的潜在扩散模型。我们描述了我们的质量和责任评估。在评估时，Imagen 3 优于其他最先进的（SOTA）模型。此外，我们讨论了围绕安全性和表达的问题，以及我们使用的方法来最小化我们模型的潜在危害。”

根据我的一些初步测试，这个模型似乎相当可靠。当要求生成逼真的图像时，结果质量相对较高，有些逼真的尝试在第一眼可能会骗过人们。（当我提示模型创建 35mm 胶片效果时，我对图像质量印象深刻。）Imagen 3 还突出了影响输出的特定提示部分，因此如果你不喜欢图像的输出方式，可以调整这些部分。

谷歌 Imagen 3 AI 图像生成模型现已公开可用

然而，Imagen 3 的输出显示出 AI 生成图像的明显迹象。在一些照片中，手有太多手指，脸部扭曲，文字没有意义。（尽管模型能够以侵犯商标的准确性再现“可口可乐”和“佳能”的标志。）

谷歌 Imagen 3 AI 图像生成模型现已公开可用

谷歌并非本周唯一发布新图像模型的科技公司。X 公司最近为 Grok，其 AI 聊天机器人，推送了一个新的测试版，并随之推出了一个限制非常少的图像生成器。用户（特别是 Lifehacker 的 Michelle Ehrhardt）已经使用 Grok 生成了从戴着 MAGA 帽子的泰勒·斯威夫特到手持 AK-47 的皮卡丘等各种图像。

另一方面，Imagen 3 表现出明显的防护措施。当我尝试用任何有争议的内容提示谷歌的图像生成器时，它会停止自己并礼貌地引导我到 Imagen 3 的常见问题解答，以理解为什么我的提示不合适。它也拒绝生成受版权保护的内容，但可以通过正确的提示诱导其生成。如上所述，我能够生成标志，甚至能够让它生成像马里奥和皮卡丘这样的受商标保护的角色，尽管我无法让它们参与枪战。

谷歌 Imagen 3 AI 图像生成模型现已公开可用