共计 955 个字符,预计需要花费 3 分钟才能阅读完成。
图片来源:Jake Peterson/Google
谷歌最新的 AI 图像生成模型 Imagen 3 目前在美国已公开可用,只需一个免费的谷歌账户即可尝试。据 VentureBeat 报道,该公司本周悄然开放了其模型,并在周二发布了一篇研究论文。这是继谷歌在五月份的 Google I/ O 大会上首次宣布这一新模型后的两个月。
在机器学习平台 Hugging Face 上的一篇研究论文中,谷歌研究人员表示:“我们介绍了 Imagen 3,这是一个从文本提示生成高质量图像的潜在扩散模型。我们描述了我们的质量和责任评估。在评估时,Imagen 3 优于其他最先进的(SOTA)模型。此外,我们讨论了围绕安全性和表达的问题,以及我们使用的方法来最小化我们模型的潜在危害。”
根据我的一些初步测试,这个模型似乎相当可靠。当要求生成逼真的图像时,结果质量相对较高,有些逼真的尝试在第一眼可能会骗过人们。(当我提示模型创建 35mm 胶片效果时,我对图像质量印象深刻。)Imagen 3 还突出了影响输出的特定提示部分,因此如果你不喜欢图像的输出方式,可以调整这些部分。
然而,Imagen 3 的输出显示出 AI 生成图像的明显迹象。在一些照片中,手有太多手指,脸部扭曲,文字没有意义。(尽管模型能够以侵犯商标的准确性再现“可口可乐”和“佳能”的标志。)
谷歌并非本周唯一发布新图像模型的科技公司。X 公司最近为 Grok,其 AI 聊天机器人,推送了一个新的测试版,并随之推出了一个限制非常少的图像生成器。用户(特别是 Lifehacker 的 Michelle Ehrhardt)已经使用 Grok 生成了从戴着 MAGA 帽子的泰勒·斯威夫特到手持 AK-47 的皮卡丘等各种图像。
另一方面,Imagen 3 表现出明显的防护措施。当我尝试用任何有争议的内容提示谷歌的图像生成器时,它会停止自己并礼貌地引导我到 Imagen 3 的常见问题解答,以理解为什么我的提示不合适。它也拒绝生成受版权保护的内容,但可以通过正确的提示诱导其生成。如上所述,我能够生成标志,甚至能够让它生成像马里奥和皮卡丘这样的受商标保护的角色,尽管我无法让它们参与枪战。
如何尝试 Imagen 3
谷歌的新 AI 图像生成器对拥有谷歌账户的美国用户免费开放。要尝试,请前往谷歌的 AI 测试厨房中的 ImageFX。使用你的谷歌账户登录,然后开始提示。