共计 1726 个字符,预计需要花费 5 分钟才能阅读完成。
OpenAI 今日宣布,将全新的图像生成功能直接集成到 ChatGPT 中,这一功能被命名为“ChatGPT 中的图像”。用户现在可以通过 GPT-4o 在 ChatGPT 中生成图像。
此次发布的初始版本专注于图像生成,适用于 ChatGPT Plus、Pro、Team 以及免费订阅层级。OpenAI 发言人 Taya Christianson 向 _The Verge_ 表示,免费层级的使用限制与 DALL-E 相同,但她补充道,“目前没有具体数字可以分享”,且“这些限制可能会根据需求随时间变化”。根据 ChatGPT 的常见问题解答,免费用户此前每天可以使用 DALL·E 3 生成“三张图像”。至于 DALL-E 的未来,Christianson 表示,“粉丝”仍然可以通过自定义 GPT 访问。
研究负责人 Gabriel Goh 告诉 _The Verge_,“该模型相较于之前的版本是一个重大进步”,并指出团队利用了 GPT-4o 的“全模态”功能——即能够生成文本、图像、音频和视频等任何类型数据的模型——作为该功能的基础。
Goh 特别强调了“绑定”功能的改进,即 AI 图像生成器如何正确维护属性和对象之间的关系。例如,绑定功能较差的模型可能会收到生成蓝色星星加红色三角形的提示,却生成红色星星而没有三角形。Goh 表示,大多数图像模型在处理多个对象时(通常在 5 到 8 个之间)都会遇到困难,经常混淆颜色和形状。而这款新的图像生成工具能够正确绑定 15 到 20 个对象的属性而不会混淆,在准确性和可靠性方面有了显著提升。
用户还会注意到文本渲染的改进,这使得在图像上生成连贯且无拼写错误的文本变得更加容易(在现有工具中,文本往往容易变得混乱)。Goh 表示,正确渲染文本是一个重大挑战。如果小标题或文本元素出现拼写错误或错误,整个图像可能会变得无法使用。
“这是一个迭代过程,花了很多很多个月才做好,”Goh 说。虽然并不完美,但他表示团队已经达到了文本质量始终可用的程度(其容易出错的地方是极小的文本)。“这只是许多个月的小改进。”
该系统采用自回归方法——从左到右、从上到下依次生成图像,类似于文本的书写方式——而不是大多数图像生成器(如 DALL-E)使用的扩散模型技术,后者一次性生成整个图像。Goh 推测,这种技术差异可能是 ChatGPT 图像生成功能在文本渲染和绑定能力上表现更好的原因。
在功能发布前的简报中,团队展示了多个示例,展示了系统的能力,包括带有正确标注组件的牛顿棱镜实验等科学图表、角色和文本气泡一致的多格漫画,以及带有准确文本的信息海报。他们还强调了实际应用,如为贴纸、餐厅菜单和徽标创建透明背景图像。
“如果我要绘制图像,我会受到自身技能的限制……但也会运用我积累的所有世界知识,”ChatGPT 多模态产品负责人 Jackie Shannon 解释道。“该模型将世界知识带入方程,因此当你要求生成牛顿棱镜实验的图像时,你不需要解释它是什么就能得到图像。”
新系统生成图像的时间比以前更长,但 OpenAI 认为这是一个值得的权衡。“虽然我们在延迟方面还有改进空间……但这些图像的质量、能力、世界知识确实弥补了用户等待的额外时间,”Shannon 说。
当被问及安全措施时——提到使用微软模型生成的泰勒·斯威夫特裸体深度伪造、xAI 的 Grok 生成卡玛拉·哈里斯持枪图像的能力,以及 Google Gemini 去除水印的技巧——OpenAI 团队强调,系统包含强大的安全措施以防止滥用。Shannon 表示,该工具可防止水印去除、阻止生成色情深度伪造,并拒绝儿童性虐待材料生成请求。
OpenAI 的新图像生成系统不包含视觉水印或显示图像为 AI 生成的标识。然而,Shannon 解释说,“我们生成的所有图像都将包含标准的 C2PA 元数据,以标记图像由 OpenAI 创建”,并且公司“还将有一些内部工具能够查找图像”。
“最终,没有系统能在这方面做到完美,但我们正在不断改进我们的安全措施,并认为这是一个起点,”Shannon 补充道。“关于 ChatGPT 生成的所有图像,有一点是真实的:用户拥有它们,并且可以自由地按照我们的使用政策使用它们。”
更新于 3 月 25 日: _本文最初将 ChatGPT 中的图像生成功能称为 Sora;其正式名称为 ChatGPT 中的图像。_