ChatGPT 图像生成功能全面升级，用户创作更自由

178次阅读

共计 1726 个字符，预计需要花费 5 分钟才能阅读完成。

OpenAI 今日宣布，将全新的图像生成功能直接集成到 ChatGPT 中，这一功能被命名为“ChatGPT 中的图像”。用户现在可以通过 GPT-4o 在 ChatGPT 中生成图像。

此次发布的初始版本专注于图像生成，适用于 ChatGPT Plus、Pro、Team 以及免费订阅层级。OpenAI 发言人 Taya Christianson 向 _The Verge_ 表示，免费层级的使用限制与 DALL-E 相同，但她补充道，“目前没有具体数字可以分享”，且“这些限制可能会根据需求随时间变化”。根据 ChatGPT 的常见问题解答，免费用户此前每天可以使用 DALL·E 3 生成“三张图像”。至于 DALL-E 的未来，Christianson 表示，“粉丝”仍然可以通过自定义 GPT 访问。

研究负责人 Gabriel Goh 告诉 _The Verge_，“该模型相较于之前的版本是一个重大进步”，并指出团队利用了 GPT-4o 的“全模态”功能——即能够生成文本、图像、音频和视频等任何类型数据的模型——作为该功能的基础。

Goh 特别强调了“绑定”功能的改进，即 AI 图像生成器如何正确维护属性和对象之间的关系。例如，绑定功能较差的模型可能会收到生成蓝色星星加红色三角形的提示，却生成红色星星而没有三角形。Goh 表示，大多数图像模型在处理多个对象时（通常在 5 到 8 个之间）都会遇到困难，经常混淆颜色和形状。而这款新的图像生成工具能够正确绑定 15 到 20 个对象的属性而不会混淆，在准确性和可靠性方面有了显著提升。

用户还会注意到文本渲染的改进，这使得在图像上生成连贯且无拼写错误的文本变得更加容易（在现有工具中，文本往往容易变得混乱）。Goh 表示，正确渲染文本是一个重大挑战。如果小标题或文本元素出现拼写错误或错误，整个图像可能会变得无法使用。

“这是一个迭代过程，花了很多很多个月才做好，”Goh 说。虽然并不完美，但他表示团队已经达到了文本质量始终可用的程度（其容易出错的地方是极小的文本）。“这只是许多个月的小改进。”

该系统采用自回归方法——从左到右、从上到下依次生成图像，类似于文本的书写方式——而不是大多数图像生成器（如 DALL-E）使用的扩散模型技术，后者一次性生成整个图像。Goh 推测，这种技术差异可能是 ChatGPT 图像生成功能在文本渲染和绑定能力上表现更好的原因。

在功能发布前的简报中，团队展示了多个示例，展示了系统的能力，包括带有正确标注组件的牛顿棱镜实验等科学图表、角色和文本气泡一致的多格漫画，以及带有准确文本的信息海报。他们还强调了实际应用，如为贴纸、餐厅菜单和徽标创建透明背景图像。

“如果我要绘制图像，我会受到自身技能的限制……但也会运用我积累的所有世界知识，”ChatGPT 多模态产品负责人 Jackie Shannon 解释道。“该模型将世界知识带入方程，因此当你要求生成牛顿棱镜实验的图像时，你不需要解释它是什么就能得到图像。”

新系统生成图像的时间比以前更长，但 OpenAI 认为这是一个值得的权衡。“虽然我们在延迟方面还有改进空间……但这些图像的质量、能力、世界知识确实弥补了用户等待的额外时间，”Shannon 说。

当被问及安全措施时——提到使用微软模型生成的泰勒·斯威夫特裸体深度伪造、xAI 的 Grok 生成卡玛拉·哈里斯持枪图像的能力，以及 Google Gemini 去除水印的技巧——OpenAI 团队强调，系统包含强大的安全措施以防止滥用。Shannon 表示，该工具可防止水印去除、阻止生成色情深度伪造，并拒绝儿童性虐待材料生成请求。

OpenAI 的新图像生成系统不包含视觉水印或显示图像为 AI 生成的标识。然而，Shannon 解释说，“我们生成的所有图像都将包含标准的 C2PA 元数据，以标记图像由 OpenAI 创建”，并且公司“还将有一些内部工具能够查找图像”。

“最终，没有系统能在这方面做到完美，但我们正在不断改进我们的安全措施，并认为这是一个起点，”Shannon 补充道。“关于 ChatGPT 生成的所有图像，有一点是真实的：用户拥有它们，并且可以自由地按照我们的使用政策使用它们。”

更新于 3 月 25 日： _本文最初将 ChatGPT 中的图像生成功能称为 Sora；其正式名称为 ChatGPT 中的图像。_

正文完