共计 1796 个字符,预计需要花费 5 分钟才能阅读完成。
近期,社交媒体上充斥着大量类似吉卜力工作室电影风格的图像。自拍照、家庭照片甚至表情包都被赋予了宫崎骏创立的日本动画公司特有的柔和粉彩调色板。这一现象源于 OpenAI 对 ChatGPT 的最新更新,显著提升了其图像生成能力,用户只需几秒钟就能创建出逼真的吉卜力风格图像。这一功能大受欢迎,甚至由于用户需求过大导致系统崩溃。
生成式人工智能(AI)系统,如 ChatGPT,最好被理解为“风格引擎”。现在,这些系统为用户提供了比以往更高的精确度和控制力,但也引发了关于版权和创作所有权的新问题。
生成式 AI 程序通过响应用户提示来生成输出,包括创建图像的提示。早期的 AI 图像生成器使用扩散模型,这些模型逐渐将随机的、嘈杂的数据精炼成连贯的图像。但 ChatGPT 的最新更新使用了所谓的“自回归算法”,将图像更像语言一样处理,将其分解为“标记”。正如 ChatGPT 预测句子中最可能的单词一样,它现在可以分别预测图像中的不同视觉元素。
这种标记化使算法能够更好地分离图像的某些特征及其与提示中单词的关系。因此,与早期的图像生成器相比,ChatGPT 能够更准确地根据精确的用户提示创建图像。它可以替换或更改特定特征,同时保留图像的其余部分,并改善了长期以来在图像中生成正确文本的问题。
在大型语言模型中生成图像的一个特别强大的优势是能够利用系统中已经编码的所有知识。这意味着用户不需要详细描述图像的每个方面。他们只需提及吉卜力工作室等概念,AI 就能理解这一参考。
最近的吉卜力风格趋势始于 OpenAI 本身,随后在硅谷软件工程师中传播,甚至波及到政府和政治人物——包括看似不太可能的用途,如白宫创建了一张被驱逐的哭泣女性的吉卜力风格图像,以及印度政府宣传总理纳伦德拉·莫迪的“新印度”叙事。
生成式 AI 系统不以任何传统意义存储信息。相反,它们将文本、事实或图像片段编码为神经网络中的模式或“风格”。经过大量数据的训练,AI 模型学会在多个层次上识别模式。较低的网络层可能捕捉到基本特征,如单词关系或视觉纹理。较高的层则编码更复杂的概念或视觉元素。
这意味着一切——物体、属性、写作体裁、专业声音——都被转化为风格。当 AI 学习宫崎骏的作品时,它并不是存储实际的吉卜力工作室帧(尽管图像生成器有时可能会生成输入图像的近似模仿)。相反,它将“吉卜力风格”编码为一种数学模式——一种可以应用于新图像的风格。
同样的情况也适用于香蕉、猫或公司邮件。AI 学习“香蕉性”、“猫性”或“公司邮件性”——这些模式定义了什么是可识别的香蕉、猫或专业通信。风格的编码和转移长期以来一直是视觉 AI 的明确目标。现在,有了一个以空前规模和精确度实现这一目标的图像生成器。
这种方法在文本和图像上都开启了显著的创意可能性。如果一切都是风格,那么这些风格可以自由组合和转移。这就是为什么这些系统被称为“风格引擎”。尝试创建一个猫风格的扶手椅,或者精灵风格的扶手椅。
虽然处理风格的能力使生成式 AI 如此强大,但它也是日益增长的争议的核心。对于许多艺术家来说,看到他们独特的艺术方法被简化为任何人都可以通过简单文本提示应用的“风格”,令人深感不安。宫崎骏尚未公开评论最近人们使用 ChatGPT 生成其世界著名动画风格的图像的趋势。但他此前曾对 AI 持批评态度。
这一切也引发了关于版权和创作所有权的新问题。传统上,版权法不保护风格,只保护特定的表达。你不能为“斯卡”音乐流派或“印象派”艺术运动申请版权。这种限制存在有充分的理由。如果某人可以垄断整个风格,那将扼杀其他人的创意表达。
但一般风格与几乎等同于某人身份的高度独特风格之间存在差异。当 AI 可以生成“以 Greg Rutkowski 风格”创作的作品时——这位波兰艺术家的名字据报道在 AI 图像生成器 Stable Diffusion 中被使用了超过 93,000 次——这可能会威胁到他的生计和艺术遗产。
一些创作者已经采取了法律行动。在 2022 年底提起的一起案件中,三位艺术家组成集体诉讼多个 AI 公司,认为他们的图像生成器是在未经许可的情况下使用他们的原创作品进行训练的,现在允许用户生成模仿其独特风格的衍生作品。
随着技术的发展速度快于法律,新的立法工作正在进行中,试图在技术创新与保护艺术家的创意身份之间取得平衡。无论结果如何,这些辩论都突显了 AI 风格引擎的变革性本质——以及需要同时考虑其未开发的创意潜力和对独特艺术风格的更细致保护。